Vous êtes ici : FIL > Portail > Master Informatique > M2 MOCAD > EI

Extraction d'information (EI)

Responsable

Joachim Niehren

Intervenants

  • Angela Bonifati
  • Joachim Niehren

Crédits

3 ECTS

Objectifs

L'UE vise les apprentissages des modèles formels de représentation de données (XML et relationnel), des algorithmes et formalismes de manipulation des données et la connaissance de deux types d'extraction : l'accès aux données quand l'information est explicitement représentée dans un modèle de données et la recherche d'information et les techniques d'apprentissage automatique quand l'information n'est pas explicitement représentée. Au terme de cette UE, les étudiants sauront choisir un modèle de représentation et les outils algorithmiques en fonction de l'application, sauront exprimer des requêtes dans différents modèles de données avec les mêmes formalismes de haut niveau (logique, algèbre), sauront choisir une méthode d'apprentissage en fonction des objectifs d'extraction et des données, sauront automatiser des procédures d'échanges de données à l'aide de techniques d'apprentissage automatique, sauront appliquer les différentes méthodes d'apprentissage dans le contexte du Web.

Contenu

L'UE est subdivisée en deux éléments constitutifs :
  • Fondements des bases de données et XML
  • Le cours présente les formalismes dédiés à la représentation des documents XML, des bases de données et leur usage en extraction d'information. Une partie du cours introduit les formalismes de requêtes pour le modèle relationnel: l'algèbre et le calcul relationnels, les programmes datalog. Après la présentation de la logique monadique du second ordre, une autre partie du cours s'intéresse aux connexions entre logique et automate, spécifiquement dans le cas des arbres. De nombreuses illustrations dans le cadre d'Internet et de l'interrogation de documents ou de bases de données XML accompagnent le cours.

  • Apprentissage Automatique
  • Le cours présente les utilisations de l'apprentissage dans le contexte de l'internet et des documents XML essentiellement à travers les tâches de classification, de segmentation, de transformation et d'annotation. Les illustrations concernent la recherche et l'extraction d'informations. Différents algorithmes sont étudiés basés soit sur des approches syntaxiques ou statistiques.

Enfin, les étudiants réaliseront un projet d'extraction d'information mettant en oeuvre les différentes connaissances acquises dans ces deux EC.

Documents

Pour la partie "Foundations_of_Database_and_Data_Integration" : ici.