Calcul de plongement topologiques pour des documents structurés

Résumé

Les algorithmes qui sous-tendent les tâches d'extraction et de classification des données non structurées reposent plutôt sur des méthodes statistiques. L'usage massif des techniques d'apprentissage repose sur une utilisation intensive de ces algorithmes. L'une des étapes, utilisée notamment dans le traitement de données textuelles, consistent à calculer des plongements topologiques (voir WordToVec). Il s'agit de représenter les vocabulaires dans des espaces topologiques. L'objectif est d'obtenir une représentation du sens des mots par le fait que la distance entre mots dans les espaces topologiques représente la proximité sémantique.

Dans le cadre de ce projet, nous proposons dans un premier temps d'étudier les méthodes permettant de calculer des plongements topologiques de données (structurées ou non). Dans un second temps, d'étudier comment la topologie calculée peut aider à l'optimisation de requêtes sur des données structurées.

Mots-clés

Base de données, documents, requêtes, fouilles de données

Équipe

Links

Encadrants

Charles Paperman, Sylvain Salvati

Présentation détaillée

Présentation générale

Les méthodes d'analyse et de traitement des données peuvent être réparties en deux catérogies :

Alors que les données structurées représentent des informations de manière lisible par des machines (pages web, document XML, document JSON, ...), les documents non structurés sont vus comme de simples suites de lettres dont il est difficile d'extraire un sens.

Les données structurées peuvent être interrogées par des requêtes qui exploitent cette structure par l'intermédiaire de langages dédiés, (Regexp, SQL, Xpath,...). La gestion et l'analyse de très gros volume de données structurées requiert des traitements très efficaces de ces requêtes. Les moteurs d'exécution des langages de requêtes atteignent aujourd'hui leurs limites. L'optimisation des algorithmes utilisés par ces moteurs constitue un pan de recherche important de la gestion des données massives.

Les algorithmes qui sous-tendent les tâches d'extraction et de classification des données non structurées reposent plutôt sur des méthodes statistiques. L'usage massif des techniques d'apprentissage repose sur une utilisation intensive de ces algorithmes. L'une des étapes, utilisée notamment dans le traitement de données textuelles, consistent à calculer des plongements topologiques (voir WordToVec). Il s'agit de représenter les vocabulaires dans des espaces topologiques. L'objectif est d'obtenir une représentation du sens des mots par le fait que la distance entre mots dans les espaces topologiques représente la proximité sémantique.

La dichotomie entre données structurées et données non structurées est moins nette que le laissent entendre les méthodes qui leur sont dédiées. En effet, la plupart des documents structurées contiennent des données non structurées (des textes, des images, des vidéos...). Ainsi, la massification des données qui introduit naturellement (et même pour des données structurées) des méthodes statistiques, ainsi que la porosité entre données structurées et données non-structurées appellent à un panachage des méthodes qui leur sont consacrées.

S'il existe d'ores et déjà des approches topologiques pour traiter des documents structurés, ces dernières reposent essentiellement sur l'analyse de la structure en laissant de côté les valeurs de données qui l'accompagnent.

Résumé

Dans le cadre de ce projet, nous proposons dans un premier temps d'étudier les méthodes permettant de calculer des plongements topologiques de données (structurées ou non). Dans un second temps, d'étudier comment la topologie calculée peut aider à l'optimisation de requêtes sur des données structurées.

Mots-clés

Base de données, documents, requêtes, fouilles de données

Encadrement

Équipe(s): LINKS

Encadrant(s):

Localisation: Inria Lille – Nord Europe, bâtiment B

Présentation

Pré-requis

Travail à effectuer

Dans le cadre de ce projet de recherche, l'étudiant devra dans un premier temps comprendre les grandes méthodes algorithmiques de calcul de vectorisation de documents existantes au travers une lecture partielle du survey de Algergawy et al. [1]. Une partie des méthodes présentes dans ce survey nécessitent de pouvoir vectoriser les valeurs de données textuelles des documents, c'est-à-dire, de calculer des plongements topologiques de documents non structurés.

La compréhension des méthodes modernes de tels calculs devra donc être également abordée, notamment au travers la lecture de l'article [2].

Une fois ces thématiques bien comprises, l'étudiant pourra mettre en place un protocole expérimental pour évaluer une ou des méthodes de son choix, sur un ou des jeux de données de son choix.

Bibliographie