Détail du sujet

02/12/2018 Sujet 43 :  Homogénéisation de documents
Auteur : Julien Cartigny  Ecrire 
(Responsable Informatique : Julien Cartigny  Ecrire )

Ce projet fait partie d'un sujet sur l'analyse de stages afin de les classifier, c'est-à-dire d'automatiquement les rediriger vers la bonne formation, que ce soit de niveau (L3, M1, M2) ou de domaines.

L'outil devra donc extraire de tous documents (mails, texte, PDF, DOC) en utilisant un outil pour le traitement data (spark). L'outil devra tagger des entrées pour aider à l'analyse: le titre du mail, l'encodage du document, et effectuer un pré-traitement pour homogénéiser les sorties.

C'est un sujet typique de data engineering, avec un objectif de mise en production réelle avec le projet select-stages.

Outils: pyspark (une formation sur cet outil sera donnée).

Liens associés :
Sujet attribué
Affecté à : Adam Marion Noirbent [M1-INFO]  Ecrire 
Soutenance : prévue le 20/05/2019 à 11h00     Salle : Salle 226 (M3 ext.)