Formations en Informatique de Lille
Portail pédagogique
Vous êtes ici : FIL > Portail > Master Info > Machine Learning > RD
Réduction de dimensions (UE: RD)
Informations Générales
Responsable Edwige Cyffers
Semestre S2
Enseignement Obligatoire -- Présentiel
UEs pré-requises SD, ACT
Modalités d’évaluation CC+CT
Structure ECTS
Élément de cours Réduction de dimensions
Unité d’enseignement RD 3
Bloc de compétence Intelligence Artificielle
Répartition horaire CM CTD TD TP à distance total
Heures encadrées 12 12 24
Heures Projet
Travail Personnel 24
Stage

dernière modification : 09/11/2021 à 07:44:01

Objectifs

Un premier objectif est que l’étudiant comprenne l’utilité de la réduction de dimension dans le contexte de l’apprentissage automatique. Ensuite, il s’agît pour lui de connaître un ensemble de méthodes importantes et de bien comprendre la réduction opérée par chacune. L’étudiant doit être capable de porter un regard critique sur le résultat de la réduction de dimension en terme de pertinence du résultat : dans quelle mesure les données réduites sont-elles identiques aux données initiales ?

Il s’agît enfin de savoir les mettre en oeuvre sur des applications pratiques, en utilisant des bibliothèques logicielles de l’état de l’art.

Programme succinct

La dimension s’entend ici comme le nombre d’attributs décrivant une donnée. Pour un jeu de données, la réduction de dimension consiste à construire une représentation compressée de chacune des données : à la place des attributs décrivant initialement chaque donnée, un jeu réduit d’attributs est calculé, avec la contrainte de ne pas perdre d’information significative. En général, il s’agît d’attribut synthétique, chacun étant la combinaison (linéaire ou non) des attributs initiaux. En réduisant la dimension, l’objectif est de concentrer l’information dans un minimum de variables pour que les algorithmes de traitement agissent plus efficacement, pour réduire l’empreinte mémoire, et aussi pour permettre une visualisation des données. La première méthode qui sera détaillée est l’analyse en composantes principales (ACP), méthode linéaire qui peut être parfaitement comprise et analysée et s’implante de manière efficace en terme de complexité temporelle. On s’intéressera au traitement au coeur de l’ACP qu’est la décomposition spectrale d’une matrice, ainsi que la décomposition en valeurs singulières (SVD). Outre les aspects purement calculatoires, on s’intéressera à l’interprétation de l’ACP. On présentera ensuite la factorisation de matrices, en particulier non négative (NMF), que l’on formulera comme un problème d’optimisation (cf. UE « ML et optimisation ») et que l’on résoudra par une descente de gradient stochastique d’une fonction objectif régularisée. On s’intéressera ensuite à des méthodes non linéaires : méthodes globales (MDS, Isomap, t-SNE) et locales (LLE) et les méthodes à base de réseaux de neurones (SOM et auto-encodeurs). Pour chaque méthode, on s’intéressera à quantifier la perte d’information résultant de la réduction de dimension. Le volet théorique du cours concernera les projections aléatoires qui sont particulièrement efficaces en terme de complexité temporelle, et dont des éléments d’analyse formelle seront décrits (en particulier le lemme de Johnson-Lindenstrauss). Les techniques de hachage seront également présentées comme des méthodes de réduction de dimension particulièrement pertinentes dans le contexte de l’apprentissage automatique.

Compétences

  • de choisir une méthode de réduction de dimension pour un usage particulier
  • d’analyser et interpréter le résultat d’une réduction de dimension
  • de mettre en oeuvre une méthode de réduction de dimension sur un jeu de données


dernière modification : 09/11/2021 à 07:44:01