Recherche avancée
Libres Savoirs >> Mathématiques et leurs applications >> Probabilités et statistiques
Responsable :

Philippe Mouttou
  

Equipe Pédagogique :
Silvère Bonnabel

Niveau : Graduate

Langue du cours : Français

Période : Automne

Nombre d'heures : 26

Crédits ECTS : 2
SGS_S1625 Analyse des données
Ressources Pédagogiques :
Objectifs: Le développement rapide des moyens de calcul automatique a profondément modifié ces dernières années les conceptions traditionnelles de la statistique qui, pour l'essentiel, se fondaient sur l'étude des petits échantillons décrits par une ou deux variables seulement. Il est désormais possible de brasser de grandes masses de données multidimensionnelles grâce à des algorithmes impraticables sans ordinateur.
Sans faire appel explicitement à des modèles a priori on peut désormais effectuer directement "l'analyse des données" procurant ainsi à la statistique descriptive une puissance inconnue jusqu'alors. Les méthodes de l'analyse des données se sont révélées d'une grande efficacité et sont utilisées par un nombre croissant de praticiens dans des domaines variés allant du marketing à la géologie en passant par les sciences biologiques ou la sociologie.
Ce cours, qui complète celui du tronc commun consacré aux méthodes classiques dont la connaissance est indispensable, a pour but de familiariser les auditeurs avec ces progrès récents de la statistique.
Le terme d'analyse des données recouvre en fait diverses méthodes que l'on peut séparer dans une première approche en trois grandes catégories.
Les méthodes descriptives :
  • L'analyse en composantes principales cherche à représenter dans un espace de dimension faible un nuage de points représentant n individus, ou objets, décrits par p variables numériques en utilisant les corrélations existant entre ces variables.
  • L'analyse des correspondances étudie les proximités entre individus décrits par deux ou plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables.
  • Les méthodes de classification ou de typologie procèdent par regroupement des individus en classes homogènes.
Les méthodes explicatives :
  • La régression multiple étudie la prévision d'une variable numérique au moyen de plusieurs autres.
  • L'analyse canonique généralise la régression en étudiant les dépendances entre deux groupes de variables numériques.
  • L'analyse discriminante étudie la prévision d'une variable qualitative par des variables numériques.
Les méthodes prospectives :
  • Algorithme génétique et réseaux de neurones sont aujourd'hui des techniques qui commencent à se développer dans le monde du traitement de l'information. L'idée est ici soit d'améliorer la qualité d'une information disponible, soit encore de faciliter l'apprentissage de relations entre les données.
Malgré leur apparente diversité, les méthodes précédentes possèdent une profonde unité reposant sur la théorie des espaces vectoriels et les propriétés des formes quadratiques, ce qui semble limiter l'analyse des données, comme on l'a longtemps cru, à l'étude des relations linéaires entre variables. En fait, il n'en est rien, et la théorie du codage qui permet de traiter les variables qualitatives étend l'analyse des données aux relations non linéaires. Les champs d'application s'étendent aujourd'hui jusqu'au traitement d'un signal numérique, permettant par exemple le développement de techniques d'analyse d'images.
Les méthodes étudiées devront être comprises théoriquement et les élèves devront être capables de les mettre en oeuvre sur des cas concrets. En cela, l'objectif de cet enseignement est relativement ambitieux, puisque l'assimilation de la théorie suppose un travail suivi et la mise en application requiert un effort de familiarisation avec le logiciel informatique
Prolongements et destination du cours
Ce cours s'adresse à tous les élèves désireux de compléter leurs connaissances en statistique dans le domaine qui se développe le plus actuellement. Il peut être directement utile pour tous ceux qui seront amenés à traiter des données multiples ou simplement à interpréter les résultats produits par ce type de méthode. Enfin, cet enseignement constituera un acquis de culture générale pour de futurs ingénieurs qui ne manqueront pas de rencontrer des applications de l'analyse des données dans leur vie professionnelle.


Programme: Sommaire du cours
  • Analyse en composantes principales
  • Analyse factorielle des correspondances
  • Analyse des correspondances multiples
  • Analyse canonique.
  • Algorithmes génétiques et réseaux de neurones



Niveau requis : Cours de Statistique 1 ; algèbre linéaire et calcul matriciel ; éléments d'analyse numérique linéaire.

Modalités d'évaluation : Les élèves auront un partiel dont la structure se décompose en deux temps. Pour éviter un « bachottage » inutile sur une matière où le travail concret est important, plusieurs documents préparatoires sont distribués deux à trois jours avant l’examen. Ils permettent une meilleure appréhension de l’information disponible et créent à l’extérieur d’un cadre de contrôle l’analyse nécessaire à la bonne compréhension des techniques exposées en cours. Le partiel consiste dès lors à valider les résultats du travail préalable sur ces documents et à réfléchir aux développements possibles.
Ce mode de contrôle a été retenu pour les deux raisons suivantes :
  • d'une part, le travail sur un cas concret fait partie intégrante de la démarche pédagogique qui se veut proche de la pratique de l'analyse des données ;
  • d'autre part, les modalités traditionnelles d'examen permettent de réduire le temps d’investissement personnel en dehors des cours qui pourrait sans cela être relativement lourd.
Les élèves motivés pourront se lancer dans une étude complète en utilisant les outils informatiques de l’école. Ce choix de contrôle de connaissances exigeant sera réservé aux élèves souhaitant approfondir une ou plusieurs techniques en vue d’améliorer leurs approches de l’information dans des domaines industriels. Cette étude fera l’objet d’un rapport et d’un encadrement spécifique.

Dernière mise à jour : vendredi 10 décembre 2010

© Mines de Paris 2017 - Réalisé par Winch Communication