Analyse de données sous matlab
Analyse de données Année 2009 Pour Emmanuel Dellandrea
TD4 CLASSIFICATION NON SUPERVISEE
Nous avons vu 3 méthodes d'analyse factorielle jusqu'à maintenant, l'Analyse par Composantes Principales (ACP), l'Analyse Factorielle des Correspondances Binaires (AFC) et l'Analyse Factorielle des Correspondances Multiples (ACM). Il existe d'autres méthodes pour pouvoir mieux visualiser des informations contenues dans des tableaux de données : les méthodes de classification non supervisées. Elles complètent les analyses factorielles en faisant apparaître des groupes. On étudiera la méthode des centres mobiles et la classification ascendante hiérarchique : La méthode des centres mobiles est utilisée comme technique de réduction en association avec des méthodes d'analyse factorielle, et est particulièrement adaptée aux tableaux qui ont beaucoup de données. Sa difficulté principale réside dans le choix initial des centres. Souvent, on choisit les centres par tirage aléatoire. La classification ascendante hiérarchique (CAH) procède par étapes : à chaque étape, deux éléments sont regroupés, pour former des arbres et au final pour former un dendrogramme présentant l'agglomération obtenue ; cette agglomération dépend également de la stratégie d'agrégation, c'est-à-dire du choix des distances. Son principal inconvénient est qu'elle ne peut pas s'appliquer à un grand nombre de données car sa complexité est élevée. Dans la pratique, on combine une méthode de classification non supervisée avec une méthode d'analyse factorielle. C'est l'objet de ce TD, dans lequel nous combinerons les méthodes suivantes : ACP + CAH ACP + centres mobiles ACM + CAH ACM + centres mobiles L'avantage de coupler une analyse factorielle avec une méthode de classification non supervisée est la réduction du grand nombre de points en un nombre de classes beaucoup plus petit. Ces classes sont ensuite traitées par une analyse factorielle. De plus, les méthodes de