Acp avec tanagra
R.R.
1 Objectif
Comparer les performances de Tanagra et R pour une CAH Mixte sur un fichier de grande taille. La CAH (classification ascendante hiérarchique) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement des individus de manière à ce que les individus du même groupe soient semblables, des individus dans des groupes différents soient dissemblables. Le succès de la CAH repose sur sa capacité à produire des partitions emboîtées. Au lieu de fournir une solution clé en main, irréversible, elle donne la possibilité de choisir, parmi les regroupements proposés, celui qui correspond au mieux aux contraintes de l’étude et aux objectifs de l’analyste. Cet avantage s’accompagne d’une représentation graphique, le dendrogramme. Il nous suggère, dans le continuum des solutions envisageables, celles qui semblent les plus pertinentes. Son principal défaut est le temps de calcul. Il devient vite rédhibitoire dès que le nombre d’observations est élevé. Pour dépasser cet écueil, on procède alors à la CAH Mixte. Elle consiste à faire précéder la CAH proprement dite par une phase de pré-regroupement, en utilisant un algorithme des nuées dynamiques par exemple, la CAH prend alors comme point de départ ces préclasses. De fait, avec cette stratégie, il devient possible de traiter de très grands fichiers tout en bénéficiant des avantages de la CAH. Cette approche a déjà été largement abordée dans un de nos anciens didacticiels (voir CAH Mixte – Le fichier IRIS de Fisher, http://tutoriels-data-mining.blogspot.com/2008/03/cah-mixte-le-fichier-irisde-fisher.html). La méthode est par ailleurs longuement décrite dans l’ouvrage de Lebart et al. (2000)1. Conformément à ce qui est préconisé par les auteurs, nous réalisons la classification sur les axes factoriels de l’ACP (analyse en composante principale). L’idée est de « lisser » les informations exploitées en évacuant les fluctuations aléatoires.