Acp avec tanagra

Disponible uniquement sur Etudier
  • Pages : 11 (2644 mots )
  • Téléchargement(s) : 0
  • Publié le : 11 avril 2013
Lire le document complet
Aperçu du document
Didacticiel - Études de cas

R.R.

1 Objectif
Comparer les performances de Tanagra et R pour une CAH Mixte sur un fichier de grande taille. La CAH (classification ascendante hiérarchique) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement des individus de manière à ce que les individus du même groupe soient semblables, des individusdans des groupes différents soient dissemblables. Le succès de la CAH repose sur sa capacité à produire des partitions emboîtées. Au lieu de fournir une solution clé en main, irréversible, elle donne la possibilité de choisir, parmi les regroupements proposés, celui qui correspond au mieux aux contraintes de l’étude et aux objectifs de l’analyste. Cet avantage s’accompagne d’une représentationgraphique, le dendrogramme. Il nous suggère, dans le continuum des solutions envisageables, celles qui semblent les plus pertinentes. Son principal défaut est le temps de calcul. Il devient vite rédhibitoire dès que le nombre d’observations est élevé. Pour dépasser cet écueil, on procède alors à la CAH Mixte. Elle consiste à faire précéder la CAH proprement dite par une phase de pré-regroupement, enutilisant un algorithme des nuées dynamiques par exemple, la CAH prend alors comme point de départ ces préclasses. De fait, avec cette stratégie, il devient possible de traiter de très grands fichiers tout en bénéficiant des avantages de la CAH. Cette approche a déjà été largement abordée dans un de nos anciens didacticiels (voir CAH Mixte – Le fichier IRIS de Fisher,http://tutoriels-data-mining.blogspot.com/2008/03/cah-mixte-le-fichier-irisde-fisher.html). La méthode est par ailleurs longuement décrite dans l’ouvrage de Lebart et al. (2000)1. Conformément à ce qui est préconisé par les auteurs, nous réalisons la classification sur les axes factoriels de l’ACP (analyse en composante principale). L’idée est de « lisser » les informations exploitées en évacuant les fluctuations aléatoires.L’enjeu dans ce didacticiel est de mettre en œuvre cette stratégie sur un fichier de taille relativement considérable, avec 500.000 observations et 68 variables. Nous utiliserons Tanagra 1.4.27 et R 2.7.2. Nous nous en tenons à ces deux logiciels. En effet, il n’est pas possible d’implémenter la CAH Mixte avec les autres logiciels libres (Weka, Orange, Knime, Rapidminer). Et lancer directement laCAH standard sur un tel fichier n’est pas raisonnable. On remarquera au passage la puissance de R à ce niveau. Si Tanagra a été pensé pour mettre en œuvre la CAH Mixte (suite à une lecture assidue de la référence Lebart et al.), je ne suis pas sûr qu’il en ait été de même pour R. Et pourtant, en cherchant un peu, je me suis rendu compte que tout était à disposition pour réaliser les opérationsadéquates avec les packages usuels.

2 Données
Nous utilisons les données « 1990 US Census Data » dans ce didacticiel2. Il comporte 68 variables. Certaines d’entre elles sont des variables discrétisées, d’autres sont des variables indicatrices. Nous n’allons pas trop nous attarder dessus, considérant que toutes les variables sont numériques. Notre principal objectif est de montrer la faisabilité dela CAH mixte sur de grands fichiers.

L. Lebart, A. Morineau, M. Piron, « Statistique Exploratoire Multidimensionnelle », Dunod, 2000 ; chapitre 2, sections 2.3 et 2.4.
1 2

http://archive.ics.uci.edu/ml/databases/census1990/USCensus1990-desc.html

17 octobre 2008

Page 1 sur 15

Didacticiel - Études de cas

R.R.

Le fichier originel comporte 2.458.285 observations. Nous en avonsextrait aléatoirement en échantillon3 de 500.000. La raison est que R n’a pas pu mener à bien l’analyse sur le volume initial. Des erreurs lors des allocations mémoires internes sont survenues (ma machine dispose de 2 GB de RAM). J’ai essayé de modifier le paramétrage de la gestion mémoire, mais rien n’y a fait. J’ai également essayé de diminuer graduellement la taille de fichier. A 1.000.000...
tracking img