Analyse des composantes principales
ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
1. INTRODUCTION. L’analyse en composantes principales (Hotelling, 1933) est une méthode descriptive qui a pour but l’analyse des tableaux de données qui ne présentent pas de structure particulière, c’est à dire, des observations ne comportant à priori aucune distinction, ni entre variables, ni entre individus. l’objectif de l’ACP est de résumer l’information contenue dans un tableau, constitué souvent d’un nombre élevé de lignes et de colonnes, en quelques représentations graphiques à deux dimensions, plus un certain nombre de caractéristiques numériques destinées à faciliter. L’ACP est utilisée Dans le cas plusieurs individus (n individus) mesurés par rapport à un grand nombre de variables métriques X1, X 2,....,X p . Ces variables sont la plupart du temps corrélées entre elles et détiennent des parts à peu près égales d’explication des variations observées dans les données.
De point de vue géométrique, le nuage de points représentant les données s’inscrit dans un espace à p dimensions puisque chaque
Analyse des données.
point représente un individu mesuré par rapport à X1, X 2,....,X p , ce qui est pratiquement impossible à représenter. En plus la dispersion du nuage de points sur les différentes dimensions est à peu près égale. Pour résoudre le problème, l’ACP effectue une simple rotation des axes pour obtenir de nouveaux axes appelés composantes qui sont non corrélées et sont à variance ordonnée. Pour illustrer le principe de l’ACP, considérons le cas d’un nuage de points hypothétiques pour 2 variables normales centrées réduites (moyennes nulles et variances unitaires) X1 et X 2 .
Figure 1 : Nuage de données hypothétiques dans un espace à 2 dimensions Chaque point représente un individu mesuré par rapport à X1 et X 2 , on voit bien une corrélation positive entre les 2 variables . La variance totale, V( X1 )+V( X 2 )=2, est partagée à peu près également entre X1 et X 2 .
Analyse