Analyse
l'analyse de données
Analyse en Composantes Principales
Les données
Les données se présentent sous la forme d’un tableau de n individus décrits par p variables quantitatives. X3
Dans l’espace ℜ p L'ACP est la plus connue des analyses factorielles. Elle fournit une représentation graphique 2D simplifiée de données multidimensionnelles, directement analysable par notre cerveau. Elle est fondée sur la recherche du meilleur « résumé » graphique possible d'un ensemble de données, en particulier de l'angle de vue selon lequel les données seront les plus « étalées ».
X2 X1 Chaque individu peut être représenté par un point dans un espace à p dimensions. L'ensemble des points forme un nuage. On cherche à comprendre la forme du nuage de points pour pouvoir le représenter le mieux possible en 2D sous forme simplifiée. Lorsque les unités de mesure diffèrent beaucoup entre les variables, on standardise les données. L'ACP est alors dite « normée ».
Interprétation des facteurs Etude des variables: Une variable est bien représentée si son extrémité est proche du cercle de rayon 1 (cercle de corrélation). On observe la disposition des variables bien représentées. Cette étude des variables conduit généralement à donner une signification synthétique aux facteurs.
Variables (axes F1 et F2 : 84 %)
Caractéristiques physiques
1 H 0,8 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 -1 -0,5 0 -- axe F1 (50 %) --> 0,5 1 W MRI
Intelligence
PIQ VIQ FSIQ
Principe de l’ACP
On cherche un ensemble d’axes factoriels (les composantes principales) qui, pris deux à deux, définissent des plans (2D). Les axes doivent être choisis de manière à déformer le moins possible la structure du nuage, à l'étendre le plus possible. Pour chaque point, on cherche à minimiser les distances entre le point et ses projections sur les axes factoriels. Pour cela, l’information