Analyse des donnees : analyse en composantes principales
10
ANALYSE DES DONNEES : Analyse en composantes principales
YE Mimi EMELYANOVA Nadya TRECHAUD Amélie
IAE M1 MP
ANALYSE DES DONNEES : Analyse en composantes principales
PARTIE 1. ANALYSE EN COMPOSANTES PRINCIPALES AVEC R
L’Analyse en Composantes Principales(ACP) est une méthode de la famille de l’analyse des données et plus généralement de la statistique multivariée. Objet de la méthode : La méthode a pour objet de décrire les données contenues dans un tableau d'individus et de caractères. Ce tableau s'appelle matrice des données. Il se compose : - de lignes d'individus : des personnes, des entreprises, des journaux, etc., - de colonnes de variables : quantitatives (âge, taille, nombre d'employés, etc.). Pour obtenir une meilleur représentation des données, on prend les premières composantes principales. L'ACP peut être faite sur des données brutes ou sur des données réduites. Le but de cette méthode est de : - décrire et représenter les ressemblances entre les individus par rapport à l'ensemble des variables - décrire et représenter les corrélations linéaires entre variables. On applique usuellement une ACP sur un ensemble de N variables aléatoires X1, …, XN connues à partir d'un échantillon de K réalisations conjointes de ces variables. Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.
Chaque variable aléatoire Xn = (X1, n, …, XK, n)' a une moyenne
et un écart type óXn.
Chaque composante est un vecteur propre de la matrice de covariance des données dont la variance est /\i . Les combinaisons des composantes expliquent le plus possible la variabilité entre les individus. Les composantes principales ne sont pas corrélées et rangées par ordre de l’importance. L'inertie expliquée par la i-ème composante principale, qui est associée à la i-ème plus
grande valeur propre, est calculée avec la formule:
.
La méthode ACP permet de calculer la covariance et la