Analyse en coposantes principales

Disponible uniquement sur Etudier
  • Pages : 18 (4434 mots )
  • Téléchargement(s) : 0
  • Publié le : 12 avril 2013
Lire le document complet
Aperçu du document
Analyse en composantes principales

5

10

L’analyse en composantes principales (ACP), développée en France dans les années 1960 par JP. Benzécri, est une méthode de statistique exploratoire permettant de décrire un grand tableau de données de type individus / variables. Lorsque les individus sont décrits par un nombre important de variables, aucune représentation graphique simple ne permetde visualiser le nuage de points formé par les données. L’ACP propose une représentation dans un espace de dimension réduite, permettant ainsi de mettre en évidence d’éventuelles structures au sein des données. Pour cela, nous recherchons les sous-espaces dans lesquels la projection du nuage déforme le moins possible le nuage intial. Dans la suite, nous identifions un vecteur x ∈ Rp avec lamatrice colonne de ses coordonnées dans la base canonique, que nous notons x = (x1 , . . . , xp )t , où pour une matrice A, At désigne sa transposée.

1 Les données
Les données sont sous la forme d’un tableau à n lignes et p colonnes, que l’on stocke sous la forme d’une matrice X de taille n × p : – chaque ligne (x1 , . . . , xp ) de X représente les valeurs prises par l’individu i sur les pvariables, i i – de même chaque colonne (xj , . . . , xj )t de X représente les valeurs de la variable j pour les n 1 n individus. p Par simplicité de langage, l’individu i sera indentifié au vecteur xi = (x1 , . . . , xi )t de Rp tandis que la i j variable j sera identifiée au vecteur xj = (x1 , . . . , xj )t de Rn . n L’exemple que nous traiterons tout au long de ce document est le suivant : lors d’unconcours agricole, un jury a donné des notes à 10 marques de cidres relativement à 10 critères de dégustation. Le Tableau 1 reprend ces notes. Dans notre formalisme d’ACP, les marques de cidres sont les individus et les critères gustatifs sont les variables.
25

15

20

1.1 Point moyen du nuage des individus
Le vecteur g des moyennes arithmétiques de chacune des p variables définit le pointmoyen du nuage des individus : g = (¯1 , . . . , xp )t x ¯ (1)

30

1 où xj = n n xj est la moyenne1 des valeurs prises par la j-ème variable. ¯ i=1 i En retranchant xj aux valeurs de la variable j prises par les individus, on construit le tableau Y des ¯ j données centrées : yi = xj − xj . La matrice Y correspondante s’écrit en fonction de X de la façon ¯ i
1

Notez que nous supposons icique tous les individus ont le même poids, ce qui n’est pas systématique en ACP.

1

cidre 1 2 3 4 5 6 7 8 9 10

odeur 2,14 2,43 2,71 3 3,43 3,14 3,14 2,43 5,1 3,07

sucre 1,86 0,79 3,14 3,71 1,29 0,86 1,14 3,71 2,86 3,14

acide 3,29 2,71 2,57 2,14 2,86 2,86 2,86 3,21 2,86 2,57

amer 2,29 2,57 2,57 2,07 3,14 3,79 2,86 1,57 3,07 3

astringence 2 2 1,43 1,57 2,17 2,57 2 1,71 1,79 2suffocante 0,14 0,43 0,14 0 1 0,14 0,43 0 1,71 0

piquante 2,29 2,57 2,14 1,29 1,86 1,71 1,71 1 0,43 0,43

alcool 1,86 2,86 0,86 1 2,86 3,29 1,86 0,57 1,43 1,29

parfum 1,29 0,43 2,29 3,14 1,14 0,14 0,14 2,57 0,57 2,57

fruitée 1,29 0,14 1,71 3,14 0,29 0 0 2,86 2,71 3,07

TAB . 1 – Notes obtenues par 10 marques de cidres sur 10 critères lors d’un concours agricole. suivante : Y = X − 1g toù 1 est le vecteur de Rn dont toutes les composantes valent 1. Le terme centré signifie que les moyennes des variables y j sont nulles.

1.2 Matrice de variance
35

1 ¯ On note s2 = n n (xj − xj )2 la variance de la variable j, sa racine carré sj est l’écart-type et j i=1 i 1 k vkl = n n (xi − xk )(xl − xl ) est la covariance des variables k et l. ¯ ¯ i i=1 On appelle matrice de variance lamatrice symétrique V contenant les variances s2 sur la diagonale j et les covariances vkl en dehors de la diagonale (ligne k colonne l pour vkl ). Cette matrice s’écrit :

V =
40

1 t 1 X X − gg t = Y t Y. n n

(2)

45

50

De même, on définit le coefficient de corrélation linéaire entre les variables k et l par rkl = svkkll . s Ce coefficient exprime le niveau de corrélation (linéaire)...
tracking img