Analyse des données
1: La typologie
OBJECTIF
Classification de N individus (définis par p variables Xj) en plusieurs groupes (K) tel que: • Homogénéité maximale dans chaque groupe
• Hétérogénéité maximale d’un groupe à l’autre
MÉTHODES
1. CLASSIFICATION ASCENDANTE HIÉRARCHIQUE: Agrégations successives d’individus ou groupes d’individus deux à deux les plus « proches »
2. NUÉES DYNAMIQUES: Les groupes sont fixés à priori:
• agrégations séquentielles autour de K « noyaux »
• calcul des barycentres des K groupes, devenant les nouveaux « noyaux » • itération jusqu’à convergence
Présentation de la CAHI
• La CAH s’applique « normalement » sur des individus statistiques (personnes, marques…) • On souhaite regrouper ces individus selon un critère de ressemblance
• Les données : – Soit un tableau individus/variables – Soit un tableau de distances entre individus
Paramètres à définir
• Les données d’origine (brutes, normalisées…)
• La distance entre individus (euclidienne,
2…)
• Le critère d’agrégation entre deux classes (saut minimum, diamètre = saut maximum, ward, moyenne…)
Proximité: Distance et Similarité Distance: Elle doit satisfaire à trois axiomes:
– Signe: d(A,B)≥0 ; d(A,B)=0 A=B
– Symétrie: d(A,B)= d(B,A)
– Inégalité du triangle: d(A,B) ≤ d(A,C) + d(B,C)
– Exemple: Distance Euclidienne:
Proximité : Distance • Distance Euclidienne
. YB ……………………………………B . d ………………..A . . YA . . . . . . XB
XA
d2 (A,B) = (XB-XA)2+(YB-YA)2
Proximité: distance
• Distance les plus usuelles p – – –
Euclidienne: d2 (A,B) = ∑(XAK-XBK)2d2 (A,B) = (XB-XA)2+(YB-YA)2 Distance de Minkowski: d (A,B) = ( ∑|XAK-XBK|n )1/nd2
1
Si n=1 , d (A,B) = ∑|XAK-XBK| « city Block »
Critères d’agrégation
Saut minimum
Diamètre
Approche intermédiaire: d ((a,b),c) = d(a,c)+d(b,c) / 2
Algorithme de la CAHI (exemple Tableau de distance)
Exemple du saut minimum
A 0 16 1 9 10
Tableau de distance Entre individu