Analyse descriminante

Disponible uniquement sur Etudier
  • Pages : 7 (1599 mots )
  • Téléchargement(s) : 0
  • Publié le : 7 avril 2011
Lire le document complet
Aperçu du document
Une approche pour rendre calculable P(Y/X) Ricco RAKOTOMALALA

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

1

Théorème de Bayes
Probabilité conditionnelle

Estimer la probabilité conditionnelle
P (Y = y
k

/ X

)=
=

P (Y = y

P (X / Y = y k ) P (X ) P (Y = y k ) × P ( X / Y = y k
k



)
k



K

k =1

P (Y = y

k



P

(X/Y = y

)

Déterminer la conclusion = déterminer le max.
y y
k *

= arg = arg

max
k

P (Y = y

k

/ X

)


k *

max
k

P (Y = y

k



P

(X

/Y = y

k

)

Probabilité a priori Estimé facilement par nk/n
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

Comment estimer P(X/Y=yk)
Impossibilité à estimer avec des fréquences Letableau croisé serait trop grand et rempli de zéros

2

[1] Hypothèse de normalité
Loi normale multidimensionnelle

La normalité de la probabilité conditionnelle P(X/Y)

P(

X 1 = v1 ,K , X J = v J

yk ) =

1 2 π det( Σ k )

e

− 1 ( X − µ k ) Σ k −1 ( X − µ k )' 2

(X1) pet_length v s . (X2) pet_w idth by (Y ) ty pe

µk
Σk

2

µ3

Centre de gravité conditionnelleMatrice de variance co-variance conditionnelle 1

µ2

µ1
1 2 3 Iris -s etos a 4 Iris -v ers ic olor 5 Iris -v irginic a 6

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

3

[2] Homoscédasticité

Égalité des matrices de variance co-variance conditionnelles

Σ = Σ k , k = 1, K , K
( X 1 ) p e t_ le n g th v s . ( X 2 ) p e t_ w id th b y ( Y ) ty p e

2

µ3µ2
1

µ1
1 2 3 Ir is - s e to s a 4 Ir is - v e r s ic o lo r 5 Ir is - v ir g in ic a 6

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

4

Fonction linéaire discriminante
Simplification des formules sous [1] et [2]
La probabilité conditionnelle est donc proportionnelle à

ln P( X yk ) ∝ − 1 ( X − µk )Σ −1 ( X − µ k )' 2
Avec les estimations surl’échantillon de taille n, K classes et J descripteurs

 xk ,1    ˆ µ k = M  x   k ,J 

Moyennes conditionnelles

1 K ˆ ˆ Σ= ∑ nk × Σk n − K k =1

Matrice de variance co-variance intra-classes

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

5

Fonction linéaire discriminante
Linéarité du modèle d’affectation
Fonction discriminante linéaire proportionnelle àP(Y=yk/X)

1 d (Yk , X ) = ln[P (Y = yk )] + µ k Σ −1 X '− µ k Σ −1µ k ' 2
Règle d’affectation

d (Y1 , X ) = a1, 0 + a1,1 X 1 + a1, 2 X 2 + L + a1, J X J d (Y2 , X ) = a2, 0 + a2,1 X 1 + a2, 2 X 2 + L + a2, J X J L
Avantages et inconvénients

y

k*

= arg

max
k

d (Y k , X )

ADL propose les mêmes performances que les autres méthodes linéaires >> Elle est assez robuste par rapportà l’hypothèse de normalité >> Elle est gênée par la forte violation de l’homoscédasticité (formes de nuages très différentes) >> Elle est sensible à une forte dimensionnalité et/ ou la corrélation des descripteurs (inversion de matrice) >> Elle n’est pas opérationnelle si la distribution est multimodale (ex. 2 ou + « blocs » de nuages pour Y=Yk)
Montrer exemple avec le fichier BINARY WAVES –Lecture des résultats et déploiement Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

6

ADL

Caractéristiques géométriques de la règle d’affectation
d(Yk,X) pour un individu à classer ω dépend de

( X (ω ) − µ k )Σ −1 ( X (ω ) − µ k )'
Règle géométrique d’affectation : Distance par rapport aux centres

de gravité avec la métrique de Mahalanobis

On comprend mieuxles problèmes sous hétéroscédasticité (le calcul de la distance est biaisée), et lorsque la distribution est multimodale (le centre de gravité ne représente plus rien)
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

7

ADL

Interprétation sous la forme d’un apprentissage par paritionnement
Forme de la frontière entre les groupes

Séparation linéaire entre les...
tracking img