Introduction a l'apprentissage supervisé
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco Rakotomalala
Université Lumière Lyon 2http://tutoriels-data-mining.blogspot.fr/Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Tableau de données
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y …afficher plus de contenu…
les bornes de discrétisation)
En apprentissage pouvoir tester plusieurs pistes (ajout de variables, test de combinaison de variables, modifications de paramètres, etc.)
En classement, affecter une étiquette à un nouvel individu
Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)
Évaluer la précision (qualité) du modèle lors de son utilisation futurehttp://tutoriels-data-mining.blogspot.fr/Ricco …afficher plus de contenu…
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Évaluation de l’apprentissage – Matrice de confusion
Principe : confronter la valeur observée avec la prédiction
+ - Total
+ a b a+b
- c d c+d
Total a+c b+d n
Prédite
O b s e rv é e
Quelques indicateurs :
• Vrais positifs VP = a
• Faux positifs FP = c
• Taux d’erreur = (c+b)/n
• Sensibilité = Rappel = Taux de VP = a/(a+b)
• Précision = a/(a+c)
• Taux de FP = c/(c+d)
• Spécificité = d/(c+d) = 1 – Taux de FPhttp://tutoriels-data-mining.blogspot.fr/Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Évaluation – Les coûts de mauvaise affectation
+ - Total
+ 40 10 50
- 20 30 50
Total 60 40 100
Prédite
O b s e rv é e
Comparaison de deux méthodes d’apprentissage
+ -