Tutorial tanagra
R.R.
Objectif
Confronter plusieurs algorithmes d’apprentissage sur des échantillons d’apprentissage et de test identiques. Utilisation comparée de TANAGRA, ORANGE et WEKA. Très souvent, pour résoudre un problème d’apprentissage supervisé, nous sommes emmenés à choisir entre plusieurs algorithmes d’apprentissage. Parmi les critères d’évaluation figurent la précision des méthodes sur un échantillon test. Pour une expérimentation rigoureuse, il est fortement conseillé d’utiliser les mêmes échantillons d’apprentissage et de test, ainsi les méthodes seront directement comparables deux à deux, il est même possible de caractériser leur manière de classer, cela peut être intéressant lorsque les coûts de mauvais classement ne sont pas symétriques. Dans ce didacticiel, nous montrons le détail des opérations sur les logiciels ORANGE, WEKA et TANAGRA. Nous verrons qu’ils procèdent avec une philosophie très différente, notamment dans la préparation des fichiers, mais au final nous obtenons des résultats similaires. Nous avons choisi de mettre en compétition trois méthodes d’apprentissage pour illustrer notre propos : un SVM linéaire (Support Vector Machine), la régression logistique et un arbre de décision.
Fichier
Nous utilisons le fichier BREAST (UCI IRVINE). Il comporte un attribut classe binaire (tumeur bénigne ou maligne), 9 descripteurs, tous continus, et 699 exemples. Nous avons sélectionné 499 observations pour l’apprentissage, 200 pour le test. Nous utilisons la même subdivision pour nos trois logiciels.
24/02/2006
Page 1 sur 18
Didacticiel - Etudes de cas
R.R.
Comparer les méthodes avec ORANGE
ORANGE propose une interface composée de deux parties distinctes : un espace pour définir les traitements ; une palette d’outils située dans la partie haute de la fenêtre principale.
Tool palettes Components : Data Mining