BRIOT

784 mots 4 pages
Datamining
Sujet Vowel
Manuel BRIOT le 5/01/2012

Présentation du contexte

Nous disposons d’un fichier de 990 enregistrement de mot prononcé par des individus. 11 mots différents ont été prononcés et des mesures ont été faites par rapport à la fréquences des sons émis.
L’objectif de cette étude de data-mining est de mettre en place le modèle le plus performant possible pour prédire en fonction de mesure le mot prononcé par une personne.
Quelques statistiques…

Nous allons analyser le fichier à l’aide de statistique descriptive afin d’en dégager les principales tendances.

Ci-dessus, les statistiques concernant les variables quantitatives continues de notre fichier. On remarque déjà qu’il n’y a aucune valeur manquante puisque tous les effectifs sont à 990.
D’autre part, on remarque une différence entre les moyennes et les médianes pour les variables Feature 6 et Feature 9 ce qui laisse présager que des individus tirent la moyenne vers le haut ou vers le bas. Cette caractéristique peut être intéressante dans le but d’établir une prédiction.
Les variables suivantes ont des coefficients de variation très petit : Feature 4, Feature 5, Feature6, Feature 7, Feature 8, Feature 9. Elles ont une distribution très étirées.
Notre fichier comporte 528 hommes pour 462 femmes :

Chaque classe à prédire est représenté par 90 individus :

Mise en place des modèles prédictif

L’objectif est de trouver le meilleur algorithme permettant de predire en fonction de nos 11 variables descriptives la variable « class » identifiant le mot qui a été prononcé.
Pour ce faire, nous allons tester les algorithmes suivant : arbre de decision (C4.5)
Réseaux de neurone simple
Réseaux de neurones avec couches cachées
Réseaux bayésiens
Analyse discriminante
Le ou les meilleurs algorithmes seront ensuite optimisés afin d’obtenir la meilleur prédiction possible.
A noter que dans le cas des réseaux de neurones et de l’analyse discriminante, le variable « sex » ne sera pas prise en

en relation

  • SOBIBOR
    841 mots | 4 pages
  • BLOW
    326 mots | 2 pages
  • Base de POL 1803
    1797 mots | 8 pages
  • BALI
    1429 mots | 6 pages
  • BUS TRAM
    501 mots | 3 pages
  • BEGO
    448 mots | 2 pages
  • BRADLEY
    637 mots | 3 pages
  • TFE BROUILL
    2729 mots | 11 pages
  • BONJour
    299 mots | 2 pages
  • 2014 2015 Apprentissage Statistique M2
    15830 mots | 64 pages
  • La présence de l'auteur
    791 mots | 4 pages
  • Attribution causale
    3172 mots | 13 pages
  • logiciel R
    1498 mots | 6 pages
  • logiciel R
    1498 mots | 6 pages
  • initiation à la mathode d'analyse rapide et de planification participative
    2009 mots | 9 pages