Random forest

7586 mots 31 pages
Random Forest : Généralisation des arbres de classification.
Le Random Forest ou « Forêt Aléatoire » est une méthode d'apprentissage supervisée. Cette méthode propose une solution au problème de sur-ajustement rencontré dans les méthodes d'arbres de décision classique. Il s'agit donc ici de construire un ensemble d'arbres, « forêt », ou chaque arbre vote pour une classe. La construction de chacun de ces arbres (par la méthodes classique) est combinée à une double randomisation. Le nombre de d'arbres doit-être suffisamment grand pour que l'analyse ai un sens. Afin de l'étudier cette méthode, sera appliquer sur deux jeu de donnée : Tout d'abord le « crabs », qui contient 200 spécimens de Leptograpsus variegatus dont 100 femelles et 100 mâles (comportant chacun 50 bleues et 50 oranges). Pour chacune des variables: – longueur de la carapace (CL) – largeur de la carapace (CW) – taille du lobe frontal (FL) – taille du rostre (RW) – profondeur du corps (BD) on cherche à savoir s'il y a une corrélation avec soit le sexe, soit la couleur des spécimens, afin de prédire l'appartenances des individus aux différents groupes et de définir des règles de classification pour séparer sexe et couleurs. Puis sur « musk » contenant 475 descripteurs dont on chercher à prédire les caractéristique des gènes qui sont « musk » (notés 1 dans la colonne 169) ou « non musk » (notés 0 dans cet colonne 169). C'est ce que nous allons voir dans un premier temps en cherchant le nombre de variables à utiliser, puis en étudiant dans un second temps l'importances des variables.

1) Jeu de données crabs:
Le random forest est lancé sur le jeu de donnée « crabs2 », qui correspond au jeu de donnée « crabs » moins la colonne 3, qui correspond a un index et n'a pas d’intérêt pour la construction des arbres. resRF = randomForest(sex~., data=crabs2) #on stock la sortie dans la variable resRF

La fonction randomForest prend comme argument une matrice ou une dataframe : data=crabs2 et une formule qui

en relation

  • Cave chaussac
    336 mots | 2 pages
  • Cours Ing Nierie Financi Re 2 IFCF
    3860 mots | 16 pages
  • caractéristique publique 6-11 ans
    326 mots | 2 pages
  • Cugel l'asctucieux: la nouvelle manquante
    10359 mots | 42 pages
  • Bordeau chesnel
    3219 mots | 13 pages
  • Le comportement du consommateur de lutettes de soleil
    3748 mots | 15 pages
  • La mort et ses croyances: les monstres marins
    1427 mots | 6 pages
  • Le père de nos pères dissertation théorie négative positive
    1600 mots | 7 pages
  • Deforestation
    254 mots | 2 pages
  • L'odyssé
    491 mots | 2 pages
  • adm3010_TN1
    2036 mots | 9 pages
  • Darwin et lamarck
    279 mots | 2 pages
  • Zola
    2210 mots | 9 pages
  • Bp banque
    1799 mots | 8 pages
  • Développement intellectuel de l'enfant
    1591 mots | 7 pages