Random forest

7586 mots 31 pages
Random Forest : Généralisation des arbres de classification.
Le Random Forest ou « Forêt Aléatoire » est une méthode d'apprentissage supervisée. Cette méthode propose une solution au problème de sur-ajustement rencontré dans les méthodes d'arbres de décision classique. Il s'agit donc ici de construire un ensemble d'arbres, « forêt », ou chaque arbre vote pour une classe. La construction de chacun de ces arbres (par la méthodes classique) est combinée à une double randomisation. Le nombre de d'arbres doit-être suffisamment grand pour que l'analyse ai un sens. Afin de l'étudier cette méthode, sera appliquer sur deux jeu de donnée : Tout d'abord le « crabs », qui contient 200 spécimens de Leptograpsus variegatus dont 100 femelles et 100 mâles (comportant chacun 50 bleues et 50 oranges). Pour chacune des variables: – longueur de la carapace (CL) – largeur de la carapace (CW) – taille du lobe frontal (FL) – taille du rostre (RW) – profondeur du corps (BD) on cherche à savoir s'il y a une corrélation avec soit le sexe, soit la couleur des spécimens, afin de prédire l'appartenances des individus aux différents groupes et de définir des règles de classification pour séparer sexe et couleurs. Puis sur « musk » contenant 475 descripteurs dont on chercher à prédire les caractéristique des gènes qui sont « musk » (notés 1 dans la colonne 169) ou « non musk » (notés 0 dans cet colonne 169). C'est ce que nous allons voir dans un premier temps en cherchant le nombre de variables à utiliser, puis en étudiant dans un second temps l'importances des variables.

1) Jeu de données crabs:
Le random forest est lancé sur le jeu de donnée « crabs2 », qui correspond au jeu de donnée « crabs » moins la colonne 3, qui correspond a un index et n'a pas d’intérêt pour la construction des arbres. resRF = randomForest(sex~., data=crabs2) #on stock la sortie dans la variable resRF

La fonction randomForest prend comme argument une matrice ou une dataframe : data=crabs2 et une formule qui

en relation

  • Cave chaussac
    336 mots | 2 pages
  • Darwin et lamarck
    279 mots | 2 pages
  • Cugel l'asctucieux: la nouvelle manquante
    10359 mots | 42 pages
  • La mort et ses croyances: les monstres marins
    1427 mots | 6 pages
  • Bordeau chesnel
    3219 mots | 13 pages
  • caractéristique publique 6-11 ans
    326 mots | 2 pages
  • Le comportement du consommateur de lutettes de soleil
    3748 mots | 15 pages
  • La loutre
    1037 mots | 5 pages
  • Le père de nos pères dissertation théorie négative positive
    1600 mots | 7 pages
  • Deforestation
    254 mots | 2 pages
  • Methodologie de projet
    2335 mots | 10 pages
  • L'odyssé
    491 mots | 2 pages
  • adm3010_TN1
    2036 mots | 9 pages
  • Zola
    2210 mots | 9 pages
  • L'art ne s'adresse t'il qu'à nos sens ?
    2044 mots | 9 pages