Random forest
Le Random Forest ou « Forêt Aléatoire » est une méthode d'apprentissage supervisée. Cette méthode propose une solution au problème de sur-ajustement rencontré dans les méthodes d'arbres de décision classique. Il s'agit donc ici de construire un ensemble d'arbres, « forêt », ou chaque arbre vote pour une classe. La construction de chacun de ces arbres (par la méthodes classique) est combinée à une double randomisation. Le nombre de d'arbres doit-être suffisamment grand pour que l'analyse ai un sens. Afin de l'étudier cette méthode, sera appliquer sur deux jeu de donnée : Tout d'abord le « crabs », qui contient 200 spécimens de Leptograpsus variegatus dont 100 femelles et 100 mâles (comportant chacun 50 bleues et 50 oranges). Pour chacune des variables: – longueur de la carapace (CL) – largeur de la carapace (CW) – taille du lobe frontal (FL) – taille du rostre (RW) – profondeur du corps (BD) on cherche à savoir s'il y a une corrélation avec soit le sexe, soit la couleur des spécimens, afin de prédire l'appartenances des individus aux différents groupes et de définir des règles de classification pour séparer sexe et couleurs. Puis sur « musk » contenant 475 descripteurs dont on chercher à prédire les caractéristique des gènes qui sont « musk » (notés 1 dans la colonne 169) ou « non musk » (notés 0 dans cet colonne 169). C'est ce que nous allons voir dans un premier temps en cherchant le nombre de variables à utiliser, puis en étudiant dans un second temps l'importances des variables.
1) Jeu de données crabs:
Le random forest est lancé sur le jeu de donnée « crabs2 », qui correspond au jeu de donnée « crabs » moins la colonne 3, qui correspond a un index et n'a pas d’intérêt pour la construction des arbres. resRF = randomForest(sex~., data=crabs2) #on stock la sortie dans la variable resRF
La fonction randomForest prend comme argument une matrice ou une dataframe : data=crabs2 et une formule qui