le différence principale entre l'arbre de décision et la forêt aléatoire est que un arbre de décision est un graphique qui utilise une méthode de branchement pour illustrer chaque résultat possible d'une décision, tandis qu'une forêt aléatoire est un ensemble d'arbres de décision qui donne le résultat final en fonction des résultats de tous ses arbres de décision..
L'apprentissage automatique est une application de l'intelligence artificielle, qui donne à un système la capacité d'apprendre et de s'améliorer en fonction de l'expérience passée. Arbre de décision et forêt aléatoire sont deux techniques d’apprentissage automatique. Un arbre de décision présente les résultats possibles d’une série de choix connexes. C'est populaire parce que c'est simple et facile à comprendre. Lorsque le jeu de données devient beaucoup plus volumineux, un seul arbre de décision ne suffit pas pour trouver la prédiction. Une forêt aléatoire, qui est une collection d'arbres de décision, est une alternative à ce problème. La sortie de la forêt aléatoire est basée sur les sorties de tous ses arbres de décision.
1. Qu'est-ce qu'un arbre de décision?
- Définition, fonctionnalité, exemples
2. Qu'est-ce qu'une forêt aléatoire?
- Définition, fonctionnalité, exemples
3. Différence entre l'arbre de décision et la forêt aléatoire
- Comparaison des différences clés
Arbre de décision, apprentissage automatique, forêt aléatoire
Un arbre de décision est un diagramme de forme d’arbre utilisé pour déterminer un plan d’action. Chaque branche de l’arbre représente une décision, un événement ou une réaction possible.
Il existe plusieurs termes associés à un arbre de décision. L'entropie est la mesure de l'imprévisibilité dans l'ensemble de données. Après la scission du jeu de données, le niveau d'entropie diminue à mesure que l'imprévisibilité diminue. Le gain d'information est la diminution de l'entropie après la fragmentation du jeu de données. Il est important de fractionner les données de manière à ce que le gain d’information soit plus important. Les décisions finales ou les classifications sont appelées les nœuds feuilles. Le nœud le plus haut ou principal est appelé le nœud racine. L'ensemble de données doit être divisé jusqu'à ce que l'entropie finale soit nulle.
Un arbre de décision simple est comme suit.
Figure 1: Arbre de décision
L'arbre de décision ci-dessus classe un ensemble de fruits. Il y a 4 raisins, 2 pommes et 2 oranges. Lorsque le diamètre est inférieur à 5, les raisins sont classés dans un côté, les oranges et les pommes dans l’autre. Les raisins ne peuvent pas être classés plus loin car ils n'ont pas d'entropie. Lorsque vous catégorisez en fonction de la couleur, c'est-à-dire que le fruit soit rouge ou non, les pommes sont classées dans un côté, tandis que les oranges sont classées dans l'autre côté. Ainsi, cet arbre de décision classe une pomme, un raisin ou une orange avec une précision de 100%.
Globalement, un arbre de décision est simple à comprendre, plus facile à interpréter et à visualiser. Il ne nécessite pas beaucoup de préparation de données. Il peut gérer à la fois des données numériques et catégoriques. D'autre part, le bruit dans les données peut provoquer un surajustement. De plus, le modèle peut également devenir instable en raison de petites variations.
La forêt aléatoire est une méthode qui consiste à construire plusieurs arbres de décision au cours de la phase d’entraînement. Les décisions de la majorité des arbres sont la décision finale de la forêt aléatoire. Un exemple simple est comme suit.
Supposons qu'il existe un ensemble de fruits (cerises, pommes et oranges). Voici les trois arbres de décision qui classent ces trois types de fruits..
Figure 2: Arbre de décision 1
Figure 3: Arbre de décision 2
Figure 4: Arbre de décision 3
Un nouveau fruit de diamètre 3 est donné au modèle. Ce fruit est de couleur orange et se développe en été. Le premier arbre de décision le classera comme une orange. Le deuxième arbre de décision le classera comme une cerise tandis que le troisième arbre de décision le classera comme une orange. En considérant les trois arbres, il y a deux sorties pour orange. Par conséquent, la sortie finale de la forêt aléatoire est une orange..
Dans l'ensemble, la forêt aléatoire fournit des résultats précis sur un jeu de données plus volumineux. Il réduit également le risque de surapprentissage.
Un arbre de décision est un outil d’aide à la décision qui utilise un graphique ou un modèle sous forme d’arbre et ses conséquences possibles, notamment les conséquences d’un événement fortuit, le coût des ressources et son utilité. Les forêts aléatoires sont une méthode d'apprentissage d'ensemble qui fonctionne en construisant une multitude d'arbres de décision au moment de la formation et en sortant la classe en fonction des arbres individuels..
Il y a une possibilité de surajustement dans un arbre de décision. L'utilisation de plusieurs arbres dans la forêt aléatoire réduit le risque de surajustement.
Une forêt aléatoire donne des résultats plus précis qu'un arbre de décision.
Un arbre de décision est plus simple et plus facile à comprendre, à interpréter et à visualiser qu'une forêt aléatoire, comparativement plus complexe.
La différence entre l’arbre de décision et la forêt aléatoire réside dans le fait qu’un arbre de décision est un graphique qui utilise une méthode de ramification pour illustrer chaque résultat possible d’une décision, tandis qu’une forêt aléatoire est un ensemble d’arbres de décision qui donne le résultat final en fonction des résultats de tous. ses arbres de décision.
1. Algorithme de forêt aléatoire - Explication de forêt aléatoire | Forêt aléatoire dans l'apprentissage automatique , Simplilearn, 12 mars 2018, disponible ici.