๐น๐๐๐ ๐๐ ๐ญ๐๐๐๐๐ : ๐๐๐๐๐๐๐๐ ๐๐ ๐’๐๐ ๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐ ๐๐๐๐๐๐๐́๐ ๐๐ ๐ด๐๐๐๐๐๐ ๐ณ๐๐๐๐๐๐๐
Le ๐น๐๐๐ ๐๐ ๐ญ๐๐๐๐๐ est une mรฉthode d’๐๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐ qui construit plusieurs arbres de dรฉcision et combine leurs prรฉdictions.
L’idรฉe est
simple : au lieu de faire confiance ร un seul arbre, on utilise une ๐๐๐๐̂๐ ๐
’๐๐๐๐๐๐ ๐
๐ ๐
๐́๐๐๐๐๐๐.
Chaque arbre
est entraรฎnรฉ sur un รฉchantillon alรฉatoire des donnรฉes. ร chaque sรฉparation, il
ne considรจre aussi qu’un sous-ensemble alรฉatoire de variables.
Cette double
randomisation permet de rendre les arbres diffรฉrents les uns des autres, de
rรฉduire le ๐๐๐๐๐๐๐๐๐๐๐๐๐๐๐๐ et d’amรฉliorer la performance du modรจle.
En
classification, la prรฉdiction finale est obtenue par ๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐.
En rรฉgression, elle est obtenue par ๐๐๐๐๐๐๐ ๐
๐๐ ๐๐๐́๐
๐๐๐๐๐๐๐.
๐ณ๐ ๐๐๐๐๐๐๐ ๐๐́๐๐́๐๐๐๐ :
ลท_RF(x) =
(1/B) × ฮฃ T_b(x)
Avec :
B : nombre d’arbres
T_b(x) : prรฉdiction de l’arbre b
x : variables explicatives utilisรฉes pour la prรฉdiction
๐ช๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐น๐๐๐
๐๐ ๐ญ๐๐๐๐๐ ?
๐. On tire plusieurs รฉchantillons bootstrap ร partir
des donnรฉes initiales.
๐. On construit un arbre de dรฉcision sur chaque รฉchantillon.
๐. ร chaque sรฉparation, un nombre limitรฉ de variables est choisi
alรฉatoirement.
๐. L’arbre sรฉlectionne la meilleure variable parmi ce sous-ensemble.
๐. Le processus est rรฉpรฉtรฉ pour tous les arbres.
๐. Les prรฉdictions sont combinรฉes par vote ou par moyenne.
๐น๐๐๐
๐๐ ๐ญ๐๐๐๐๐ ๐๐ ๐ฎ๐๐๐
๐๐๐๐ ๐ฉ๐๐๐๐๐๐๐
Le ๐น๐๐๐
๐๐ ๐ญ๐๐๐๐๐ entraรฎne plusieurs arbres en parallรจle.
Les arbres sont indรฉpendants les uns des autres.
Le ๐ฎ๐๐๐
๐๐๐๐ ๐ฉ๐๐๐๐๐๐๐, lui, entraรฎne les arbres de maniรจre
sรฉquentielle. Chaque nouvel arbre cherche ร corriger les erreurs du prรฉcรฉdent.
Le Random
Forest est souvent ๐๐๐๐ ๐๐๐๐๐๐ ๐̀ ๐๐๐๐๐๐๐๐, plus rapide ร mettre en place et moins
exigeant en rรฉglage.
Le Gradient
Boosting peut parfois donner une meilleure prรฉcision, mais il demande souvent
un ๐๐๐๐๐๐́๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐๐́.
๐ธ๐๐๐๐
๐๐๐๐๐๐๐๐ ๐๐ ๐น๐๐๐
๐๐ ๐ญ๐๐๐๐๐ ?
Cette mรฉthode
est particuliรจrement utile lorsque l’on veut :
๐๐ ๐๐๐
๐̀๐๐ ๐๐๐๐๐๐๐,
๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐ ๐
๐ ๐๐́๐๐๐๐๐๐,
๐๐๐๐๐๐๐ ๐
๐๐ ๐๐๐๐๐๐๐๐๐ ๐
๐ ๐๐๐๐๐๐๐ ๐
๐๐๐๐́๐๐๐๐๐๐,
ou ๐๐๐๐๐๐๐ ๐’๐๐๐๐๐๐๐๐๐๐ ๐
๐๐ ๐๐๐๐๐๐๐๐๐.
๐ฐ๐
๐́๐ ๐๐๐́ :
Le ๐น๐๐๐
๐๐ ๐ญ๐๐๐๐๐ combine plusieurs arbres de dรฉcision pour
obtenir une prรฉdiction plus stable, plus robuste et gรฉnรฉralement plus fiable
qu’un seul arbre.
Si vous avez trouvรฉ cette
publication utile, n'hรฉsitez pas ร ๐๐ ๐๐๐๐๐ ๐๐ ร ๐๐ ๐๐๐๐๐๐๐๐ avec vos amis et
collรจgues ! Pour mieux apprendre l’utilisation des logiciel et modรจles
statistiques, nous vous invitons ร prendre part ร la prochaine session de notre
formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #RandomForest
#DataScience #IntelligenceArtificielle #Modรฉlisation
.png)
Commentaires
Enregistrer un commentaire