๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• : ๐’„๐’๐’Ž๐’‘๐’“๐’†๐’๐’…๐’“๐’† ๐’’๐’–๐’ ๐’…๐’†๐’” ๐’‚๐’๐’ˆ๐’๐’“๐’Š๐’•๐’‰๐’Ž๐’†๐’” ๐’๐’†๐’” ๐’‘๐’๐’–๐’” ๐’–๐’•๐’Š๐’๐’Š๐’”๐’†́๐’” ๐’†๐’ ๐‘ด๐’‚๐’„๐’‰๐’Š๐’๐’† ๐‘ณ๐’†๐’‚๐’“๐’๐’Š๐’๐’ˆ

Le ๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• est une mรฉthode d’๐’‚๐’‘๐’‘๐’“๐’†๐’๐’•๐’Š๐’”๐’”๐’‚๐’ˆ๐’† ๐’†๐’๐’”๐’†๐’Ž๐’ƒ๐’๐’Š๐’”๐’•๐’† qui construit plusieurs arbres de dรฉcision et combine leurs prรฉdictions.

L’idรฉe est simple : au lieu de faire confiance ร  un seul arbre, on utilise une ๐’‡๐’๐’“๐’†̂๐’• ๐’…๐’‚๐’“๐’ƒ๐’“๐’†๐’” ๐’…๐’† ๐’…๐’†́๐’„๐’Š๐’”๐’Š๐’๐’.

Chaque arbre est entraรฎnรฉ sur un รฉchantillon alรฉatoire des donnรฉes. ร€ chaque sรฉparation, il ne considรจre aussi qu’un sous-ensemble alรฉatoire de variables.

Cette double randomisation permet de rendre les arbres diffรฉrents les uns des autres, de rรฉduire le ๐’”๐’–๐’“๐’‚๐’‘๐’‘๐’“๐’†๐’๐’•๐’Š๐’”๐’”๐’‚๐’ˆ๐’† et d’amรฉliorer la performance du modรจle.

En classification, la prรฉdiction finale est obtenue par ๐’—๐’๐’•๐’† ๐’Ž๐’‚๐’‹๐’๐’“๐’Š๐’•๐’‚๐’Š๐’“๐’†.
En rรฉgression, elle est obtenue par
๐’Ž๐’๐’š๐’†๐’๐’๐’† ๐’…๐’†๐’” ๐’‘๐’“๐’†́๐’…๐’Š๐’„๐’•๐’Š๐’๐’๐’”.

๐‘ณ๐’‚ ๐’‡๐’๐’“๐’Ž๐’–๐’๐’† ๐’ˆ๐’†́๐’๐’†́๐’“๐’‚๐’๐’† :

ลท_RF(x) = (1/B) × ฮฃ T_b(x)

Avec :

B : nombre d’arbres
T_b(x) : prรฉdiction de l’arbre b
x : variables explicatives utilisรฉes pour la prรฉdiction

๐‘ช๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’‡๐’๐’๐’„๐’•๐’Š๐’๐’๐’๐’† ๐’๐’† ๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• ?

๐Ÿ. On tire plusieurs รฉchantillons bootstrap ร  partir des donnรฉes initiales.
๐Ÿ. On construit un arbre de dรฉcision sur chaque รฉchantillon.
๐Ÿ‘. ร€ chaque sรฉparation, un nombre limitรฉ de variables est choisi alรฉatoirement.
๐Ÿ’. L’arbre sรฉlectionne la meilleure variable parmi ce sous-ensemble.
๐Ÿ“. Le processus est rรฉpรฉtรฉ pour tous les arbres.
๐Ÿ”. Les prรฉdictions sont combinรฉes par vote ou par moyenne.

๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• ๐’—๐’” ๐‘ฎ๐’“๐’‚๐’…๐’Š๐’†๐’๐’• ๐‘ฉ๐’๐’๐’”๐’•๐’Š๐’๐’ˆ

Le ๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• entraรฎne plusieurs arbres en parallรจle. Les arbres sont indรฉpendants les uns des autres.

Le ๐‘ฎ๐’“๐’‚๐’…๐’Š๐’†๐’๐’• ๐‘ฉ๐’๐’๐’”๐’•๐’Š๐’๐’ˆ, lui, entraรฎne les arbres de maniรจre sรฉquentielle. Chaque nouvel arbre cherche ร  corriger les erreurs du prรฉcรฉdent.

Le Random Forest est souvent ๐’‘๐’๐’–๐’” ๐’”๐’Š๐’Ž๐’‘๐’๐’† ๐’‚̀ ๐’–๐’•๐’Š๐’๐’Š๐’”๐’†๐’“, plus rapide ร  mettre en place et moins exigeant en rรฉglage.

Le Gradient Boosting peut parfois donner une meilleure prรฉcision, mais il demande souvent un ๐’‘๐’‚๐’“๐’‚๐’Ž๐’†́๐’•๐’“๐’‚๐’ˆ๐’† ๐’‘๐’๐’–๐’” ๐’”๐’๐’Š๐’ˆ๐’๐’†́.

๐‘ธ๐’–๐’‚๐’๐’… ๐’–๐’•๐’Š๐’๐’Š๐’”๐’†๐’“ ๐’๐’† ๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• ?

Cette mรฉthode est particuliรจrement utile lorsque l’on veut :

๐’–๐’ ๐’Ž๐’๐’…๐’†̀๐’๐’† ๐’“๐’๐’ƒ๐’–๐’”๐’•๐’†,
๐’–๐’๐’† ๐’ƒ๐’๐’๐’๐’† ๐’‘๐’†๐’“๐’‡๐’๐’“๐’Ž๐’‚๐’๐’„๐’† ๐’”๐’‚๐’๐’” ๐’•๐’“๐’๐’‘ ๐’…๐’† ๐’“๐’†́๐’ˆ๐’๐’‚๐’ˆ๐’†๐’”,
๐’•๐’“๐’‚๐’Š๐’•๐’†๐’“ ๐’…๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’” ๐’…๐’† ๐’๐’‚๐’•๐’–๐’“๐’†๐’” ๐’…๐’Š๐’‡๐’‡๐’†́๐’“๐’†๐’๐’•๐’†๐’”,
ou
๐’Ž๐’†๐’”๐’–๐’“๐’†๐’“ ๐’๐’Š๐’Ž๐’‘๐’๐’“๐’•๐’‚๐’๐’„๐’† ๐’…๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’”.

๐‘ฐ๐’…๐’†́๐’† ๐’„๐’๐’†́ :
Le
๐‘น๐’‚๐’๐’…๐’๐’Ž ๐‘ญ๐’๐’“๐’†๐’”๐’• combine plusieurs arbres de dรฉcision pour obtenir une prรฉdiction plus stable, plus robuste et gรฉnรฉralement plus fiable qu’un seul arbre.

Si vous avez trouvรฉ cette publication utile, n'hรฉsitez pas ร  ๐’๐’‚ ๐’๐’Š๐’Œ๐’†๐’“ ๐’†๐’• ร  ๐’๐’‚ ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ avec vos amis et collรจgues ! Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร  prendre part ร  la prochaine session de notre formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ขรฉ๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ https://forms.gle/yZAZimRXbTFbUWZk6

 


#MachineLearning #RandomForest #DataScience #IntelligenceArtificielle #Modรฉlisation

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique