𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 : 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒍’𝒖𝒏 𝒅𝒆𝒔 𝒂𝒍𝒈𝒐𝒓𝒊𝒕𝒉𝒎𝒆𝒔 𝒍𝒆𝒔 𝒑𝒍𝒖𝒔 𝒖𝒕𝒊𝒍𝒊𝒔𝒆́𝒔 𝒆𝒏 𝑴𝒂𝒄𝒉𝒊𝒏𝒆 𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈

Le 𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 est une méthode d’𝒂𝒑𝒑𝒓𝒆𝒏𝒕𝒊𝒔𝒔𝒂𝒈𝒆 𝒆𝒏𝒔𝒆𝒎𝒃𝒍𝒊𝒔𝒕𝒆 qui construit plusieurs arbres de décision et combine leurs prédictions.

L’idée est simple : au lieu de faire confiance à un seul arbre, on utilise une 𝒇𝒐𝒓𝒆̂𝒕 𝒅’𝒂𝒓𝒃𝒓𝒆𝒔 𝒅𝒆 𝒅𝒆́𝒄𝒊𝒔𝒊𝒐𝒏.

Chaque arbre est entraîné sur un échantillon aléatoire des données. À chaque séparation, il ne considère aussi qu’un sous-ensemble aléatoire de variables.

Cette double randomisation permet de rendre les arbres différents les uns des autres, de réduire le 𝒔𝒖𝒓𝒂𝒑𝒑𝒓𝒆𝒏𝒕𝒊𝒔𝒔𝒂𝒈𝒆 et d’améliorer la performance du modèle.

En classification, la prédiction finale est obtenue par 𝒗𝒐𝒕𝒆 𝒎𝒂𝒋𝒐𝒓𝒊𝒕𝒂𝒊𝒓𝒆.
En régression, elle est obtenue par 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒅𝒆𝒔 𝒑𝒓𝒆́𝒅𝒊𝒄𝒕𝒊𝒐𝒏𝒔.

𝑳𝒂 𝒇𝒐𝒓𝒎𝒖𝒍𝒆 𝒈𝒆́𝒏𝒆́𝒓𝒂𝒍𝒆 :

ŷ_RF(x) = (1/B) × Σ T_b(x)

Avec :

B : nombre d’arbres
T_b(x) : prédiction de l’arbre b
x : variables explicatives utilisées pour la prédiction

𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏𝒏𝒆 𝒍𝒆 𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 ?

𝟏. On tire plusieurs échantillons bootstrap à partir des données initiales.
𝟐. On construit un arbre de décision sur chaque échantillon.
𝟑. À chaque séparation, un nombre limité de variables est choisi aléatoirement.
𝟒. L’arbre sélectionne la meilleure variable parmi ce sous-ensemble.
𝟓. Le processus est répété pour tous les arbres.
𝟔. Les prédictions sont combinées par vote ou par moyenne.

𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 𝒗𝒔 𝑮𝒓𝒂𝒅𝒊𝒆𝒏𝒕 𝑩𝒐𝒐𝒔𝒕𝒊𝒏𝒈

Le 𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 entraîne plusieurs arbres en parallèle. Les arbres sont indépendants les uns des autres.

Le 𝑮𝒓𝒂𝒅𝒊𝒆𝒏𝒕 𝑩𝒐𝒐𝒔𝒕𝒊𝒏𝒈, lui, entraîne les arbres de manière séquentielle. Chaque nouvel arbre cherche à corriger les erreurs du précédent.

Le Random Forest est souvent 𝒑𝒍𝒖𝒔 𝒔𝒊𝒎𝒑𝒍𝒆 𝒂̀ 𝒖𝒕𝒊𝒍𝒊𝒔𝒆𝒓, plus rapide à mettre en place et moins exigeant en réglage.

Le Gradient Boosting peut parfois donner une meilleure précision, mais il demande souvent un 𝒑𝒂𝒓𝒂𝒎𝒆́𝒕𝒓𝒂𝒈𝒆 𝒑𝒍𝒖𝒔 𝒔𝒐𝒊𝒈𝒏𝒆́.

𝑸𝒖𝒂𝒏𝒅 𝒖𝒕𝒊𝒍𝒊𝒔𝒆𝒓 𝒍𝒆 𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 ?

Cette méthode est particulièrement utile lorsque l’on veut :

𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆 𝒓𝒐𝒃𝒖𝒔𝒕𝒆,
𝒖𝒏𝒆 𝒃𝒐𝒏𝒏𝒆 𝒑𝒆𝒓𝒇𝒐𝒓𝒎𝒂𝒏𝒄𝒆 𝒔𝒂𝒏𝒔 𝒕𝒓𝒐𝒑 𝒅𝒆 𝒓𝒆́𝒈𝒍𝒂𝒈𝒆𝒔,
𝒕𝒓𝒂𝒊𝒕𝒆𝒓 𝒅𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒅𝒆 𝒏𝒂𝒕𝒖𝒓𝒆𝒔 𝒅𝒊𝒇𝒇𝒆́𝒓𝒆𝒏𝒕𝒆𝒔,
ou 𝒎𝒆𝒔𝒖𝒓𝒆𝒓 𝒍’𝒊𝒎𝒑𝒐𝒓𝒕𝒂𝒏𝒄𝒆 𝒅𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔.

𝑰𝒅𝒆́𝒆 𝒄𝒍𝒆́ :
Le 𝑹𝒂𝒏𝒅𝒐𝒎 𝑭𝒐𝒓𝒆𝒔𝒕 combine plusieurs arbres de décision pour obtenir une prédiction plus stable, plus robuste et généralement plus fiable qu’un seul arbre.

Si vous avez trouvé cette publication utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕 à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 avec vos amis et collègues ! Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #RandomForest #DataScience #IntelligenceArtificielle #Modélisation

Rechercher dans ce blog

Statistical Models for Social Sciences

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...