𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 : 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐩𝐮𝐢𝐬𝐬𝐚𝐧𝐭 𝐩𝐨𝐮𝐫 𝐥𝐚 𝐩𝐫𝐞́𝐝𝐢𝐜𝐭𝐢𝐨𝐧 𝐞𝐭 𝐥𝐚 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧

Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est une 𝐦𝐞́𝐭𝐡𝐨𝐝𝐞 𝐝𝐞𝐧𝐬𝐞𝐦𝐛𝐥𝐞 qui construit un grand nombre d’arbres de décision puis combine leurs prédictions.

Chaque arbre est entraîné sur un échantillon aléatoire des données obtenu par bootstrap, et à chaque séparation, il ne considère qu’un sous-ensemble aléatoire de variables. Cette double part d’aléa rend les arbres différents les uns des autres, ce qui permet de réduire le surapprentissage et d’améliorer la précision du modèle.

👉 La prédiction finale correspond à :
• un vote majoritaire en classification
• une moyenne en régression

📐 𝐋𝐞 𝐦𝐨𝐝𝐞̀𝐥𝐞 :
ŷ_RF(x) = (1 / B) ×
Σ T_b(x)

𝐎𝐮̀ :
B → nombre d’arbres
T_b(x) → prédiction de l’arbre b
x → variables explicatives

🌲 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐜̧𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧𝐞 ?
Tirer B échantillons bootstrap avec remise
Construire un arbre sur chaque échantillon
À chaque nœud, sélectionner aléatoirement m variables parmi les p variables disponibles
Choisir la meilleure variable de séparation parmi ces m variables
Répéter jusqu’à obtenir des arbres complets
Agréger les prédictions de tous les arbres

🧐 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 𝐯𝐬 𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠

Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 entraîne les arbres en parallèle, sur des échantillons aléatoires différents. Les arbres sont indépendants et souvent profonds.

Le 𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠, lui, entraîne les arbres de manière séquentielle : chaque arbre cherche à corriger les erreurs du précédent. Les arbres sont souvent plus petits et dépendants les uns des autres.

En pratique :
𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est souvent plus rapide et plus facile à régler.
Le
𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠 peut offrir une meilleure précision, mais demande généralement un réglage plus fin.

𝐐𝐮𝐚𝐧𝐝 𝐮𝐭𝐢𝐥𝐢𝐬𝐞𝐫 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 ?
Utilisez-le lorsque :
• vous avez besoin d’un modèle de base solide et rapide
• vos données contiennent des variables de types variés
• vous souhaitez mesurer l’importance des variables sans réglages complexes

𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫 :
Le
𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est un modèle robuste, simple à utiliser et très efficace pour de nombreux problèmes de classification et de prédiction.

________________________________________________________________________________

Si vous avez trouvé cette publication utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕 à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 avec vos amis et collègues !

Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6



 

#MachineLearning #RandomForest #DataScience #Statistiques #AnalyseDeDonnées

 

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique