𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 : 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐩𝐮𝐢𝐬𝐬𝐚𝐧𝐭 𝐩𝐨𝐮𝐫 𝐥𝐚 𝐩𝐫𝐞́𝐝𝐢𝐜𝐭𝐢𝐨𝐧 𝐞𝐭 𝐥𝐚 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧
Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est une 𝐦𝐞́𝐭𝐡𝐨𝐝𝐞 𝐝’𝐞𝐧𝐬𝐞𝐦𝐛𝐥𝐞 qui construit un grand nombre d’arbres de décision puis combine leurs prédictions.
Chaque arbre
est entraîné sur un échantillon aléatoire des données obtenu
par bootstrap, et à chaque séparation, il ne considère qu’un sous-ensemble
aléatoire de variables. Cette double part d’aléa rend les arbres
différents les uns des autres, ce qui permet de réduire le
surapprentissage et d’améliorer la précision du
modèle.
👉 La prédiction finale correspond à :
• un vote majoritaire en classification
• une moyenne en régression
📐 𝐋𝐞 𝐦𝐨𝐝𝐞̀𝐥𝐞 :
ŷ_RF(x) = (1 / B) × Σ T_b(x)
𝐎𝐮̀ :
B → nombre d’arbres
T_b(x) → prédiction de l’arbre b
x → variables explicatives
🌲 𝐂𝐨𝐦𝐦𝐞𝐧𝐭
𝐜̧𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧𝐞
?
① Tirer B échantillons bootstrap
avec remise
② Construire un arbre sur chaque
échantillon
③ À chaque nœud, sélectionner aléatoirement
m variables parmi les p variables disponibles
④ Choisir la meilleure variable de
séparation parmi ces m variables
⑤ Répéter jusqu’à obtenir des arbres
complets
⑥ Agréger les prédictions de tous les
arbres
🧐 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 𝐯𝐬 𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠
Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 entraîne les arbres en parallèle,
sur des échantillons aléatoires différents. Les arbres sont indépendants
et souvent profonds.
Le 𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠, lui, entraîne les arbres de
manière séquentielle : chaque arbre cherche à corriger les erreurs du
précédent. Les arbres sont souvent plus petits et dépendants
les uns des autres.
En pratique :
𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est souvent plus rapide
et plus facile à régler.
Le 𝐆𝐫𝐚𝐝𝐢𝐞𝐧𝐭 𝐁𝐨𝐨𝐬𝐭𝐢𝐧𝐠 peut offrir une meilleure précision, mais
demande généralement un réglage plus fin.
✍️ 𝐐𝐮𝐚𝐧𝐝 𝐮𝐭𝐢𝐥𝐢𝐬𝐞𝐫 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 ?
Utilisez-le lorsque :
• vous avez besoin d’un modèle de base solide et rapide
• vos données contiennent des variables de types variés
• vous souhaitez mesurer l’importance des variables sans réglages
complexes
𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫 :
Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est un modèle robuste, simple à utiliser
et très efficace pour de nombreux problèmes de classification
et de prédiction.
________________________________________________________________________________
Si vous avez trouvé cette publication
utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕
à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓
avec vos amis et collègues !
Pour mieux apprendre l’utilisation des
logiciel et modèles statistiques, nous vous invitons à prendre part à la
prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #RandomForest #DataScience #Statistiques #AnalyseDeDonnées

Commentaires
Enregistrer un commentaire