📌 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐩𝐫𝐞𝐧𝐝𝐫𝐞 𝐥𝐚 𝐫𝐞́𝐠𝐮𝐥𝐚𝐫𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐 𝐞𝐧 𝐦𝐚𝐜𝐡𝐢𝐧𝐞 𝐥𝐞𝐚𝐫𝐧𝐢𝐧𝐠 📊🤖

En apprentissage automatique, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une technique très utilisée lorsque le modèle linéaire classique devient instable.

👉 En termes simples, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une 𝐫𝐞́𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 𝐥𝐢𝐧𝐞́𝐚𝐢𝐫𝐞 𝐚𝐯𝐞𝐜 𝐮𝐧𝐞 𝐩𝐞́𝐧𝐚𝐥𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐.

Son objectif est de réduire la taille des coefficients afin de limiter le 𝐬𝐮𝐫𝐚𝐣𝐮𝐬𝐭𝐞𝐦𝐞𝐧𝐭 et de mieux gérer la 𝐦𝐮𝐥𝐭𝐢𝐜𝐨𝐥𝐢𝐧𝐞́𝐚𝐫𝐢𝐭𝐞́.

Autrement dit, lorsque plusieurs variables explicatives sont fortement corrélées entre elles, les coefficients d’une régression linéaire classique peuvent devenir très instables.

La régression Ridge vient alors imposer une forme de discipline au modèle.

📐 𝐋’𝐢𝐝𝐞́𝐞 𝐝𝐮 𝐜𝐫𝐢𝐭𝐞̀𝐫𝐞 𝐚̀ 𝐦𝐢𝐧𝐢𝐦𝐢𝐬𝐞𝐫 :

β̂ridge = argmin { Σ(yi − Xiβ)² + λΣβj² }

Dans cette expression :

• 𝐒Σ(𝐲𝐢 − 𝐗𝐢β)² représente l’erreur du modèle, appelée somme des carrés des résidus.

• 𝐋𝐚 𝐩𝐚𝐫𝐭𝐢𝐞 λΣβj² représente la pénalité L2 appliquée aux coefficients.

• 𝐋𝐞 𝐩𝐚𝐫𝐚𝐦𝐞̀𝐭𝐫𝐞 λ contrôle la force de la régularisation.

Plus λ est élevé, plus les coefficients sont réduits.

Plus λ est faible, plus le modèle se rapproche de la régression linéaire classique.

💡 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐜𝐞𝐥𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧𝐞 ?

① On part d’une régression linéaire ordinaire.

② On ajoute une pénalité sur la taille des coefficients.

③ Le modèle cherche à réduire l’erreur tout en évitant des coefficients trop grands.

④ La valeur optimale de λ est souvent choisie par 𝐯𝐚𝐥𝐢𝐝𝐚𝐭𝐢𝐨𝐧 𝐜𝐫𝐨𝐢𝐬𝐞́𝐞.

La formule d’estimation devient généralement :

β̂ = (XᵀX + λI)⁻¹Xᵀy

Le terme 𝐗ᵀ𝐗 + λ𝐈 permet de stabiliser les calculs, surtout lorsque les variables sont fortement corrélées.

🆚 𝐑𝐢𝐝𝐠𝐞 𝐨𝐮 𝐋𝐚𝐬𝐬𝐨 : 𝐪𝐮𝐞𝐥𝐥𝐞 𝐝𝐢𝐟𝐟𝐞́𝐫𝐞𝐧𝐜𝐞 ?

La 𝐫𝐞́𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 𝐋𝐚𝐬𝐬𝐨 utilise une pénalité L1.

Elle peut ramener certains coefficients exactement à zéro.

Elle fait donc une forme de 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 𝐝𝐞 𝐯𝐚𝐫𝐢𝐚𝐛𝐥𝐞𝐬.

La 𝐫𝐞́𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 𝐑𝐢𝐝𝐠𝐞 utilise une pénalité L2.

Elle réduit tous les coefficients, mais ne les annule généralement pas.

Elle conserve donc toutes les variables dans le modèle.

👉 𝐋𝐚𝐬𝐬𝐨 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧𝐧𝐞.

👉 𝐑𝐢𝐝𝐠𝐞 𝐬𝐭𝐚𝐛𝐢𝐥𝐢𝐬𝐞.

✅ 𝐐𝐮𝐚𝐧𝐝 𝐮𝐭𝐢𝐥𝐢𝐬𝐞𝐫 𝐥𝐚 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 ?

La Ridge Regression est particulièrement utile lorsque :

• les variables explicatives sont fortement corrélées ;

• le nombre de variables est élevé par rapport au nombre d’observations ;

• les estimations MCO sont instables ;

• l’objectif est de conserver toutes les variables dans le modèle ;

• on veut réduire le risque de surapprentissage.

📌 𝐈𝐝𝐞́𝐞 𝐚̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫 :

La 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 ne cherche pas à supprimer les variables.

Elle cherche plutôt à rendre le modèle plus robuste, plus stable et moins sensible aux fortes corrélations entre les variables.

Si vous avez trouvé cette publication utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 et à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 avec vos amis et collègues.

Pour mieux apprendre l’utilisation des logiciels et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #RegressionRidge #Econometrie #DataScience #Statistiques

Rechercher dans ce blog

Statistical Models for Social Sciences

📌 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐩𝐫𝐞𝐧𝐝𝐫𝐞 𝐥𝐚 𝐫𝐞́𝐠𝐮𝐥𝐚𝐫𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐 𝐞𝐧 𝐦𝐚𝐜𝐡𝐢𝐧𝐞 𝐥𝐞𝐚𝐫𝐧𝐢𝐧𝐠 📊🤖

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...