๐ ๐๐ข๐๐ ๐ ๐๐๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง : ๐๐จ๐ฆ๐ฉ๐ซ๐๐ง๐๐ซ๐ ๐ฅ๐ ๐ซ๐́๐ ๐ฎ๐ฅ๐๐ซ๐ข๐ฌ๐๐ญ๐ข๐จ๐ง ๐๐ ๐๐ง ๐ฆ๐๐๐ก๐ข๐ง๐ ๐ฅ๐๐๐ซ๐ง๐ข๐ง๐ ๐๐ค
En apprentissage automatique, la ๐๐ข๐๐ ๐ ๐๐๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง est une technique trรจs utilisรฉe lorsque le modรจle linรฉaire classique devient instable.
๐ En termes simples, la ๐๐ข๐๐ ๐ ๐๐๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง est une ๐ซ๐́๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ๐ฅ๐ข๐ง๐́๐๐ข๐ซ๐ ๐๐ฏ๐๐ ๐ฎ๐ง๐ ๐ฉ๐́๐ง๐๐ฅ๐ข๐ฌ๐๐ญ๐ข๐จ๐ง ๐๐.
Son objectif est de rรฉduire la taille des coefficients afin de limiter le ๐ฌ๐ฎ๐ซ๐๐ฃ๐ฎ๐ฌ๐ญ๐๐ฆ๐๐ง๐ญ et de mieux gรฉrer la ๐ฆ๐ฎ๐ฅ๐ญ๐ข๐๐จ๐ฅ๐ข๐ง๐́๐๐ซ๐ข๐ญ๐́.
Autrement dit, lorsque plusieurs variables explicatives sont fortement corrรฉlรฉes entre elles, les coefficients d’une rรฉgression linรฉaire classique peuvent devenir trรจs instables.
La rรฉgression Ridge vient alors imposer une forme de discipline au modรจle.
๐ ๐’๐ข๐๐́๐ ๐๐ฎ ๐๐ซ๐ข๐ญ๐̀๐ซ๐ ๐̀ ๐ฆ๐ข๐ง๐ข๐ฆ๐ข๐ฌ๐๐ซ :
ฮฒ̂ridge = argmin { ฮฃ(yi − Xiฮฒ)² + ฮปฮฃฮฒj² }
Dans cette expression :
• ๐ฮฃ(๐ฒ๐ข − ๐๐ขฮฒ)² reprรฉsente l’erreur du modรจle, appelรฉe somme des carrรฉs des rรฉsidus.
• ๐๐ ๐ฉ๐๐ซ๐ญ๐ข๐ ฮปฮฃฮฒj² reprรฉsente la pรฉnalitรฉ L2 appliquรฉe aux coefficients.
• ๐๐ ๐ฉ๐๐ซ๐๐ฆ๐̀๐ญ๐ซ๐ ฮป contrรดle la force de la rรฉgularisation.
Plus ฮป est รฉlevรฉ, plus les coefficients sont rรฉduits.
Plus ฮป est faible, plus le modรจle se rapproche de la rรฉgression linรฉaire classique.
๐ก ๐๐จ๐ฆ๐ฆ๐๐ง๐ญ ๐๐๐ฅ๐ ๐๐จ๐ง๐๐ญ๐ข๐จ๐ง๐ง๐ ?
① On part d’une rรฉgression linรฉaire ordinaire.
② On ajoute une pรฉnalitรฉ sur la taille des coefficients.
③ Le modรจle cherche ร rรฉduire l’erreur tout en รฉvitant des coefficients trop grands.
④ La valeur optimale de ฮป est souvent choisie par ๐ฏ๐๐ฅ๐ข๐๐๐ญ๐ข๐จ๐ง ๐๐ซ๐จ๐ข๐ฌ๐́๐.
La formule d’estimation devient gรฉnรฉralement :
ฮฒ̂ = (XแตX + ฮปI)⁻¹Xแตy
Le terme ๐แต๐ + ฮป๐ permet de stabiliser les calculs, surtout lorsque les variables sont fortement corrรฉlรฉes.
๐ ๐๐ข๐๐ ๐ ๐จ๐ฎ ๐๐๐ฌ๐ฌ๐จ : ๐ช๐ฎ๐๐ฅ๐ฅ๐ ๐๐ข๐๐๐́๐ซ๐๐ง๐๐ ?
La ๐ซ๐́๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ๐๐๐ฌ๐ฌ๐จ utilise une pรฉnalitรฉ L1.
Elle peut ramener certains coefficients exactement ร zรฉro.
Elle fait donc une forme de ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง ๐๐ ๐ฏ๐๐ซ๐ข๐๐๐ฅ๐๐ฌ.
La ๐ซ๐́๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ๐๐ข๐๐ ๐ utilise une pรฉnalitรฉ L2.
Elle rรฉduit tous les coefficients, mais ne les annule gรฉnรฉralement pas.
Elle conserve donc toutes les variables dans le modรจle.
๐ ๐๐๐ฌ๐ฌ๐จ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง๐ง๐.
๐ ๐๐ข๐๐ ๐ ๐ฌ๐ญ๐๐๐ข๐ฅ๐ข๐ฌ๐.
✅ ๐๐ฎ๐๐ง๐ ๐ฎ๐ญ๐ข๐ฅ๐ข๐ฌ๐๐ซ ๐ฅ๐ ๐๐ข๐๐ ๐ ๐๐๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ?
La Ridge Regression est particuliรจrement utile lorsque :
• les variables explicatives sont fortement corrรฉlรฉes ;
• le nombre de variables est รฉlevรฉ par rapport au nombre d’observations ;
• les estimations MCO sont instables ;
• l’objectif est de conserver toutes les variables dans le modรจle ;
• on veut rรฉduire le risque de surapprentissage.
๐ ๐๐๐́๐ ๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ :
La ๐๐ข๐๐ ๐ ๐๐๐ ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ne cherche pas ร supprimer les variables.
Elle cherche plutรดt ร rendre le modรจle plus robuste, plus stable et moins sensible aux fortes corrรฉlations entre les variables.
Si vous avez trouvรฉ cette publication utile, n'hรฉsitez pas ร ๐๐ ๐๐๐๐๐ et ร ๐๐ ๐๐๐๐๐๐๐๐ avec vos amis et collรจgues.
Pour mieux apprendre l’utilisation des logiciels et modรจles statistiques, nous vous invitons ร prendre part ร la prochaine session de notre formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #RegressionRidge #Econometrie #DataScience #Statistiques

Commentaires
Enregistrer un commentaire