𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 𝗲𝘁 𝗟𝟮 : 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗹𝘂𝘁𝘁𝗲𝗿 𝗰𝗼𝗻𝘁𝗿𝗲 𝗹𝗲 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 ?

En 𝗺𝗮𝗰𝗵𝗶𝗻𝗲 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴, un modèle cherche souvent à très bien expliquer les données d’entraînement.

Mais lorsqu’il s’adapte trop fortement à ces données, il risque de perdre sa capacité à bien prédire sur de nouvelles observations. C’est ce qu’on appelle le 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁, ou 𝗼𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴.

La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 permet de limiter ce problème en ajoutant une 𝗽𝗲́𝗻𝗮𝗹𝗶𝘁𝗲́ à la fonction de perte du modèle.

L’idée est simple : on ne veut pas seulement minimiser l’erreur de prédiction.
On veut aussi éviter que les coefficients deviennent trop grands.

𝗙𝗼𝗿𝗺𝗲 𝗴𝗲́𝗻𝗲́𝗿𝗮𝗹𝗲

La fonction de perte régularisée peut s’écrire :

L_reg = L(θ) + λΩ(θ)

Avec :

L(θ) : fonction de perte initiale, comme MSE ou cross-entropy
Ω(θ) : terme de pénalité
λ : intensité de la régularisation
θ : paramètres ou poids du modèle

Plus λ est élevé, plus le modèle est fortement pénalisé lorsqu’il utilise de grands coefficients.

𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 : 𝗟𝗮𝘀𝘀𝗼

La régularisation 𝗟𝟭 pénalise la somme des valeurs absolues des coefficients :

Ω(θ) = ||θ||₁ = somme |θⱼ|

Son effet principal est de pousser certains coefficients exactement à zéro.

Cela signifie que la méthode 𝗟𝟭 peut sélectionner automatiquement les variables les plus importantes.

Elle est donc très utile lorsque l’on souhaite obtenir un modèle plus simple, plus interprétable et avec moins de variables actives.

𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 : 𝗥𝗶𝗱𝗴𝗲

La régularisation 𝗟𝟮 pénalise la somme des carrés des coefficients :

Ω(θ) = ||θ||₂² = somme θⱼ²

Contrairement à 𝗟𝟭, elle ne force généralement pas les coefficients à devenir exactement nuls.

Elle les réduit progressivement vers zéro, ce qui permet de stabiliser le modèle.

La régularisation 𝗟𝟮 est particulièrement utile en présence de 𝗺𝘂𝗹𝘁𝗶𝗰𝗼𝗹𝗶𝗻𝗲́𝗮𝗿𝗶𝘁𝗲́, c’est-à-dire lorsque plusieurs variables explicatives sont fortement corrélées entre elles.

𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗰̧𝗮 𝗳𝗼𝗻𝗰𝘁𝗶𝗼𝗻𝗻𝗲 ?

On part de la fonction de perte normale du modèle
On ajoute un terme de pénalité contrôlé par λ
Pendant l’entraînement, les gradients tiennent compte de cette pénalité
Les coefficients sont poussés vers zéro
Le modèle apprend des relations plus simples et plus généralisables

𝗗𝗶𝗳𝗳𝗲́𝗿𝗲𝗻𝗰𝗲 𝗲𝗻𝘁𝗿𝗲 𝗟𝟭 𝗲𝘁 𝗟𝟮

La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 peut annuler certains coefficients.
Elle produit donc des modèles
𝗽𝗮𝗿𝗰𝗶𝗺𝗼𝗻𝗶𝗲𝘂𝘅, avec une sélection automatique des variables.

La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 réduit tous les coefficients, mais les conserve généralement dans le modèle.
Elle produit des solutions plus
𝘀𝘁𝗮𝗯𝗹𝗲𝘀, plus régulières et moins sensibles aux petites variations des données.

Sur le plan géométrique, 𝗟𝟭 correspond à une contrainte en forme de diamant.
𝗟𝟮 correspond à une contrainte en forme de cercle.

C’est cette différence de géométrie qui explique pourquoi 𝗟𝟭 touche plus facilement les axes et produit des coefficients nuls, alors que 𝗟𝟮 réduit les coefficients sans forcément les supprimer.

𝗤𝘂𝗮𝗻𝗱 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗟𝟭 𝗼𝘂 𝗟𝟮 ?

Utilisez 𝗟𝟭 lorsque vous avez beaucoup de variables et que vous souhaitez identifier les plus importantes.

Utilisez 𝗟𝟮 lorsque vous voulez stabiliser le modèle, réduire l’effet de la multicolinéarité et éviter des coefficients trop élevés.

Utilisez la régularisation en général lorsque :

le modèle fonctionne très bien sur les données d’entraînement, mais moins bien sur les données de validation
vous avez beaucoup de variables explicatives
vous voulez réduire le risque de 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁
vous souhaitez construire un modèle plus simple et plus robuste

En résumé, la 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 aide à sélectionner les variables, tandis que la 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 aide à stabiliser les coefficients.

Les deux méthodes ont le même objectif : rendre le modèle moins complexe et plus performant sur de nouvelles données.

_______________________________________________________________________

📚Vous souhaitez en savoir plus sur les statistiques, la science des données, SPSS, STATA, R et Python ?

Inscrivez-vous dès maintenant pour réserver votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 𝗤𝘂𝗮𝗻𝘁𝗶𝘁𝗮𝘁𝗶𝘃𝗲𝘀 https://forms.gle/yZAZimRXbTFbUWZk6



#MachineLearning #DataScience #Regularisation #LassoRidge #AnalyseDesDonnées

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique