𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 𝗲𝘁 𝗟𝟮 : 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗹𝘂𝘁𝘁𝗲𝗿 𝗰𝗼𝗻𝘁𝗿𝗲 𝗹𝗲 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 ?
En 𝗺𝗮𝗰𝗵𝗶𝗻𝗲 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴, un modèle cherche souvent à très bien
expliquer les données d’entraînement.
Mais
lorsqu’il s’adapte trop fortement à ces données, il risque de perdre sa
capacité à bien prédire sur de nouvelles observations. C’est ce qu’on appelle
le 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁, ou 𝗼𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴.
La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 permet de limiter ce problème en ajoutant
une 𝗽𝗲́𝗻𝗮𝗹𝗶𝘁𝗲́ à la fonction de perte du modèle.
L’idée est
simple : on ne veut pas seulement minimiser l’erreur de prédiction.
On veut aussi éviter que les coefficients deviennent trop grands.
𝗙𝗼𝗿𝗺𝗲 𝗴𝗲́𝗻𝗲́𝗿𝗮𝗹𝗲
La fonction
de perte régularisée peut s’écrire :
L_reg
= L(θ) + λΩ(θ)
Avec :
L(θ) : fonction de perte initiale, comme MSE ou
cross-entropy
Ω(θ) : terme de pénalité
λ :
intensité de la régularisation
θ :
paramètres ou poids du modèle
Plus λ est élevé, plus le modèle est fortement
pénalisé lorsqu’il utilise de grands coefficients.
𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 : 𝗟𝗮𝘀𝘀𝗼
La
régularisation 𝗟𝟭 pénalise la somme des valeurs absolues
des coefficients :
Ω(θ) = ||θ||₁ = somme |θⱼ|
Son effet
principal est de pousser certains coefficients exactement à zéro.
Cela signifie
que la méthode 𝗟𝟭 peut sélectionner automatiquement les
variables les plus importantes.
Elle est donc
très utile lorsque l’on souhaite obtenir un modèle plus simple, plus
interprétable et avec moins de variables actives.
𝗥𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 : 𝗥𝗶𝗱𝗴𝗲
La
régularisation 𝗟𝟮 pénalise la somme des carrés des
coefficients :
Ω(θ) = ||θ||₂² = somme θⱼ²
Contrairement
à 𝗟𝟭, elle ne force généralement pas les coefficients
à devenir exactement nuls.
Elle les
réduit progressivement vers zéro, ce qui permet de stabiliser le modèle.
La
régularisation 𝗟𝟮 est particulièrement utile en présence de
𝗺𝘂𝗹𝘁𝗶𝗰𝗼𝗹𝗶𝗻𝗲́𝗮𝗿𝗶𝘁𝗲́, c’est-à-dire lorsque plusieurs variables
explicatives sont fortement corrélées entre elles.
𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗰̧𝗮 𝗳𝗼𝗻𝗰𝘁𝗶𝗼𝗻𝗻𝗲 ?
① On part de la fonction de perte normale
du modèle
② On ajoute un terme de pénalité contrôlé par λ
③ Pendant l’entraînement, les gradients tiennent compte de cette pénalité
④ Les coefficients sont poussés vers zéro
⑤ Le modèle apprend des relations plus simples et plus généralisables
𝗗𝗶𝗳𝗳𝗲́𝗿𝗲𝗻𝗰𝗲 𝗲𝗻𝘁𝗿𝗲 𝗟𝟭 𝗲𝘁 𝗟𝟮
La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 peut annuler certains coefficients.
Elle produit donc des modèles 𝗽𝗮𝗿𝗰𝗶𝗺𝗼𝗻𝗶𝗲𝘂𝘅, avec une sélection automatique des
variables.
La 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 réduit tous les coefficients, mais les
conserve généralement dans le modèle.
Elle produit des solutions plus 𝘀𝘁𝗮𝗯𝗹𝗲𝘀, plus régulières et moins sensibles aux
petites variations des données.
Sur le plan
géométrique, 𝗟𝟭 correspond à une contrainte en forme de
diamant.
𝗟𝟮 correspond à une contrainte en forme de cercle.
C’est cette
différence de géométrie qui explique pourquoi 𝗟𝟭 touche plus facilement les axes et
produit des coefficients nuls, alors que 𝗟𝟮 réduit les coefficients sans forcément
les supprimer.
𝗤𝘂𝗮𝗻𝗱 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗟𝟭 𝗼𝘂 𝗟𝟮 ?
Utilisez 𝗟𝟭 lorsque vous avez beaucoup de variables
et que vous souhaitez identifier les plus importantes.
Utilisez 𝗟𝟮 lorsque vous voulez stabiliser le modèle,
réduire l’effet de la multicolinéarité et éviter des coefficients trop élevés.
Utilisez la
régularisation en général lorsque :
✅ le modèle fonctionne très bien sur les
données d’entraînement, mais moins bien sur les données de validation
✅ vous avez beaucoup de variables
explicatives
✅ vous voulez réduire le risque de 𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁
✅ vous souhaitez construire un modèle plus
simple et plus robuste
En résumé, la
𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟭 aide à sélectionner les variables, tandis
que la 𝗿𝗲́𝗴𝘂𝗹𝗮𝗿𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗟𝟮 aide à stabiliser les coefficients.
Les deux
méthodes ont le même objectif : rendre le modèle moins complexe et plus
performant sur de nouvelles données.
_______________________________________________________________________
Vous souhaitez en savoir
plus sur les statistiques, la science des données, SPSS, STATA, R et Python ?
Inscrivez-vous dès maintenant pour réserver
votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 𝗤𝘂𝗮𝗻𝘁𝗶𝘁𝗮𝘁𝗶𝘃𝗲𝘀 https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #DataScience #Regularisation #LassoRidge #AnalyseDesDonnées
.png)
Commentaires
Enregistrer un commentaire