𝗖𝗼𝗺𝗽𝗿𝗼𝗺𝗶𝘀 𝗕𝗶𝗮𝗶𝘀-𝗩𝗮𝗿𝗶𝗮𝗻𝗰𝗲 : 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝘂𝗻 𝗺𝗼𝗱𝗲̀𝗹𝗲 𝗠𝗟 𝗲́𝗰𝗵𝗼𝘂𝗲 𝗮̀ 𝗴𝗲́𝗻𝗲́𝗿𝗮𝗹𝗶𝘀𝗲𝗿 ?

En 𝗺𝗮𝗰𝗵𝗶𝗻𝗲 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴, un modèle ne doit pas seulement bien apprendre les données d’entraînement.

Il doit surtout bien prédire sur de 𝗻𝗼𝘂𝘃𝗲𝗹𝗹𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀.

Le 𝗰𝗼𝗺𝗽𝗿𝗼𝗺𝗶𝘀 𝗯𝗶𝗮𝗶𝘀-𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 explique pourquoi certains modèles échouent à généraliser.

L’erreur d’un modèle vient généralement de trois sources :

𝗕𝗶𝗮𝗶𝘀 : le modèle est trop simple et fait de mauvaises hypothèses.
𝗩𝗮𝗿𝗶𝗮𝗻𝗰𝗲 : le modèle est trop sensible aux données d’entraînement.
𝗕𝗿𝘂𝗶𝘁 𝗶𝗿𝗿𝗲́𝗱𝘂𝗰𝘁𝗶𝗯𝗹𝗲 : la part d’aléa présente dans les données.

La décomposition peut s’écrire :

Erreur attendue = Biais² + Variance + Bruit irréductible

Un modèle trop simple produit un 𝗯𝗶𝗮𝗶𝘀 𝗲́𝗹𝗲𝘃𝗲́.
Il n’arrive pas à capturer les vraies relations dans les données.
C’est le cas du
𝘀𝗼𝘂𝘀-𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁, ou 𝘂𝗻𝗱𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴.

Un modèle trop complexe produit une 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 𝗲́𝗹𝗲𝘃𝗲́𝗲.
Il apprend trop bien les détails des données d’entraînement, y compris le bruit.
C’est le cas du
𝘀𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁, ou 𝗼𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴.

𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗰̧𝗮 𝗳𝗼𝗻𝗰𝘁𝗶𝗼𝗻𝗻𝗲 ?

Modèle simple : 𝗯𝗶𝗮𝗶𝘀 𝗲́𝗹𝗲𝘃𝗲́, variance faible
Modèle modéré : 𝗲́𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗲 𝗲𝗻𝘁𝗿𝗲 𝗯𝗶𝗮𝗶𝘀 𝗲𝘁 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲
Modèle complexe : biais faible, 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 𝗲́𝗹𝗲𝘃𝗲́𝗲
L’erreur d’entraînement baisse, mais l’erreur de test peut augmenter après un certain niveau de complexité.

Le meilleur modèle n’est donc pas forcément le plus complexe.
C’est celui qui trouve le bon équilibre entre
𝘀𝗶𝗺𝗽𝗹𝗶𝗰𝗶𝘁𝗲́ et 𝗰𝗮𝗽𝗮𝗰𝗶𝘁𝗲́ 𝗱𝗮𝗽𝗽𝗿𝗲𝗻𝘁𝗶𝘀𝘀𝗮𝗴𝗲.

𝗢𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴 𝘃𝘀 𝗨𝗻𝗱𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴

𝗢𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴 : l’erreur d’entraînement est faible, mais l’erreur de test est élevée.
Le modèle a mémorisé les données au lieu d’apprendre les vraies relations.

𝗨𝗻𝗱𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴 : l’erreur d’entraînement et l’erreur de test sont toutes les deux élevées.
Le modèle est trop simple pour comprendre la structure des données.

𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗰𝗼𝗿𝗿𝗶𝗴𝗲𝗿 ?

Pour réduire l’𝗼𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴 :
utiliser la régularisation, ajouter plus de données, simplifier le modèle ou utiliser la validation croisée.

Pour réduire l’𝘂𝗻𝗱𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴 :
ajouter des variables pertinentes, augmenter la complexité du modèle ou améliorer l’entraînement.

𝗔̀ 𝗿𝗲𝘁𝗲𝗻𝗶𝗿

Le compromis 𝗯𝗶𝗮𝗶𝘀-𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 est essentiel pour comprendre pourquoi un modèle fonctionne bien sur les données d’entraînement, mais mal sur les données de test.

Il permet de choisir le bon niveau de complexité et d’améliorer la capacité du modèle à généraliser.

________________________________________

Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6



________________________________________

#MachineLearning #DataScience #Overfitting #Modelisation #AnalyseDesDonnées

 

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique