📈 𝗔𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 𝗱𝗲 𝗰𝗼𝘂𝗿𝗯𝗲 : 𝘁𝗿𝗼𝘂𝘃𝗲𝗿 𝗹𝗮 𝗯𝗼𝗻𝗻𝗲 𝗳𝗼𝗿𝗺𝗲 𝗮𝘂 𝗺𝗶𝗹𝗶𝗲𝘂 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀
𝗟’𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 𝗱𝗲 𝗰𝗼𝘂𝗿𝗯𝗲 est une technique essentielle en statistique pour modéliser une tendance au sein d’un nuage de points. Elle permet de révéler des motifs cachés et de formuler des prédictions basées sur les données observées.
Bien réalisé, il offre des résultats puissants ; mal maîtrisé, il peut
produire des interprétations trompeuses.
✅
𝗔𝘁𝗼𝘂𝘁𝘀 𝗺𝗮𝗷𝗲𝘂𝗿𝘀 𝗱𝗲
𝗹’𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 𝗱𝗲
𝗰𝗼𝘂𝗿𝗯𝗲 :
✔️ 𝗣𝗿𝗲́𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗳𝗶𝗮𝗯𝗹𝗲𝘀 : un bon
ajustement améliore considérablement la qualité prédictive.
✔️ 𝗔𝗻𝗮𝗹𝘆𝘀𝗲 𝗿𝗲́𝘃𝗲́𝗹𝗮𝘁𝗿𝗶𝗰𝗲 : permet de
détecter des relations cachées ou des comportements inattendus.
✔️ 𝗢𝗽𝘁𝗶𝗺𝗶𝘀𝗮𝘁𝗶𝗼𝗻 𝗱𝗲 𝗺𝗼𝗱𝗲̀𝗹𝗲𝘀 : équilibre
entre simplicité et performance pour éviter le sous- ou le
surajustement.
✔️ 𝗥𝗲́𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗱𝗲𝘀 𝗲𝗿𝗿𝗲𝘂𝗿𝘀 : minimise
l’écart entre les valeurs prédites et réelles.
✔️ 𝗖𝗼𝗺𝗽𝗮𝗿𝗮𝗶𝘀𝗼𝗻 𝗱𝗲 𝗺𝗼𝗱𝗲̀𝗹𝗲𝘀 : aide à
choisir la meilleure stratégie de modélisation parmi plusieurs options.
⚠️
𝗟𝗶𝗺𝗶𝘁𝗲𝘀 𝗲𝘁
𝗿𝗶𝘀𝗾𝘂𝗲𝘀 𝗰𝗼𝘂𝗿𝗮𝗻𝘁𝘀 :
❌ 𝗦𝘂𝗿𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 (𝗼𝘃𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴) : les modèles trop complexes captent
le bruit au lieu du signal réel.
❌ 𝗦𝗼𝘂𝘀-𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 (𝘂𝗻𝗱𝗲𝗿𝗳𝗶𝘁𝘁𝗶𝗻𝗴) : les modèles trop simples ratent
des tendances clés.
❌ 𝗖𝗼𝘂̂𝘁𝘀 𝗰𝗼𝗺𝗽𝘂𝘁𝗮𝘁𝗶𝗼𝗻𝗻𝗲𝗹𝘀 : les
modèles complexes peuvent devenir lourds à entraîner.
❌ 𝗥𝗶𝘀𝗾𝘂𝗲 𝗱’𝗲𝘅𝘁𝗿𝗮𝗽𝗼𝗹𝗮𝘁𝗶𝗼𝗻 : mauvaise
fiabilité hors de l’intervalle des données observées.
❌ 𝗠𝘂𝗹𝘁𝗶𝗰𝗼𝗹𝗹𝗶𝗻𝗲́𝗮𝗿𝗶𝘁𝗲́ : en régression polynomiale, elle
peut fausser les résultats.
🧠
𝗨𝗻 𝗲𝘅𝗲𝗺𝗽𝗹𝗲 𝗱’𝗮𝗷𝘂𝘀𝘁𝗲𝗺𝗲𝗻𝘁 𝗽𝗼𝗹𝘆𝗻𝗼𝗺𝗶𝗮𝗹 :
Le graphique
ci-dessous montre différents degrés polynomiaux ajustés sur des points issus
d’une fonction sinus.
▪️ Ligne noire pointillée : les données « réelles »
▪️ Rouge
: polynôme de degré 1
▪️ Vert
: degré 2
▪️ Orange : degré 3
▪️ Bleu
: degré 4
Ce visuel
illustre comment la complexité du modèle affecte la précision ou crée un
risque de sur/sous-ajustement.
🛠️ 𝗢𝘂𝘁𝗶𝗹𝘀 𝗿𝗲𝗰𝗼𝗺𝗺𝗮𝗻𝗱𝗲́𝘀
:
🔹 𝗘𝗻 𝗥 : nls pour l’ajustement non linéaire, ggplot2 pour visualisation. minpack.lm, régressions ridge ou lasso pour limiter le surajustement.
🔹 𝗘𝗻 𝗣𝘆𝘁𝗵𝗼𝗻 : numpy pour les ajustements polynomiaux, scipy pour les courbes, scikit-learn pour la régularisation et la
validation croisée.
📬 Pour plus de contenus sur 𝗹𝗮 𝗦𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲, 𝗹𝗲
𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝗰𝗲, 𝗥
𝗲𝘁 𝗣𝘆𝘁𝗵𝗼𝗻, SPSS, STATA, etc, abonnez-vous
________________________________________
Si vous avez trouvé cette publication
utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕
à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓
avec vos amis et collègues !
Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨
________________________________________
#ggplot2 #rstats #datavisualization
#dataanalytics #tidyverse #statisticsclass #datastructure #machinelearning
#datafitting #package
Commentaires
Enregistrer un commentaire