๐ท๐๐๐๐๐๐๐ ๐’๐๐๐๐๐๐๐ ๐ ๐๐ ๐๐́๐๐๐ ๐๐ ๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐๐ ๐́๐๐๐๐๐๐́๐๐๐๐ ๐
Construire un modรจle de rรฉgression ne suffit pas.
Le vrai enjeu est ailleurs : ๐ฉ๐๐ฎ๐ญ-๐จ๐ง ๐๐๐ข๐ซ๐ ๐๐จ๐ง๐๐ข๐๐ง๐๐ ๐๐ฎ๐ฑ ๐ซ๐́๐ฌ๐ฎ๐ฅ๐ญ๐๐ญ๐ฌ ?
C’est
prรฉcisรฉment pour rรฉpondre ร cette question que l’on s’intรฉresse aux ๐ซ๐́๐ฌ๐ข๐๐ฎ๐ฌ.
Un rรฉsidu
correspond simplement ร l’รฉcart entre la valeur observรฉe et la valeur prรฉdite
par le modรจle :
๐๐́๐ฌ๐ข๐๐ฎ = ๐๐๐ฅ๐๐ฎ๐ซ ๐จ๐๐ฌ๐๐ซ๐ฏ๐́๐ − ๐๐๐ฅ๐๐ฎ๐ซ ๐ฉ๐ซ๐́๐๐ข๐ญ๐
Dans un bon
modรจle, les rรฉsidus doivent se comporter comme un bruit alรฉatoire.
S’ils rรฉvรจlent au contraire une structure, une tendance ou un schรฉma
particulier, cela signifie souvent que quelque chose ne va pas dans la
spรฉcification du modรจle.
๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฅ’๐๐ง๐๐ฅ๐ฒ๐ฌ๐ ๐๐๐ฌ ๐ซ๐́๐ฌ๐ข๐๐ฎ๐ฌ ๐๐ฌ๐ญ-๐๐ฅ๐ฅ๐ ๐ฌ๐ข ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐๐ง๐ญ๐ ?
Parce qu’elle
permet de vรฉrifier si les hypothรจses du modรจle de rรฉgression sont
rรฉellement respectรฉes.
Quand ces
hypothรจses รฉchouent, les consรฉquences peuvent รชtre sรฉrieuses :
✅ coefficients mal interprรฉtรฉs
✅ erreurs standards biaisรฉes
✅ intervalles de confiance peu fiables
✅ tests d’hypothรจses trompeurs
✅ dรฉcisions fondรฉes sur un modรจle statistiquement fragile
En pratique,
l’analyse des rรฉsidus aide notamment ร :
๐๐́๐ญ๐๐๐ญ๐๐ซ ๐ฎ๐ง๐ ๐ฆ๐๐ฎ๐ฏ๐๐ข๐ฌ๐ ๐ฌ๐ฉ๐́๐๐ข๐๐ข๐๐๐ญ๐ข๐จ๐ง
๐ข๐๐๐ง๐ญ๐ข๐๐ข๐๐ซ ๐ฅ’๐ก๐́๐ญ๐́๐ซ๐จ๐ฌ๐๐́๐๐๐ฌ๐ญ๐ข๐๐ข๐ญ๐́
๐ฏ๐́๐ซ๐ข๐๐ข๐๐ซ ๐ฅ๐ ๐ง๐จ๐ซ๐ฆ๐๐ฅ๐ข๐ญ๐́ ๐๐๐ฌ ๐๐ซ๐ซ๐๐ฎ๐ซ๐ฌ
๐๐́๐ญ๐๐๐ญ๐๐ซ ๐ฅ’๐๐ฎ๐ญ๐จ๐๐จ๐ซ๐ซ๐́๐ฅ๐๐ญ๐ข๐จ๐ง
๐ซ๐๐ฉ๐́๐ซ๐๐ซ ๐ฅ๐๐ฌ ๐ฏ๐๐ฅ๐๐ฎ๐ซ๐ฌ ๐๐๐๐ซ๐ซ๐๐ง๐ญ๐๐ฌ ๐๐ญ ๐ฅ๐๐ฌ ๐จ๐๐ฌ๐๐ซ๐ฏ๐๐ญ๐ข๐จ๐ง๐ฌ ๐ข๐ง๐๐ฅ๐ฎ๐๐ง๐ญ๐๐ฌ
๐๐ฑ๐๐ฆ๐ฉ๐ฅ๐ ๐ : ๐ฅ’๐ก๐́๐ญ๐́๐ซ๐จ๐ฌ๐๐́๐๐๐ฌ๐ญ๐ข๐๐ข๐ญ๐́
Imaginons un
modรจle qui explique le prix d’un logement ร partir du revenu, de
la localisation et de la taille.
Aprรจs
estimation, on observe que les logements peu chers ont de petits rรฉsidus,
tandis que les logements plus chers prรฉsentent des rรฉsidus beaucoup plus
dispersรฉs.
Ce type de
graphique en forme d’entonnoir suggรจre une hรฉtรฉroscรฉdasticitรฉ,
c’est-ร -dire une variance des erreurs non constante.
๐ Consรฉquence : les erreurs standards
deviennent biaisรฉes, ce qui fragilise les tests statistiques.
Parmi les tests
souvent utilisรฉs, on retrouve :
๐๐๐ฌ๐ญ ๐๐ ๐๐ซ๐๐ฎ๐ฌ๐๐ก-๐๐๐ ๐๐ง
๐๐๐ฌ๐ญ ๐๐ ๐๐ก๐ข๐ญ๐
๐๐ฑ๐๐ฆ๐ฉ๐ฅ๐ ๐ : ๐ฅ’๐๐ฎ๐ญ๐จ๐๐จ๐ซ๐ซ๐́๐ฅ๐๐ญ๐ข๐จ๐ง ๐๐ง ๐ฌ๐́๐ซ๐ข๐๐ฌ ๐ญ๐๐ฆ๐ฉ๐จ๐ซ๐๐ฅ๐ฅ๐๐ฌ
Prenons
maintenant un modรจle รฉconomรฉtrique qui cherche ร prรฉdire la croissance
trimestrielle du PIB.
Si les rรฉsidus
d’un trimestre sont corrรฉlรฉs ร ceux des trimestres prรฉcรฉdents, alors le modรจle
souffre d’autocorrรฉlation.
๐ Consรฉquence :
- les
coefficients peuvent rester non biaisรฉs ;
- mais les
erreurs standards deviennent peu fiables.
Le test le plus
connu dans ce cas est :
๐๐๐ฌ๐ญ ๐๐ ๐๐ฎ๐ซ๐๐ข๐ง-๐๐๐ญ๐ฌ๐จ๐ง
๐๐๐ฌ ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ ๐๐ฌ๐ฌ๐๐ง๐ญ๐ข๐๐ฅ๐ฌ ๐̀ ๐ฏ๐́๐ซ๐ข๐๐ข๐๐ซ ๐๐๐ง๐ฌ ๐ฅ๐๐ฌ ๐ซ๐́๐ฌ๐ข๐๐ฎ๐ฌ
Voici quelques
contrรดles incontournables :
๐. ๐๐ข๐ง๐́๐๐ซ๐ข๐ญ๐́
Les rรฉsidus ne doivent pas prรฉsenter de structure systรฉmatique.
๐. ๐๐๐ซ๐ข๐๐ง๐๐ ๐๐จ๐ง๐ฌ๐ญ๐๐ง๐ญ๐
La dispersion des rรฉsidus doit rester globalement stable.
๐. ๐๐จ๐ซ๐ฆ๐๐ฅ๐ข๐ญ๐́ ๐๐๐ฌ ๐๐ซ๐ซ๐๐ฎ๐ซ๐ฌ
Importante pour la validitรฉ des intervalles de confiance et des tests.
๐. ๐๐ง๐๐́๐ฉ๐๐ง๐๐๐ง๐๐ ๐๐๐ฌ ๐๐ซ๐ซ๐๐ฎ๐ซ๐ฌ
Les rรฉsidus ne doivent pas รชtre corrรฉlรฉs entre eux.
๐. ๐๐๐ฅ๐๐ฎ๐ซ๐ฌ ๐๐๐๐ซ๐ซ๐๐ง๐ญ๐๐ฌ ๐๐ญ ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ ๐ข๐ง๐๐ฅ๐ฎ๐๐ง๐ญ๐ฌ
On peut les dรฉtecter avec des outils comme le leverage ou la distance
de Cook.
๐๐ง ๐ฉ๐จ๐ข๐ง๐ญ ๐๐ฅ๐́ ๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ
Un modรจle peut
afficher un ๐² รฉlevรฉ et pourtant รชtre statistiquement peu
fiable si les diagnostics rรฉsiduels ne sont pas satisfaisants.
En pratique,
l’analyse des rรฉsidus permet souvent de rรฉvรฉler :
๐๐๐ฌ ๐ฏ๐๐ซ๐ข๐๐๐ฅ๐๐ฌ ๐จ๐ฆ๐ข๐ฌ๐๐ฌ
๐ฎ๐ง๐ ๐ฆ๐๐ฎ๐ฏ๐๐ข๐ฌ๐ ๐๐จ๐ซ๐ฆ๐ ๐๐จ๐ง๐๐ญ๐ข๐จ๐ง๐ง๐๐ฅ๐ฅ๐
๐๐๐ฌ ๐ซ๐๐ฅ๐๐ญ๐ข๐จ๐ง๐ฌ ๐ง๐จ๐ง ๐ฅ๐ข๐ง๐́๐๐ข๐ซ๐๐ฌ
๐๐๐ฌ ๐ฉ๐ซ๐จ๐๐ฅ๐̀๐ฆ๐๐ฌ ๐๐
๐ช๐ฎ๐๐ฅ๐ข๐ญ๐́ ๐๐๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ
Autrement dit,
elle transforme une simple rรฉgression en une modรฉlisation statistique
rรฉellement robuste.
๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ
En statistique
appliquรฉe et en รฉconomรฉtrie, ๐ข๐ง๐ญ๐๐ซ๐ฉ๐ซ๐́๐ญ๐๐ซ ๐ฅ๐๐ฌ ๐ซ๐́๐ฌ๐ข๐๐ฎ๐ฌ ๐๐ฌ๐ญ ๐๐ฎ๐ฌ๐ฌ๐ข ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐๐ง๐ญ ๐ช๐ฎ๐ ๐’๐ข๐ง๐ญ๐๐ซ๐ฉ๐ซ๐́๐ญ๐๐ซ ๐ฅ๐๐ฌ ๐๐จ๐๐๐๐ข๐๐ข๐๐ง๐ญ๐ฌ.
Un modรจle n’est
pas seulement bon parce qu’il ajuste bien les donnรฉes.
Il doit aussi respecter les conditions qui rendent ses conclusions crรฉdibles.
Si vous avez
trouvรฉ cette publication utile, n'hรฉsitez pas ร ๐๐ ๐๐๐๐๐ et ร ๐๐ ๐๐๐๐๐๐๐๐ avec vos amis et collรจgues.
Pour mieux apprendre
l’utilisation des logiciels et modรจles statistiques, nous vous invitons ร
prendre part ร la prochaine session de notre formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ https://forms.gle/yZAZimRXbTFbUWZk6
#Statistiques #Econometrie
#DataScience #AnalyseDeDonnees #DiagnosticsResiduels

Commentaires
Enregistrer un commentaire