๐‘ท๐’๐’–๐’“๐’’๐’–๐’๐’Š ๐’’๐’‚๐’๐’‚๐’๐’š๐’”๐’† ๐’…๐’†๐’” ๐’“๐’†́๐’”๐’Š๐’…๐’–๐’” ๐’†๐’”๐’• ๐’Š๐’๐’…๐’Š๐’”๐’‘๐’†๐’๐’”๐’‚๐’ƒ๐’๐’† ๐’†๐’ ๐’”๐’•๐’‚๐’•๐’Š๐’”๐’•๐’Š๐’’๐’–๐’† ๐’†๐’• ๐’†๐’ ๐’†́๐’„๐’๐’๐’๐’Ž๐’†́๐’•๐’“๐’Š๐’† ๐Ÿ“Š

Construire un modรจle de rรฉgression ne suffit pas.

Le vrai enjeu est ailleurs : ๐ฉ๐ž๐ฎ๐ญ-๐จ๐ง ๐Ÿ๐š๐ข๐ซ๐ž ๐œ๐จ๐ง๐Ÿ๐ข๐š๐ง๐œ๐ž ๐š๐ฎ๐ฑ ๐ซ๐ž́๐ฌ๐ฎ๐ฅ๐ญ๐š๐ญ๐ฌ ?

C’est prรฉcisรฉment pour rรฉpondre ร  cette question que l’on s’intรฉresse aux ๐ซ๐ž́๐ฌ๐ข๐๐ฎ๐ฌ.

Un rรฉsidu correspond simplement ร  l’รฉcart entre la valeur observรฉe et la valeur prรฉdite par le modรจle :

๐‘๐ž́๐ฌ๐ข๐๐ฎ = ๐•๐š๐ฅ๐ž๐ฎ๐ซ ๐จ๐›๐ฌ๐ž๐ซ๐ฏ๐ž́๐ž๐•๐š๐ฅ๐ž๐ฎ๐ซ ๐ฉ๐ซ๐ž́๐๐ข๐ญ๐ž

Dans un bon modรจle, les rรฉsidus doivent se comporter comme un bruit alรฉatoire.
S’ils rรฉvรจlent au contraire une structure, une tendance ou un schรฉma particulier, cela signifie souvent que quelque chose ne va pas dans la spรฉcification du modรจle.

๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฅ๐š๐ง๐š๐ฅ๐ฒ๐ฌ๐ž ๐๐ž๐ฌ ๐ซ๐ž́๐ฌ๐ข๐๐ฎ๐ฌ ๐ž๐ฌ๐ญ-๐ž๐ฅ๐ฅ๐ž ๐ฌ๐ข ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐š๐ง๐ญ๐ž ?

Parce qu’elle permet de vรฉrifier si les hypothรจses du modรจle de rรฉgression sont rรฉellement respectรฉes.

Quand ces hypothรจses รฉchouent, les consรฉquences peuvent รชtre sรฉrieuses :

coefficients mal interprรฉtรฉs
erreurs standards biaisรฉes
intervalles de confiance peu fiables
tests d’hypothรจses trompeurs
dรฉcisions fondรฉes sur un modรจle statistiquement fragile

En pratique, l’analyse des rรฉsidus aide notamment ร  :

๐๐ž́๐ญ๐ž๐œ๐ญ๐ž๐ซ ๐ฎ๐ง๐ž ๐ฆ๐š๐ฎ๐ฏ๐š๐ข๐ฌ๐ž ๐ฌ๐ฉ๐ž́๐œ๐ข๐Ÿ๐ข๐œ๐š๐ญ๐ข๐จ๐ง
๐ข๐๐ž๐ง๐ญ๐ข๐Ÿ๐ข๐ž๐ซ ๐ฅ๐ก๐ž́๐ญ๐ž́๐ซ๐จ๐ฌ๐œ๐ž́๐๐š๐ฌ๐ญ๐ข๐œ๐ข๐ญ๐ž́
๐ฏ๐ž́๐ซ๐ข๐Ÿ๐ข๐ž๐ซ ๐ฅ๐š ๐ง๐จ๐ซ๐ฆ๐š๐ฅ๐ข๐ญ๐ž́ ๐๐ž๐ฌ ๐ž๐ซ๐ซ๐ž๐ฎ๐ซ๐ฌ
๐๐ž́๐ญ๐ž๐œ๐ญ๐ž๐ซ ๐ฅ๐š๐ฎ๐ญ๐จ๐œ๐จ๐ซ๐ซ๐ž́๐ฅ๐š๐ญ๐ข๐จ๐ง
๐ซ๐ž๐ฉ๐ž́๐ซ๐ž๐ซ ๐ฅ๐ž๐ฌ ๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ ๐š๐›๐ž๐ซ๐ซ๐š๐ง๐ญ๐ž๐ฌ ๐ž๐ญ ๐ฅ๐ž๐ฌ ๐จ๐›๐ฌ๐ž๐ซ๐ฏ๐š๐ญ๐ข๐จ๐ง๐ฌ ๐ข๐ง๐Ÿ๐ฅ๐ฎ๐ž๐ง๐ญ๐ž๐ฌ

๐„๐ฑ๐ž๐ฆ๐ฉ๐ฅ๐ž ๐Ÿ : ๐ฅ๐ก๐ž́๐ญ๐ž́๐ซ๐จ๐ฌ๐œ๐ž́๐๐š๐ฌ๐ญ๐ข๐œ๐ข๐ญ๐ž́

Imaginons un modรจle qui explique le prix d’un logement ร  partir du revenu, de la localisation et de la taille.

Aprรจs estimation, on observe que les logements peu chers ont de petits rรฉsidus, tandis que les logements plus chers prรฉsentent des rรฉsidus beaucoup plus dispersรฉs.

Ce type de graphique en forme d’entonnoir suggรจre une hรฉtรฉroscรฉdasticitรฉ, c’est-ร -dire une variance des erreurs non constante.

๐Ÿ‘‰ Consรฉquence : les erreurs standards deviennent biaisรฉes, ce qui fragilise les tests statistiques.

Parmi les tests souvent utilisรฉs, on retrouve :

๐“๐ž๐ฌ๐ญ ๐๐ž ๐๐ซ๐ž๐ฎ๐ฌ๐œ๐ก-๐๐š๐ ๐š๐ง
๐“๐ž๐ฌ๐ญ ๐๐ž ๐–๐ก๐ข๐ญ๐ž

๐„๐ฑ๐ž๐ฆ๐ฉ๐ฅ๐ž ๐Ÿ : ๐ฅ๐š๐ฎ๐ญ๐จ๐œ๐จ๐ซ๐ซ๐ž́๐ฅ๐š๐ญ๐ข๐จ๐ง ๐ž๐ง ๐ฌ๐ž́๐ซ๐ข๐ž๐ฌ ๐ญ๐ž๐ฆ๐ฉ๐จ๐ซ๐ž๐ฅ๐ฅ๐ž๐ฌ

Prenons maintenant un modรจle รฉconomรฉtrique qui cherche ร  prรฉdire la croissance trimestrielle du PIB.

Si les rรฉsidus d’un trimestre sont corrรฉlรฉs ร  ceux des trimestres prรฉcรฉdents, alors le modรจle souffre d’autocorrรฉlation.

๐Ÿ‘‰ Consรฉquence :

  • les coefficients peuvent rester non biaisรฉs ;
  • mais les erreurs standards deviennent peu fiables.

Le test le plus connu dans ce cas est :

๐“๐ž๐ฌ๐ญ ๐๐ž ๐ƒ๐ฎ๐ซ๐›๐ข๐ง-๐–๐š๐ญ๐ฌ๐จ๐ง

๐‹๐ž๐ฌ ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ ๐ž๐ฌ๐ฌ๐ž๐ง๐ญ๐ข๐ž๐ฅ๐ฌ ๐š̀ ๐ฏ๐ž́๐ซ๐ข๐Ÿ๐ข๐ž๐ซ ๐๐š๐ง๐ฌ ๐ฅ๐ž๐ฌ ๐ซ๐ž́๐ฌ๐ข๐๐ฎ๐ฌ

Voici quelques contrรดles incontournables :

๐Ÿ. ๐‹๐ข๐ง๐ž́๐š๐ซ๐ข๐ญ๐ž́
Les rรฉsidus ne doivent pas prรฉsenter de structure systรฉmatique.

๐Ÿ. ๐•๐š๐ซ๐ข๐š๐ง๐œ๐ž ๐œ๐จ๐ง๐ฌ๐ญ๐š๐ง๐ญ๐ž
La dispersion des rรฉsidus doit rester globalement stable.

๐Ÿ‘. ๐๐จ๐ซ๐ฆ๐š๐ฅ๐ข๐ญ๐ž́ ๐๐ž๐ฌ ๐ž๐ซ๐ซ๐ž๐ฎ๐ซ๐ฌ
Importante pour la validitรฉ des intervalles de confiance et des tests.

๐Ÿ’. ๐ˆ๐ง๐๐ž́๐ฉ๐ž๐ง๐๐š๐ง๐œ๐ž ๐๐ž๐ฌ ๐ž๐ซ๐ซ๐ž๐ฎ๐ซ๐ฌ
Les rรฉsidus ne doivent pas รชtre corrรฉlรฉs entre eux.

๐Ÿ“. ๐•๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ ๐š๐›๐ž๐ซ๐ซ๐š๐ง๐ญ๐ž๐ฌ ๐ž๐ญ ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ ๐ข๐ง๐Ÿ๐ฅ๐ฎ๐ž๐ง๐ญ๐ฌ
On peut les dรฉtecter avec des outils comme le leverage ou la distance de Cook.

๐”๐ง ๐ฉ๐จ๐ข๐ง๐ญ ๐œ๐ฅ๐ž́ ๐š̀ ๐ซ๐ž๐ญ๐ž๐ง๐ข๐ซ

Un modรจle peut afficher un ๐‘² รฉlevรฉ et pourtant รชtre statistiquement peu fiable si les diagnostics rรฉsiduels ne sont pas satisfaisants.

En pratique, l’analyse des rรฉsidus permet souvent de rรฉvรฉler :

๐๐ž๐ฌ ๐ฏ๐š๐ซ๐ข๐š๐›๐ฅ๐ž๐ฌ ๐จ๐ฆ๐ข๐ฌ๐ž๐ฌ
๐ฎ๐ง๐ž ๐ฆ๐š๐ฎ๐ฏ๐š๐ข๐ฌ๐ž ๐Ÿ๐จ๐ซ๐ฆ๐ž ๐Ÿ๐จ๐ง๐œ๐ญ๐ข๐จ๐ง๐ง๐ž๐ฅ๐ฅ๐ž
๐๐ž๐ฌ ๐ซ๐ž๐ฅ๐š๐ญ๐ข๐จ๐ง๐ฌ ๐ง๐จ๐ง ๐ฅ๐ข๐ง๐ž́๐š๐ข๐ซ๐ž๐ฌ
๐๐ž๐ฌ ๐ฉ๐ซ๐จ๐›๐ฅ๐ž̀๐ฆ๐ž๐ฌ ๐๐ž ๐ช๐ฎ๐š๐ฅ๐ข๐ญ๐ž́ ๐๐ž๐ฌ ๐๐จ๐ง๐ง๐ž́๐ž๐ฌ

Autrement dit, elle transforme une simple rรฉgression en une modรฉlisation statistique rรฉellement robuste.

๐€̀ ๐ซ๐ž๐ญ๐ž๐ง๐ข๐ซ

En statistique appliquรฉe et en รฉconomรฉtrie, ๐ข๐ง๐ญ๐ž๐ซ๐ฉ๐ซ๐ž́๐ญ๐ž๐ซ ๐ฅ๐ž๐ฌ ๐ซ๐ž́๐ฌ๐ข๐๐ฎ๐ฌ ๐ž๐ฌ๐ญ ๐š๐ฎ๐ฌ๐ฌ๐ข ๐ข๐ฆ๐ฉ๐จ๐ซ๐ญ๐š๐ง๐ญ ๐ช๐ฎ๐ž ๐๐ข๐ง๐ญ๐ž๐ซ๐ฉ๐ซ๐ž́๐ญ๐ž๐ซ ๐ฅ๐ž๐ฌ ๐œ๐จ๐ž๐Ÿ๐Ÿ๐ข๐œ๐ข๐ž๐ง๐ญ๐ฌ.

Un modรจle n’est pas seulement bon parce qu’il ajuste bien les donnรฉes.
Il doit aussi respecter les conditions qui rendent ses conclusions crรฉdibles.

Si vous avez trouvรฉ cette publication utile, n'hรฉsitez pas ร  ๐’๐’‚ ๐’๐’Š๐’Œ๐’†๐’“ et ร  ๐’๐’‚ ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ avec vos amis et collรจgues.

Pour mieux apprendre l’utilisation des logiciels et modรจles statistiques, nous vous invitons ร  prendre part ร  la prochaine session de notre formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ขรฉ๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ https://forms.gle/yZAZimRXbTFbUWZk6

 


#Statistiques #Econometrie #DataScience #AnalyseDeDonnees #DiagnosticsResiduels

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique