๐‘ป๐’†๐’”๐’• ๐’…๐’† ๐’๐’๐’“๐’Ž๐’‚๐’๐’Š๐’•๐’†́ ๐’…๐’‚๐’๐’” ๐‘น : ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’”๐’‚๐’—๐’๐’Š๐’“ ๐’”๐’Š ๐’—๐’๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’” ๐’”๐’๐’๐’• ๐’๐’๐’“๐’Ž๐’‚๐’๐’†๐’” ?

En analyse statistique, avant d’appliquer certains tests ou modรจles, il est souvent nรฉcessaire de vรฉrifier si les donnรฉes suivent une ๐’…๐’Š๐’”๐’•๐’“๐’Š๐’ƒ๐’–๐’•๐’Š๐’๐’ ๐’๐’๐’“๐’Ž๐’‚๐’๐’†. Cette รฉtape est importante, car plusieurs mรฉthodes statistiques reposent sur l’hypothรจse de normalitรฉ. Dans ๐‘น, cette vรฉrification peut se faire ร  l’aide de ๐’•๐’†๐’”๐’•๐’” ๐’”๐’•๐’‚๐’•๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†๐’” et de ๐’Ž๐’†́๐’•๐’‰๐’๐’…๐’†๐’” ๐’ˆ๐’“๐’‚๐’‘๐’‰๐’Š๐’’๐’–๐’†๐’”.

 ๐Ÿ. ๐‘ณ๐’† ๐’•๐’†๐’”๐’• ๐’…๐’† ๐‘บ๐’‰๐’‚๐’‘๐’Š๐’“๐’-๐‘พ๐’Š๐’๐’Œ 

Le test de ๐‘บ๐’‰๐’‚๐’‘๐’Š๐’“๐’-๐‘พ๐’Š๐’๐’Œ est l’un des plus utilisรฉs pour tester la normalitรฉ. Il est particuliรจrement adaptรฉ aux ๐’‘๐’†๐’•๐’Š๐’•๐’” ๐’†๐’• ๐’Ž๐’๐’š๐’†๐’๐’” ๐’†́๐’„๐’‰๐’‚๐’๐’•๐’Š๐’๐’๐’๐’๐’”. Exemple sous R : R data <- c(160, 162, 165, 170, 168, 164, 163) shapiro.test(data) ๐‘ฐ๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’‚๐’•๐’Š๐’๐’ : Si p-value > 0,05, la normalitรฉ est plausible. Si p-value ≤ 0,05, les donnรฉes s’รฉloignent significativement de la normalitรฉ.

 ๐Ÿ. ๐‘ณ๐’† ๐’•๐’†๐’”๐’• ๐’…๐’† ๐‘ฒ๐’๐’๐’Ž๐’๐’ˆ๐’๐’“๐’๐’—-๐‘บ๐’Ž๐’Š๐’“๐’๐’๐’— 

Le test de ๐‘ฒ๐’๐’๐’Ž๐’๐’ˆ๐’๐’“๐’๐’—-๐‘บ๐’Ž๐’Š๐’“๐’๐’๐’— peut รชtre utilisรฉ pour comparer une distribution observรฉe ร  une distribution thรฉorique. Sous R : R ks.test(data, "pnorm", mean(data), sd(data)) Cependant, pour tester directement la normalitรฉ, ce test est gรฉnรฉralement ๐’Ž๐’๐’Š๐’๐’” ๐’“๐’†๐’„๐’๐’Ž๐’Ž๐’‚๐’๐’…๐’†́ que Shapiro-Wilk ou Anderson-Darling. 

 ๐Ÿ‘. ๐‘ณ๐’† ๐’•๐’†๐’”๐’• ๐’…’๐‘จ๐’๐’…๐’†๐’“๐’”๐’๐’-๐‘ซ๐’‚๐’“๐’๐’Š๐’๐’ˆ 

Le test d’๐‘จ๐’๐’…๐’†๐’“๐’”๐’๐’-๐‘ซ๐’‚๐’“๐’๐’Š๐’๐’ˆ est trรจs utile, car il est souvent plus sensible aux รฉcarts par rapport ร  la normalitรฉ. Sous R : R install.packages("nortest") library(nortest) ad.test(data) Il constitue une bonne alternative lorsque l’on souhaite renforcer la dรฉcision statistique.

 ๐Ÿ’. ๐‘ณ๐’†๐’” ๐’Ž๐’†́๐’•๐’‰๐’๐’…๐’†๐’” ๐’ˆ๐’“๐’‚๐’‘๐’‰๐’Š๐’’๐’–๐’†๐’” 

Les tests statistiques ne suffisent pas toujours. Il faut aussi regarder les donnรฉes. 

๐‘จ. ๐‘ณ’๐’‰๐’Š๐’”๐’•๐’๐’ˆ๐’“๐’‚๐’Ž๐’Ž๐’†  

hist(data, breaks = 10, main = "Histogramme") 

L’histogramme permet d’observer la forme gรฉnรฉrale de la distribution. 

๐‘ฉ. ๐‘ณ๐’† ๐‘ธ-๐‘ธ ๐‘ท๐’๐’๐’•

 qqnorm(data) qqline(data) 

Si les points sont proches de la droite, alors la normalitรฉ est raisonnablement plausible. 

๐Ÿ“. ๐‘ณ๐’‚ ๐’ƒ๐’๐’๐’๐’† ๐’…๐’†́๐’Ž๐’‚๐’“๐’„๐’‰๐’† 

En pratique, il ne faut pas se limiter ร  un seul indicateur. La meilleure approche consiste ร  combiner : 

๐’๐’† ๐’•๐’†๐’”๐’• ๐’…๐’† ๐‘บ๐’‰๐’‚๐’‘๐’Š๐’“๐’-๐‘พ๐’Š๐’๐’Œ 

๐’๐’† ๐‘ธ-๐‘ธ ๐‘ท๐’๐’๐’• ๐’’๐’‰๐’Š๐’”๐’•๐’๐’ˆ๐’“๐’‚๐’Ž๐’Ž๐’† 

๐’’๐’‚๐’๐’‚๐’๐’š๐’”๐’† ๐’…๐’– ๐’„๐’๐’๐’•๐’†๐’™๐’•๐’† ๐’…๐’†๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’” 

Un test peut รชtre significatif dans un grand รฉchantillon mรชme lorsque l’รฉcart ร  la normalitรฉ est faible. ร€ l’inverse, un petit รฉchantillon peut manquer de puissance pour dรฉtecter une vraie dรฉviation. 

๐‘จ̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“ 

Tester la normalitรฉ ne consiste pas seulement ร  regarder une p-value. Il faut croiser les rรฉsultats statistiques avec les graphiques pour prendre une dรฉcision plus fiable. En analyse de donnรฉes, ๐’๐’‚ ๐’ƒ๐’๐’๐’๐’† ๐’Š๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’‚๐’•๐’Š๐’๐’ ๐’†๐’”๐’• ๐’‚๐’–๐’”๐’”๐’Š ๐’Š๐’Ž๐’‘๐’๐’“๐’•๐’‚๐’๐’•๐’† ๐’’๐’–๐’† ๐’๐’† ๐’ƒ๐’๐’ ๐’„๐’๐’…๐’†. 

๐‘ณ๐’Š๐’Œ๐’†๐’›, ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’› ๐’†๐’• ๐’‚๐’ƒ๐’๐’๐’๐’†๐’›-๐’—๐’๐’–๐’” pour plus de contenus sur les statistiques, l’รฉconomรฉtrie, R, Stata et l’analyse des donnรฉes. 

Pour mieux maรฎtriser les logiciels et modรจles statistiques, prenez part ร  notre prochaine session de formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ข๐™š́๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ Lien en commentaire. 



#RStats #AnalyseDeDonnรฉes #Statistiques #DataScience #MรฉthodesQuantitatives

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique