𝑻𝒆𝒔𝒕 𝒅𝒆 𝒏𝒐𝒓𝒎𝒂𝒍𝒊𝒕𝒆́ 𝒅𝒂𝒏𝒔 𝑹 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒔𝒂𝒗𝒐𝒊𝒓 𝒔𝒊 𝒗𝒐𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒔𝒐𝒏𝒕 𝒏𝒐𝒓𝒎𝒂𝒍𝒆𝒔 ?

En analyse statistique, avant d’appliquer certains tests ou modèles, il est souvent nécessaire de vérifier si les données suivent une 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 𝒏𝒐𝒓𝒎𝒂𝒍𝒆. Cette étape est importante, car plusieurs méthodes statistiques reposent sur l’hypothèse de normalité. Dans 𝑹, cette vérification peut se faire à l’aide de 𝒕𝒆𝒔𝒕𝒔 𝒔𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆𝒔 et de 𝒎𝒆́𝒕𝒉𝒐𝒅𝒆𝒔 𝒈𝒓𝒂𝒑𝒉𝒊𝒒𝒖𝒆𝒔.

𝟏. 𝑳𝒆 𝒕𝒆𝒔𝒕 𝒅𝒆 𝑺𝒉𝒂𝒑𝒊𝒓𝒐-𝑾𝒊𝒍𝒌

Le test de 𝑺𝒉𝒂𝒑𝒊𝒓𝒐-𝑾𝒊𝒍𝒌 est l’un des plus utilisés pour tester la normalité. Il est particulièrement adapté aux 𝒑𝒆𝒕𝒊𝒕𝒔 𝒆𝒕 𝒎𝒐𝒚𝒆𝒏𝒔 𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒔. Exemple sous R : R data <- c(160, 162, 165, 170, 168, 164, 163) shapiro.test(data) 𝑰𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒂𝒕𝒊𝒐𝒏 : Si p-value > 0,05, la normalité est plausible. Si p-value ≤ 0,05, les données s’éloignent significativement de la normalité.

𝟐. 𝑳𝒆 𝒕𝒆𝒔𝒕 𝒅𝒆 𝑲𝒐𝒍𝒎𝒐𝒈𝒐𝒓𝒐𝒗-𝑺𝒎𝒊𝒓𝒏𝒐𝒗

Le test de 𝑲𝒐𝒍𝒎𝒐𝒈𝒐𝒓𝒐𝒗-𝑺𝒎𝒊𝒓𝒏𝒐𝒗 peut être utilisé pour comparer une distribution observée à une distribution théorique. Sous R : R ks.test(data, "pnorm", mean(data), sd(data)) Cependant, pour tester directement la normalité, ce test est généralement 𝒎𝒐𝒊𝒏𝒔 𝒓𝒆𝒄𝒐𝒎𝒎𝒂𝒏𝒅𝒆́ que Shapiro-Wilk ou Anderson-Darling.

𝟑. 𝑳𝒆 𝒕𝒆𝒔𝒕 𝒅’𝑨𝒏𝒅𝒆𝒓𝒔𝒐𝒏-𝑫𝒂𝒓𝒍𝒊𝒏𝒈

Le test d’𝑨𝒏𝒅𝒆𝒓𝒔𝒐𝒏-𝑫𝒂𝒓𝒍𝒊𝒏𝒈 est très utile, car il est souvent plus sensible aux écarts par rapport à la normalité. Sous R : R install.packages("nortest") library(nortest) ad.test(data) Il constitue une bonne alternative lorsque l’on souhaite renforcer la décision statistique.

𝟒. 𝑳𝒆𝒔 𝒎𝒆́𝒕𝒉𝒐𝒅𝒆𝒔 𝒈𝒓𝒂𝒑𝒉𝒊𝒒𝒖𝒆𝒔

Les tests statistiques ne suffisent pas toujours. Il faut aussi regarder les données.

𝑨. 𝑳’𝒉𝒊𝒔𝒕𝒐𝒈𝒓𝒂𝒎𝒎𝒆

hist(data, breaks = 10, main = "Histogramme")

L’histogramme permet d’observer la forme générale de la distribution.

𝑩. 𝑳𝒆 𝑸-𝑸 𝑷𝒍𝒐𝒕

qqnorm(data) qqline(data)

Si les points sont proches de la droite, alors la normalité est raisonnablement plausible.

𝟓. 𝑳𝒂 𝒃𝒐𝒏𝒏𝒆 𝒅𝒆́𝒎𝒂𝒓𝒄𝒉𝒆

En pratique, il ne faut pas se limiter à un seul indicateur. La meilleure approche consiste à combiner :

𝒍𝒆 𝒕𝒆𝒔𝒕 𝒅𝒆 𝑺𝒉𝒂𝒑𝒊𝒓𝒐-𝑾𝒊𝒍𝒌

𝒍𝒆 𝑸-𝑸 𝑷𝒍𝒐𝒕 𝒍’𝒉𝒊𝒔𝒕𝒐𝒈𝒓𝒂𝒎𝒎𝒆

𝒍’𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒅𝒖 𝒄𝒐𝒏𝒕𝒆𝒙𝒕𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔

Un test peut être significatif dans un grand échantillon même lorsque l’écart à la normalité est faible. À l’inverse, un petit échantillon peut manquer de puissance pour détecter une vraie déviation.

𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓

Tester la normalité ne consiste pas seulement à regarder une p-value. Il faut croiser les résultats statistiques avec les graphiques pour prendre une décision plus fiable. En analyse de données, 𝒍𝒂 𝒃𝒐𝒏𝒏𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒂𝒕𝒊𝒐𝒏 𝒆𝒔𝒕 𝒂𝒖𝒔𝒔𝒊 𝒊𝒎𝒑𝒐𝒓𝒕𝒂𝒏𝒕𝒆 𝒒𝒖𝒆 𝒍𝒆 𝒃𝒐𝒏 𝒄𝒐𝒅𝒆.

𝑳𝒊𝒌𝒆𝒛, 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒛 𝒆𝒕 𝒂𝒃𝒐𝒏𝒏𝒆𝒛-𝒗𝒐𝒖𝒔 pour plus de contenus sur les statistiques, l’économétrie, R, Stata et l’analyse des données.

Pour mieux maîtriser les logiciels et modèles statistiques, prenez part à notre prochaine session de formation en 𝙀𝙘𝙤𝙣𝙤𝙢𝙚́𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 Lien en commentaire.

#RStats #AnalyseDeDonnées #Statistiques #DataScience #MéthodesQuantitatives

Rechercher dans ce blog

Statistical Models for Social Sciences

𝑻𝒆𝒔𝒕 𝒅𝒆 𝒏𝒐𝒓𝒎𝒂𝒍𝒊𝒕𝒆́ 𝒅𝒂𝒏𝒔 𝑹 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒔𝒂𝒗𝒐𝒊𝒓 𝒔𝒊 𝒗𝒐𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒔𝒐𝒏𝒕 𝒏𝒐𝒓𝒎𝒂𝒍𝒆𝒔 ?

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...