Statistical Models for Social Sciences

𝑸𝒖’𝒆𝒔𝒕-𝒄𝒆 𝒒𝒖𝒆 𝒍𝒆 𝒃𝒊𝒂𝒊𝒔 𝒅’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 ?

(𝒆𝒏 𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒅𝒆 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒆𝒕 𝒆𝒏 𝒆𝒏𝒒𝒖𝒆̂𝒕𝒆𝒔 𝒒𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒆𝒔)

👋 𝑨𝒑𝒑𝒓𝒆𝒏𝒐𝒏𝒔 𝒆𝒏𝒔𝒆𝒎𝒃𝒍𝒆

Le 𝒃𝒊𝒂𝒊𝒔 𝒅’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 apparaît lorsque 𝒗𝒐𝒕𝒓𝒆 𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 𝒏𝒆 𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆 𝒑𝒂𝒔 correctement 𝒍𝒂 𝒑𝒐𝒑𝒖𝒍𝒂𝒕𝒊𝒐𝒏.

Autrement dit, certaines catégories sont 𝒔𝒖𝒓𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆́𝒆𝒔 et d’autres 𝒔𝒐𝒖𝒔-𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆́𝒆𝒔.
Résultat : vos estimations contiennent une 𝒆𝒓𝒓𝒆𝒖𝒓 𝒔𝒚𝒔𝒕𝒆́𝒎𝒂𝒕𝒊𝒒𝒖𝒆 dès le départ.
Et attention : 𝒂𝒋𝒐𝒖𝒕𝒆𝒓 𝒑𝒍𝒖𝒔 𝒅𝒆 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒏𝒆 𝒔𝒖𝒇𝒇𝒊𝒕 𝒑𝒂𝒔 à corriger ce problème si le biais est présent dès la collecte.

𝑬𝒙𝒆𝒎𝒑𝒍𝒆𝒔 :
Étudier l’accès à Internet en interrogeant uniquement des 𝒖𝒕𝒊𝒍𝒊𝒔𝒂𝒕𝒆𝒖𝒓𝒔 𝒅𝒆 𝒔𝒎𝒂𝒓𝒕𝒑𝒉𝒐𝒏𝒆.
Ou entraîner un modèle avec des données de circulation de journée alors qu’on veut prédire les 𝒉𝒆𝒖𝒓𝒆𝒔 𝒅𝒆 𝒑𝒐𝒊𝒏𝒕𝒆.

𝑳𝒂 𝒇𝒐𝒓𝒎𝒖𝒍𝒆 :
Bias(θ̂) = E[θ̂] - θ = Σ(πi/pi - 1) × θi/n

Avec :
πi = proportion réelle du groupe i dans la population
pi = probabilité de sélection du groupe i
θi = valeur du paramètre pour le groupe i
n = taille de l’échantillon

Lorsque πi ≠ pi, il y a 𝒃𝒊𝒂𝒊𝒔.

𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒄𝒆 𝒃𝒊𝒂𝒊𝒔 𝒂𝒑𝒑𝒂𝒓𝒂𝒊̂𝒕-𝒊𝒍 ?
① On définit la population cible
② Certaines unités sont plus faciles à atteindre que d’autres
③ La probabilité de sélection varie selon les groupes
④ L’échantillon penche vers les groupes les plus accessibles
⑤ Les résultats héritent de ce déséquilibre

𝑳𝒆𝒔 𝒕𝒚𝒑𝒆𝒔 𝒍𝒆𝒔 𝒑𝒍𝒖𝒔 𝒄𝒐𝒖𝒓𝒂𝒏𝒕𝒔 :

𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒔𝒆́𝒍𝒆𝒄𝒕𝒊𝒐𝒏 : la probabilité d’être inclus dépend de la variable étudiée.
Exemple : analyser les revenus à partir des seules déclarations fiscales.

𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒔𝒖𝒓𝒗𝒊𝒆 : on observe seulement les cas qui ont “survécu”, pas les échecs.
Exemple : étudier uniquement les startups qui ont réussi.

𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒏𝒐𝒏-𝒓𝒆́𝒑𝒐𝒏𝒔𝒆 : les personnes qui ne répondent pas diffèrent de celles qui répondent.
Exemple : les clients insatisfaits répondent moins aux enquêtes.

𝑬́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 𝒅𝒆 𝒄𝒐𝒎𝒎𝒐𝒅𝒊𝒕𝒆́ : on interroge uniquement les individus les plus faciles à atteindre.
Exemple : sonder les gens à l’entrée d’un centre commercial.

𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒍𝒆 𝒅𝒆́𝒕𝒆𝒄𝒕𝒆𝒓 ?
Comparez le profil de votre échantillon avec les statistiques connues de la population.
Si votre échantillon contient 80 % d’hommes alors que la population en compte 50 %, c’est un signal d’alerte.

Il faut aussi vérifier les performances d’un modèle selon les sous-groupes : de grands écarts peuvent révéler un biais dans les données d’apprentissage.

𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒍𝒆 𝒄𝒐𝒓𝒓𝒊𝒈𝒆𝒓 ?

𝑬́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 𝒔𝒕𝒓𝒂𝒕𝒊𝒇𝒊𝒆́ : prélever des observations dans chaque sous-groupe selon leur poids réel.

𝑷𝒐𝒏𝒅𝒆́𝒓𝒂𝒕𝒊𝒐𝒏 𝒑𝒂𝒓 𝒍’𝒊𝒏𝒗𝒆𝒓𝒔𝒆 𝒅𝒆 𝒍𝒂 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒅𝒆 𝒔𝒆́𝒍𝒆𝒄𝒕𝒊𝒐𝒏 (𝑰𝑷𝑾) : donner plus de poids aux groupes sous-représentés et moins aux groupes surreprésentés.

𝑷𝒐𝒔𝒕-𝒔𝒕𝒓𝒂𝒕𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏 : réajuster les poids après la collecte pour rapprocher l’échantillon de la structure réelle de la population.

𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓 :
Dès que vos données viennent d’une 𝒔𝒆𝒖𝒍𝒆 𝒑𝒍𝒂𝒕𝒆𝒇𝒐𝒓𝒎𝒆, d’un 𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 𝒅𝒆 𝒄𝒐𝒎𝒎𝒐𝒅𝒊𝒕𝒆́, de 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒇𝒊𝒍𝒕𝒓𝒆́𝒆𝒔 ou de réponses incomplètes, il faut 𝒔𝒖𝒑𝒑𝒐𝒔𝒆𝒓 𝒍’𝒆𝒙𝒊𝒔𝒕𝒆𝒏𝒄𝒆 𝒅’𝒖𝒏 𝒃𝒊𝒂𝒊𝒔 jusqu’à preuve du contraire.

________________________________________________________________________________

Si vous avez trouvé cette publication utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕 à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 avec vos amis et collègues !

Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://https://forms.gle/mopoGRWKwyTtbEJ16

________________________________________

#BiaisDEchantillonnage #Statistique #AnalyseDeDonnees #EnqueteQuantitative #MethodologieQuantitative

Rechercher dans ce blog

Statistical Models for Social Sciences

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

comment exporter les résultats des estimations de STATA vers word, Excel...

panel ARDL in STATA