𝑸𝒖’𝒆𝒔𝒕-𝒄𝒆 𝒒𝒖𝒆 𝒍𝒆 𝒃𝒊𝒂𝒊𝒔 𝒅’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 ?
(𝒆𝒏
𝒂𝒏𝒂𝒍𝒚𝒔𝒆
𝒅𝒆 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔
𝒆𝒕 𝒆𝒏
𝒆𝒏𝒒𝒖𝒆̂𝒕𝒆𝒔
𝒒𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒆𝒔)
👋 𝑨𝒑𝒑𝒓𝒆𝒏𝒐𝒏𝒔
𝒆𝒏𝒔𝒆𝒎𝒃𝒍𝒆
Le 𝒃𝒊𝒂𝒊𝒔
𝒅’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆
apparaît lorsque 𝒗𝒐𝒕𝒓𝒆
𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏
𝒏𝒆 𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆
𝒑𝒂𝒔 correctement 𝒍𝒂
𝒑𝒐𝒑𝒖𝒍𝒂𝒕𝒊𝒐𝒏.
Autrement dit, certaines catégories sont 𝒔𝒖𝒓𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆́𝒆𝒔
et d’autres 𝒔𝒐𝒖𝒔-𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒆́𝒆𝒔.
Résultat : vos estimations
contiennent une 𝒆𝒓𝒓𝒆𝒖𝒓 𝒔𝒚𝒔𝒕𝒆́𝒎𝒂𝒕𝒊𝒒𝒖𝒆 dès le départ.
Et attention : 𝒂𝒋𝒐𝒖𝒕𝒆𝒓 𝒑𝒍𝒖𝒔 𝒅𝒆 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒏𝒆 𝒔𝒖𝒇𝒇𝒊𝒕 𝒑𝒂𝒔 à corriger ce problème si le biais est
présent dès la collecte.
𝑬𝒙𝒆𝒎𝒑𝒍𝒆𝒔 :
Étudier l’accès à Internet en interrogeant uniquement des 𝒖𝒕𝒊𝒍𝒊𝒔𝒂𝒕𝒆𝒖𝒓𝒔 𝒅𝒆 𝒔𝒎𝒂𝒓𝒕𝒑𝒉𝒐𝒏𝒆.
Ou entraîner un modèle avec des données de circulation de journée alors qu’on
veut prédire les 𝒉𝒆𝒖𝒓𝒆𝒔 𝒅𝒆 𝒑𝒐𝒊𝒏𝒕𝒆.
𝑳𝒂 𝒇𝒐𝒓𝒎𝒖𝒍𝒆 :
Bias(θ̂) = E[θ̂] - θ = Σ(πi/pi - 1) × θi/n
Avec
:
πi = proportion réelle du groupe i
dans la population
pi = probabilité de sélection du
groupe i
θi = valeur du paramètre pour le groupe i
n = taille de l’échantillon
Lorsque
πi ≠ pi, il y a 𝒃𝒊𝒂𝒊𝒔.
𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒄𝒆 𝒃𝒊𝒂𝒊𝒔 𝒂𝒑𝒑𝒂𝒓𝒂𝒊̂𝒕-𝒊𝒍 ?
① On définit la population cible
② Certaines unités sont plus faciles à atteindre que d’autres
③ La probabilité de sélection varie selon les groupes
④ L’échantillon penche vers les groupes les plus accessibles
⑤ Les résultats héritent de ce déséquilibre
𝑳𝒆𝒔 𝒕𝒚𝒑𝒆𝒔 𝒍𝒆𝒔 𝒑𝒍𝒖𝒔 𝒄𝒐𝒖𝒓𝒂𝒏𝒕𝒔 :
𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒔𝒆́𝒍𝒆𝒄𝒕𝒊𝒐𝒏 : la probabilité d’être inclus dépend de la
variable étudiée.
Exemple : analyser les revenus à partir des seules déclarations fiscales.
𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒔𝒖𝒓𝒗𝒊𝒆 : on observe seulement les cas qui ont “survécu”,
pas les échecs.
Exemple : étudier uniquement les startups qui ont réussi.
𝑩𝒊𝒂𝒊𝒔 𝒅𝒆 𝒏𝒐𝒏-𝒓𝒆́𝒑𝒐𝒏𝒔𝒆 : les personnes qui ne répondent pas diffèrent de
celles qui répondent.
Exemple : les clients insatisfaits répondent moins aux enquêtes.
𝑬́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 𝒅𝒆 𝒄𝒐𝒎𝒎𝒐𝒅𝒊𝒕𝒆́ : on interroge uniquement les individus les plus
faciles à atteindre.
Exemple : sonder les gens à l’entrée d’un centre commercial.
𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒍𝒆 𝒅𝒆́𝒕𝒆𝒄𝒕𝒆𝒓 ?
Comparez le profil de votre échantillon avec les statistiques connues de la
population.
Si votre échantillon contient 80 %
d’hommes alors que la population en compte 50 %, c’est un signal d’alerte.
Il
faut aussi vérifier les performances d’un modèle selon les sous-groupes : de
grands écarts peuvent révéler un biais dans les données d’apprentissage.
𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒍𝒆 𝒄𝒐𝒓𝒓𝒊𝒈𝒆𝒓 ?
𝑬́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒏𝒂𝒈𝒆 𝒔𝒕𝒓𝒂𝒕𝒊𝒇𝒊𝒆́ : prélever des observations dans chaque sous-groupe
selon leur poids réel.
𝑷𝒐𝒏𝒅𝒆́𝒓𝒂𝒕𝒊𝒐𝒏 𝒑𝒂𝒓 𝒍’𝒊𝒏𝒗𝒆𝒓𝒔𝒆 𝒅𝒆 𝒍𝒂 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒅𝒆 𝒔𝒆́𝒍𝒆𝒄𝒕𝒊𝒐𝒏 (𝑰𝑷𝑾) : donner plus de poids aux groupes sous-représentés
et moins aux groupes surreprésentés.
𝑷𝒐𝒔𝒕-𝒔𝒕𝒓𝒂𝒕𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏 : réajuster les poids après la collecte pour
rapprocher l’échantillon de la structure réelle de la population.
𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓 :
Dès que vos données viennent d’une 𝒔𝒆𝒖𝒍𝒆 𝒑𝒍𝒂𝒕𝒆𝒇𝒐𝒓𝒎𝒆, d’un 𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 𝒅𝒆 𝒄𝒐𝒎𝒎𝒐𝒅𝒊𝒕𝒆́, de 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒇𝒊𝒍𝒕𝒓𝒆́𝒆𝒔 ou de réponses incomplètes, il faut 𝒔𝒖𝒑𝒑𝒐𝒔𝒆𝒓 𝒍’𝒆𝒙𝒊𝒔𝒕𝒆𝒏𝒄𝒆 𝒅’𝒖𝒏 𝒃𝒊𝒂𝒊𝒔 jusqu’à preuve du contraire.
________________________________________________________________________________
Si vous avez trouvé cette publication
utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕
à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓
avec vos amis et collègues !
Pour mieux apprendre l’utilisation des
logiciel et modèles statistiques, nous vous invitons à prendre part à la
prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://https://forms.gle/mopoGRWKwyTtbEJ16
________________________________________
#BiaisDEchantillonnage
#Statistique #AnalyseDeDonnees #EnqueteQuantitative #MethodologieQuantitative

Commentaires
Enregistrer un commentaire