๐ ๐๐ข๐๐ข๐ฌ ๐๐ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง : ๐ช๐ฎ๐๐ง๐ ๐ฏ๐จ๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ ๐ง๐ ๐ซ๐๐ฉ๐ซ๐́๐ฌ๐๐ง๐ญ๐๐ง๐ญ ๐ฉ๐๐ฌ ๐ฅ๐ ๐ซ๐́๐๐ฅ๐ข๐ญ๐
́En statistique, en รฉconomรฉtrie et en A/B testing, l’une des erreurs les plus dangereuses est le ๐๐ข๐๐ข๐ฌ ๐๐ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง.
Il apparaรฎt lorsque l’รฉchantillon
utilisรฉ dans l’analyse est ๐ฌ๐ฒ๐ฌ๐ญ๐́๐ฆ๐๐ญ๐ข๐ช๐ฎ๐๐ฆ๐๐ง๐ญ ๐๐ข๐๐๐́๐ซ๐๐ง๐ญ de la population que l’on veut rรฉellement
รฉtudier.
Autrement dit, les donnรฉes
observรฉes ne reflรจtent pas correctement la rรฉalitรฉ.
Mรชme avec un trรจs bon modรจle, les
rรฉsultats peuvent devenir trompeurs si l’รฉchantillon est biaisรฉ.
๐น ๐๐ฑ๐๐ฆ๐ฉ๐ฅ๐ ๐ฌ๐ข๐ฆ๐ฉ๐ฅ๐
Supposons que vous lanciez une
enquรชte de satisfaction auprรจs des utilisateurs d’une application.
Si seuls les utilisateurs les
plus satisfaits rรฉpondent au questionnaire, la satisfaction moyenne mesurรฉe
sera probablement plus รฉlevรฉe que la satisfaction rรฉelle de toute la
population.
Dans ce cas, le problรจme ne vient
pas forcรฉment du calcul statistique, mais du fait que ๐ฅ๐๐ฌ ๐ซ๐́๐ฉ๐จ๐ง๐๐๐ง๐ญ๐ฌ ๐ง๐ ๐ซ๐๐ฉ๐ซ๐́๐ฌ๐๐ง๐ญ๐๐ง๐ญ ๐ฉ๐๐ฌ ๐ญ๐จ๐ฎ๐ฌ ๐ฅ๐๐ฌ ๐ฎ๐ญ๐ข๐ฅ๐ข๐ฌ๐๐ญ๐๐ฎ๐ซ๐ฌ.
๐ ๐๐๐́๐ ๐ฆ๐๐ญ๐ก๐́๐ฆ๐๐ญ๐ข๐ช๐ฎ๐
On peut rรฉsumer le biais de
sรฉlection ainsi :
๐๐ข๐๐ข๐ฌ = ๐[ฮธ̂โ] − ฮธ
ou encore :
๐๐ข๐๐ข๐ฌ = ๐[ฮธ | ๐ = ๐] − ๐[ฮธ]
Avec :
• ๐[ฮธ̂โ] : estimation obtenue ร partir de l’รฉchantillon sรฉlectionnรฉ
• ฮธ : vraie valeur dans la
population
• ๐ = ๐ : individu sรฉlectionnรฉ ou observรฉ
• ๐[ฮธ | ๐ = ๐] : moyenne attendue dans le groupe observรฉ
Si les personnes sรฉlectionnรฉes
sont diffรฉrentes de la population totale, alors l’estimation devient biaisรฉe.
๐น ๐๐จ๐ฆ๐ฆ๐๐ง๐ญ ๐ฅ๐ ๐๐ข๐๐ข๐ฌ ๐๐ฉ๐ฉ๐๐ซ๐๐ข̂๐ญ-๐ข๐ฅ ?
Le biais de sรฉlection peut
apparaรฎtre lorsque :
① la participation ร une enquรชte est volontaire ;
② certaines observations manquent de faรงon non alรฉatoire ;
③ on analyse seulement les personnes qui sont restรฉes dans l’รฉtude ;
④ l’รฉchantillon dรฉpend directement du rรฉsultat รฉtudiรฉ ;
⑤ on observe uniquement les succรจs et non les รฉchecs.
Exemple : analyser uniquement les
clients qui n’ont pas quittรฉ une plateforme peut conduire ร surestimer la
satisfaction ou la fidรฉlitรฉ rรฉelle.
๐ ๐๐ข๐๐ข๐ฌ ๐๐ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง ๐ฏ๐ฌ ๐๐ซ๐ซ๐๐ฎ๐ซ ๐’๐́๐๐ก๐๐ง๐ญ๐ข๐ฅ๐ฅ๐จ๐ง๐ง๐๐ ๐
Il ne faut pas confondre les
deux.
๐’๐๐ซ๐ซ๐๐ฎ๐ซ ๐’๐́๐๐ก๐๐ง๐ญ๐ข๐ฅ๐ฅ๐จ๐ง๐ง๐๐ ๐ est une variation alรฉatoire liรฉe au fait
qu’on travaille sur un รฉchantillon plutรดt que sur toute la population.
Elle peut diminuer lorsque la
taille de l’รฉchantillon augmente.
Mais le ๐๐ข๐๐ข๐ฌ ๐๐ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง est un problรจme systรฉmatique.
Mรชme avec beaucoup de donnรฉes, si
l’รฉchantillon reste non reprรฉsentatif, on obtient simplement une conclusion
fausse avec plus de confiance.
๐งฎ ๐๐ฎ๐๐ฅ๐ช๐ฎ๐๐ฌ ๐ฆ๐́๐ญ๐ก๐จ๐๐๐ฌ ๐๐ ๐๐จ๐ซ๐ซ๐๐๐ญ๐ข๐จ๐ง
Pour limiter ou corriger ce
biais, on peut utiliser :
• ๐ฅ๐ ๐๐จ๐ซ๐ซ๐๐๐ญ๐ข๐จ๐ง ๐๐ ๐๐๐๐ค๐ฆ๐๐ง, qui modรฉlise d’abord le mรฉcanisme de
sรฉlection ;
• ๐ฅ๐ ๐ฉ๐จ๐ง๐๐́๐ซ๐๐ญ๐ข๐จ๐ง ๐ฉ๐๐ซ ๐ฅ’๐ข๐ง๐ฏ๐๐ซ๐ฌ๐ ๐๐ ๐ฅ๐ ๐ฉ๐ซ๐จ๐๐๐๐ข๐ฅ๐ข๐ญ๐́ ๐๐ ๐ฌ๐́๐ฅ๐๐๐ญ๐ข๐จ๐ง ;
• ๐ฅ๐๐ฌ ๐๐ข๐ฌ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐๐ฌ ๐ซ๐๐ง๐๐จ๐ฆ๐ข๐ฌ๐́๐ฌ, notamment dans les expรฉriences et les A/B tests
;
• ๐ฅ’๐๐ง๐๐ฅ๐ฒ๐ฌ๐ ๐๐ง ๐ข๐ง๐ญ๐๐ง๐ญ๐ข๐จ๐ง ๐๐ ๐ญ๐ซ๐๐ข๐ญ๐๐ซ, lorsque le protocole expรฉrimental le
permet.
✅ ๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ
Le biais de sรฉlection survient
lorsque les donnรฉes observรฉes ne reprรฉsentent pas correctement la population
cible.
Il peut fausser les rรฉsultats
d’une enquรชte, d’un modรจle รฉconomรฉtrique, d’une รฉtude marketing ou d’un A/B
test.
Avant d’interprรฉter un rรฉsultat,
posez-vous toujours cette question :
๐๐๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ ๐ช๐ฎ๐ ๐ฃ’๐๐ง๐๐ฅ๐ฒ๐ฌ๐ ๐ซ๐๐ฉ๐ซ๐́๐ฌ๐๐ง๐ญ๐๐ง๐ญ-๐๐ฅ๐ฅ๐๐ฌ ๐ฏ๐ซ๐๐ข๐ฆ๐๐ง๐ญ ๐ฅ๐ ๐ฉ๐จ๐ฉ๐ฎ๐ฅ๐๐ญ๐ข๐จ๐ง ๐ช๐ฎ๐ ๐ฃ๐ ๐ฏ๐๐ฎ๐ฑ ๐́๐ญ๐ฎ๐๐ข๐๐ซ ?
Si la rรฉponse est non, vos
conclusions peuvent รชtre sรฉrieusement biaisรฉes.
๐
Pour mieux apprendre les statistiques, l’รฉconomรฉtrie, les A/B tests et
l’analyse des donnรฉes, rejoignez notre prochaine formation en ๐́๐๐จ๐ง๐จ๐ฆ๐́๐ญ๐ซ๐ข๐ ๐๐ญ ๐๐๐๐ก๐ง๐ข๐ช๐ฎ๐๐ฌ ๐๐ฎ๐๐ง๐ญ๐ข๐ญ๐๐ญ๐ข๐ฏ๐๐ฌ https://forms.gle/yZAZimRXbTFbUWZk6
#BiaisDeSelection #Statistiques #ABTesting #Econometrie
#AnalyseDeDonnees

Commentaires
Enregistrer un commentaire