๐Ÿ“Š ๐๐ข๐š๐ข๐ฌ ๐๐ž ๐ฌ๐ž́๐ฅ๐ž๐œ๐ญ๐ข๐จ๐ง : ๐ช๐ฎ๐š๐ง๐ ๐ฏ๐จ๐ฌ ๐๐จ๐ง๐ง๐ž́๐ž๐ฌ ๐ง๐ž ๐ซ๐ž๐ฉ๐ซ๐ž́๐ฌ๐ž๐ง๐ญ๐ž๐ง๐ญ ๐ฉ๐š๐ฌ ๐ฅ๐š ๐ซ๐ž́๐š๐ฅ๐ข๐ญ๐ž

́En statistique, en รฉconomรฉtrie et en A/B testing, l’une des erreurs les plus dangereuses est le ๐›๐ข๐š๐ข๐ฌ ๐๐ž ๐ฌ๐ž́๐ฅ๐ž๐œ๐ญ๐ข๐จ๐ง.

Il apparaรฎt lorsque l’รฉchantillon utilisรฉ dans l’analyse est ๐ฌ๐ฒ๐ฌ๐ญ๐ž́๐ฆ๐š๐ญ๐ข๐ช๐ฎ๐ž๐ฆ๐ž๐ง๐ญ ๐๐ข๐Ÿ๐Ÿ๐ž́๐ซ๐ž๐ง๐ญ de la population que l’on veut rรฉellement รฉtudier.

Autrement dit, les donnรฉes observรฉes ne reflรจtent pas correctement la rรฉalitรฉ.

Mรชme avec un trรจs bon modรจle, les rรฉsultats peuvent devenir trompeurs si l’รฉchantillon est biaisรฉ.

๐Ÿ”น ๐„๐ฑ๐ž๐ฆ๐ฉ๐ฅ๐ž ๐ฌ๐ข๐ฆ๐ฉ๐ฅ๐ž

Supposons que vous lanciez une enquรชte de satisfaction auprรจs des utilisateurs d’une application.

Si seuls les utilisateurs les plus satisfaits rรฉpondent au questionnaire, la satisfaction moyenne mesurรฉe sera probablement plus รฉlevรฉe que la satisfaction rรฉelle de toute la population.

Dans ce cas, le problรจme ne vient pas forcรฉment du calcul statistique, mais du fait que ๐ฅ๐ž๐ฌ ๐ซ๐ž́๐ฉ๐จ๐ง๐๐š๐ง๐ญ๐ฌ ๐ง๐ž ๐ซ๐ž๐ฉ๐ซ๐ž́๐ฌ๐ž๐ง๐ญ๐ž๐ง๐ญ ๐ฉ๐š๐ฌ ๐ญ๐จ๐ฎ๐ฌ ๐ฅ๐ž๐ฌ ๐ฎ๐ญ๐ข๐ฅ๐ข๐ฌ๐š๐ญ๐ž๐ฎ๐ซ๐ฌ.

๐Ÿ“ ๐ˆ๐๐ž́๐ž ๐ฆ๐š๐ญ๐ก๐ž́๐ฆ๐š๐ญ๐ข๐ช๐ฎ๐ž

On peut rรฉsumer le biais de sรฉlection ainsi :

๐๐ข๐š๐ข๐ฌ = ๐„[ฮธ̂โ‚›] − ฮธ

ou encore :

๐๐ข๐š๐ข๐ฌ = ๐„[ฮธ | ๐’ = ๐Ÿ] − ๐„[ฮธ]

Avec :

๐„[ฮธ̂โ‚›] : estimation obtenue ร  partir de l’รฉchantillon sรฉlectionnรฉ
ฮธ : vraie valeur dans la population
๐’ = ๐Ÿ : individu sรฉlectionnรฉ ou observรฉ
๐„[ฮธ | ๐’ = ๐Ÿ] : moyenne attendue dans le groupe observรฉ

Si les personnes sรฉlectionnรฉes sont diffรฉrentes de la population totale, alors l’estimation devient biaisรฉe.

๐Ÿ”น ๐‚๐จ๐ฆ๐ฆ๐ž๐ง๐ญ ๐ฅ๐ž ๐›๐ข๐š๐ข๐ฌ ๐š๐ฉ๐ฉ๐š๐ซ๐š๐ข̂๐ญ-๐ข๐ฅ ?

Le biais de sรฉlection peut apparaรฎtre lorsque :

la participation ร  une enquรชte est volontaire ;
certaines observations manquent de faรงon non alรฉatoire ;
on analyse seulement les personnes qui sont restรฉes dans l’รฉtude ;
l’รฉchantillon dรฉpend directement du rรฉsultat รฉtudiรฉ ;
on observe uniquement les succรจs et non les รฉchecs.

Exemple : analyser uniquement les clients qui n’ont pas quittรฉ une plateforme peut conduire ร  surestimer la satisfaction ou la fidรฉlitรฉ rรฉelle.

๐Ÿ” ๐๐ข๐š๐ข๐ฌ ๐๐ž ๐ฌ๐ž́๐ฅ๐ž๐œ๐ญ๐ข๐จ๐ง ๐ฏ๐ฌ ๐ž๐ซ๐ซ๐ž๐ฎ๐ซ ๐๐ž́๐œ๐ก๐š๐ง๐ญ๐ข๐ฅ๐ฅ๐จ๐ง๐ง๐š๐ ๐ž

Il ne faut pas confondre les deux.

๐‹๐ž๐ซ๐ซ๐ž๐ฎ๐ซ ๐๐ž́๐œ๐ก๐š๐ง๐ญ๐ข๐ฅ๐ฅ๐จ๐ง๐ง๐š๐ ๐ž est une variation alรฉatoire liรฉe au fait qu’on travaille sur un รฉchantillon plutรดt que sur toute la population.

Elle peut diminuer lorsque la taille de l’รฉchantillon augmente.

Mais le ๐›๐ข๐š๐ข๐ฌ ๐๐ž ๐ฌ๐ž́๐ฅ๐ž๐œ๐ญ๐ข๐จ๐ง est un problรจme systรฉmatique.

Mรชme avec beaucoup de donnรฉes, si l’รฉchantillon reste non reprรฉsentatif, on obtient simplement une conclusion fausse avec plus de confiance.

๐Ÿงฎ ๐๐ฎ๐ž๐ฅ๐ช๐ฎ๐ž๐ฌ ๐ฆ๐ž́๐ญ๐ก๐จ๐๐ž๐ฌ ๐๐ž ๐œ๐จ๐ซ๐ซ๐ž๐œ๐ญ๐ข๐จ๐ง

Pour limiter ou corriger ce biais, on peut utiliser :

๐ฅ๐š ๐œ๐จ๐ซ๐ซ๐ž๐œ๐ญ๐ข๐จ๐ง ๐๐ž ๐‡๐ž๐œ๐ค๐ฆ๐š๐ง, qui modรฉlise d’abord le mรฉcanisme de sรฉlection ;
๐ฅ๐š ๐ฉ๐จ๐ง๐๐ž́๐ซ๐š๐ญ๐ข๐จ๐ง ๐ฉ๐š๐ซ ๐ฅ๐ข๐ง๐ฏ๐ž๐ซ๐ฌ๐ž ๐๐ž ๐ฅ๐š ๐ฉ๐ซ๐จ๐›๐š๐›๐ข๐ฅ๐ข๐ญ๐ž́ ๐๐ž ๐ฌ๐ž́๐ฅ๐ž๐œ๐ญ๐ข๐จ๐ง ;
๐ฅ๐ž๐ฌ ๐๐ข๐ฌ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐Ÿ๐ฌ ๐ซ๐š๐ง๐๐จ๐ฆ๐ข๐ฌ๐ž́๐ฌ, notamment dans les expรฉriences et les A/B tests ;
๐ฅ๐š๐ง๐š๐ฅ๐ฒ๐ฌ๐ž ๐ž๐ง ๐ข๐ง๐ญ๐ž๐ง๐ญ๐ข๐จ๐ง ๐๐ž ๐ญ๐ซ๐š๐ข๐ญ๐ž๐ซ, lorsque le protocole expรฉrimental le permet.

๐€̀ ๐ซ๐ž๐ญ๐ž๐ง๐ข๐ซ

Le biais de sรฉlection survient lorsque les donnรฉes observรฉes ne reprรฉsentent pas correctement la population cible.

Il peut fausser les rรฉsultats d’une enquรชte, d’un modรจle รฉconomรฉtrique, d’une รฉtude marketing ou d’un A/B test.

Avant d’interprรฉter un rรฉsultat, posez-vous toujours cette question :

๐‹๐ž๐ฌ ๐๐จ๐ง๐ง๐ž́๐ž๐ฌ ๐ช๐ฎ๐ž ๐ฃ๐š๐ง๐š๐ฅ๐ฒ๐ฌ๐ž ๐ซ๐ž๐ฉ๐ซ๐ž́๐ฌ๐ž๐ง๐ญ๐ž๐ง๐ญ-๐ž๐ฅ๐ฅ๐ž๐ฌ ๐ฏ๐ซ๐š๐ข๐ฆ๐ž๐ง๐ญ ๐ฅ๐š ๐ฉ๐จ๐ฉ๐ฎ๐ฅ๐š๐ญ๐ข๐จ๐ง ๐ช๐ฎ๐ž ๐ฃ๐ž ๐ฏ๐ž๐ฎ๐ฑ ๐ž́๐ญ๐ฎ๐๐ข๐ž๐ซ ?

Si la rรฉponse est non, vos conclusions peuvent รชtre sรฉrieusement biaisรฉes.

๐Ÿ“Œ Pour mieux apprendre les statistiques, l’รฉconomรฉtrie, les A/B tests et l’analyse des donnรฉes, rejoignez notre prochaine formation en ๐„́๐œ๐จ๐ง๐จ๐ฆ๐ž́๐ญ๐ซ๐ข๐ž ๐ž๐ญ ๐“๐ž๐œ๐ก๐ง๐ข๐ช๐ฎ๐ž๐ฌ ๐๐ฎ๐š๐ง๐ญ๐ข๐ญ๐š๐ญ๐ข๐ฏ๐ž๐ฌ https://forms.gle/yZAZimRXbTFbUWZk6



 #BiaisDeSelection #Statistiques #ABTesting #Econometrie #AnalyseDeDonnees

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique