📊 𝐁𝐢𝐚𝐢𝐬 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 : 𝐪𝐮𝐚𝐧𝐝 𝐯𝐨𝐬 𝐝𝐨𝐧𝐧𝐞́𝐞𝐬 𝐧𝐞 𝐫𝐞𝐩𝐫𝐞́𝐬𝐞𝐧𝐭𝐞𝐧𝐭 𝐩𝐚𝐬 𝐥𝐚 𝐫𝐞́𝐚𝐥𝐢𝐭𝐞

́En statistique, en économétrie et en A/B testing, l’une des erreurs les plus dangereuses est le 𝐛𝐢𝐚𝐢𝐬 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧.

Il apparaît lorsque l’échantillon utilisé dans l’analyse est 𝐬𝐲𝐬𝐭𝐞́𝐦𝐚𝐭𝐢𝐪𝐮𝐞𝐦𝐞𝐧𝐭 𝐝𝐢𝐟𝐟𝐞́𝐫𝐞𝐧𝐭 de la population que l’on veut réellement étudier.

Autrement dit, les données observées ne reflètent pas correctement la réalité.

Même avec un très bon modèle, les résultats peuvent devenir trompeurs si l’échantillon est biaisé.

🔹 𝐄𝐱𝐞𝐦𝐩𝐥𝐞 𝐬𝐢𝐦𝐩𝐥𝐞

Supposons que vous lanciez une enquête de satisfaction auprès des utilisateurs d’une application.

Si seuls les utilisateurs les plus satisfaits répondent au questionnaire, la satisfaction moyenne mesurée sera probablement plus élevée que la satisfaction réelle de toute la population.

Dans ce cas, le problème ne vient pas forcément du calcul statistique, mais du fait que 𝐥𝐞𝐬 𝐫𝐞́𝐩𝐨𝐧𝐝𝐚𝐧𝐭𝐬 𝐧𝐞 𝐫𝐞𝐩𝐫𝐞́𝐬𝐞𝐧𝐭𝐞𝐧𝐭 𝐩𝐚𝐬 𝐭𝐨𝐮𝐬 𝐥𝐞𝐬 𝐮𝐭𝐢𝐥𝐢𝐬𝐚𝐭𝐞𝐮𝐫𝐬.

📐 𝐈𝐝𝐞́𝐞 𝐦𝐚𝐭𝐡𝐞́𝐦𝐚𝐭𝐢𝐪𝐮𝐞

On peut résumer le biais de sélection ainsi :

𝐁𝐢𝐚𝐢𝐬 = 𝐄[θ̂ₛ] − θ

ou encore :

𝐁𝐢𝐚𝐢𝐬 = 𝐄[θ | 𝐒 = 𝟏] − 𝐄[θ]

Avec :

• 𝐄[θ̂ₛ] : estimation obtenue à partir de l’échantillon sélectionné
• θ : vraie valeur dans la population
• 𝐒 = 𝟏 : individu sélectionné ou observé
• 𝐄[θ | 𝐒 = 𝟏] : moyenne attendue dans le groupe observé

Si les personnes sélectionnées sont différentes de la population totale, alors l’estimation devient biaisée.

🔹 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐥𝐞 𝐛𝐢𝐚𝐢𝐬 𝐚𝐩𝐩𝐚𝐫𝐚𝐢̂𝐭-𝐢𝐥 ?

Le biais de sélection peut apparaître lorsque :

① la participation à une enquête est volontaire ;
② certaines observations manquent de façon non aléatoire ;
③ on analyse seulement les personnes qui sont restées dans l’étude ;
④ l’échantillon dépend directement du résultat étudié ;
⑤ on observe uniquement les succès et non les échecs.

Exemple : analyser uniquement les clients qui n’ont pas quitté une plateforme peut conduire à surestimer la satisfaction ou la fidélité réelle.

🔍 𝐁𝐢𝐚𝐢𝐬 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 𝐯𝐬 𝐞𝐫𝐫𝐞𝐮𝐫 𝐝’𝐞́𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞

Il ne faut pas confondre les deux.

𝐋’𝐞𝐫𝐫𝐞𝐮𝐫 𝐝’𝐞́𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞 est une variation aléatoire liée au fait qu’on travaille sur un échantillon plutôt que sur toute la population.

Elle peut diminuer lorsque la taille de l’échantillon augmente.

Mais le 𝐛𝐢𝐚𝐢𝐬 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 est un problème systématique.

Même avec beaucoup de données, si l’échantillon reste non représentatif, on obtient simplement une conclusion fausse avec plus de confiance.

🧮 𝐐𝐮𝐞𝐥𝐪𝐮𝐞𝐬 𝐦𝐞́𝐭𝐡𝐨𝐝𝐞𝐬 𝐝𝐞 𝐜𝐨𝐫𝐫𝐞𝐜𝐭𝐢𝐨𝐧

Pour limiter ou corriger ce biais, on peut utiliser :

• 𝐥𝐚 𝐜𝐨𝐫𝐫𝐞𝐜𝐭𝐢𝐨𝐧 𝐝𝐞 𝐇𝐞𝐜𝐤𝐦𝐚𝐧, qui modélise d’abord le mécanisme de sélection ;
• 𝐥𝐚 𝐩𝐨𝐧𝐝𝐞́𝐫𝐚𝐭𝐢𝐨𝐧 𝐩𝐚𝐫 𝐥’𝐢𝐧𝐯𝐞𝐫𝐬𝐞 𝐝𝐞 𝐥𝐚 𝐩𝐫𝐨𝐛𝐚𝐛𝐢𝐥𝐢𝐭𝐞́ 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 ;
• 𝐥𝐞𝐬 𝐝𝐢𝐬𝐩𝐨𝐬𝐢𝐭𝐢𝐟𝐬 𝐫𝐚𝐧𝐝𝐨𝐦𝐢𝐬𝐞́𝐬, notamment dans les expériences et les A/B tests ;
• 𝐥’𝐚𝐧𝐚𝐥𝐲𝐬𝐞 𝐞𝐧 𝐢𝐧𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐝𝐞 𝐭𝐫𝐚𝐢𝐭𝐞𝐫, lorsque le protocole expérimental le permet.

✅ 𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫

Le biais de sélection survient lorsque les données observées ne représentent pas correctement la population cible.

Il peut fausser les résultats d’une enquête, d’un modèle économétrique, d’une étude marketing ou d’un A/B test.

Avant d’interpréter un résultat, posez-vous toujours cette question :

𝐋𝐞𝐬 𝐝𝐨𝐧𝐧𝐞́𝐞𝐬 𝐪𝐮𝐞 𝐣’𝐚𝐧𝐚𝐥𝐲𝐬𝐞 𝐫𝐞𝐩𝐫𝐞́𝐬𝐞𝐧𝐭𝐞𝐧𝐭-𝐞𝐥𝐥𝐞𝐬 𝐯𝐫𝐚𝐢𝐦𝐞𝐧𝐭 𝐥𝐚 𝐩𝐨𝐩𝐮𝐥𝐚𝐭𝐢𝐨𝐧 𝐪𝐮𝐞 𝐣𝐞 𝐯𝐞𝐮𝐱 𝐞́𝐭𝐮𝐝𝐢𝐞𝐫 ?

Si la réponse est non, vos conclusions peuvent être sérieusement biaisées.

📌 Pour mieux apprendre les statistiques, l’économétrie, les A/B tests et l’analyse des données, rejoignez notre prochaine formation en 𝐄́𝐜𝐨𝐧𝐨𝐦𝐞́𝐭𝐫𝐢𝐞 𝐞𝐭 𝐓𝐞𝐜𝐡𝐧𝐢𝐪𝐮𝐞𝐬 𝐐𝐮𝐚𝐧𝐭𝐢𝐭𝐚𝐭𝐢𝐯𝐞𝐬 https://forms.gle/yZAZimRXbTFbUWZk6

#BiaisDeSelection #Statistiques #ABTesting #Econometrie #AnalyseDeDonnees

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝐁𝐢𝐚𝐢𝐬 𝐝𝐞 𝐬𝐞́𝐥𝐞𝐜𝐭𝐢𝐨𝐧 : 𝐪𝐮𝐚𝐧𝐝 𝐯𝐨𝐬 𝐝𝐨𝐧𝐧𝐞́𝐞𝐬 𝐧𝐞 𝐫𝐞𝐩𝐫𝐞́𝐬𝐞𝐧𝐭𝐞𝐧𝐭 𝐩𝐚𝐬 𝐥𝐚 𝐫𝐞́𝐚𝐥𝐢𝐭𝐞

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...