𝐐𝐮’𝐞𝐬𝐭-𝐜𝐞 𝐪𝐮𝐞 𝐥𝐞 𝐁𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 𝐞𝐧 𝐌𝐋 ?
Le 𝐛𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 est une 𝐦𝐞́𝐭𝐡𝐨𝐝𝐞 𝐝𝐞 𝐫𝐞́𝐞́𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞 qui permet d’estimer la 𝐝𝐢𝐬𝐭𝐫𝐢𝐛𝐮𝐭𝐢𝐨𝐧 𝐝’é𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞 d’une statistique sans imposer d’hypothèses paramétriques fortes.
L’idée est
simple : on tire plusieurs échantillons avec remise à partir des données
observées, on calcule la statistique à chaque fois, puis on construit une distribution
empirique.
Cette approche permet d’estimer :
- 𝐥’𝐢𝐧𝐜𝐞𝐫𝐭𝐢𝐭𝐮𝐝𝐞
- les 𝐢𝐧𝐭𝐞𝐫𝐯𝐚𝐥𝐥𝐞𝐬 𝐝𝐞 𝐜𝐨𝐧𝐟𝐢𝐚𝐧𝐜𝐞
- les 𝐞𝐫𝐫𝐞𝐮𝐫𝐬 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝
surtout lorsque
les formules théoriques sont difficiles, voire impossibles à utiliser.
𝐏𝐚𝐬 𝐛𝐞𝐬𝐨𝐢𝐧 𝐝𝐞
𝐟𝐨𝐫𝐦𝐮𝐥𝐞 𝐜𝐨𝐦𝐩𝐥𝐞𝐱𝐞 :
il suffit de rééchantillonner et de recalculer.
📐 𝐋𝐚 𝐩𝐫𝐨𝐜𝐞́𝐝𝐮𝐫𝐞 :
θ̂*ᵇ = s(X*ᵇ), b = 1, ..., B
𝐎𝐮̀ :
X*ᵇ → échantillon bootstrap (de même
taille que l’échantillon initial, tiré avec remise)
θ̂*ᵇ → statistique calculée sur le
rééchantillon b
B → nombre de rééchantillonnages bootstrap (souvent entre 1 000 et 10
000)
s(·) → fonction statistique (moyenne, médiane, quantile, etc.)
⚡ 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐜̧𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧𝐞 ?
① Partir de l’échantillon initial de taille n
② Tirer n observations avec remise
③ Calculer la statistique sur cet échantillon bootstrap
④ Répéter l’opération B fois
⑤ Utiliser la distribution des B statistiques pour
mesurer l’incertitude
L’écart-type
des statistiques bootstrap donne une estimation de l’erreur standard.
Les quantiles α/2 et 1−α/2 permettent de construire des intervalles de confiance.
🧐 𝐄𝐧 𝐪𝐮𝐨𝐢 𝐜𝐞𝐥𝐚 𝐝𝐢𝐟𝐟𝐞̀𝐫𝐞-𝐭-𝐢𝐥 𝐝𝐞𝐬 𝐦𝐞́𝐭𝐡𝐨𝐝𝐞𝐬 𝐩𝐚𝐫𝐚𝐦𝐞́𝐭𝐫𝐢𝐪𝐮𝐞𝐬 ?
Les méthodes
paramétriques supposent une loi de distribution (par exemple la loi
normale), dérivent les résultats de manière analytique et demandent souvent des
hypothèses mathématiques assez strictes.
Le bootstrapping,
au contraire, ne repose pas sur une forme de distribution imposée.
Il peut être utilisé pour presque n’importe quelle statistique et estime
l’incertitude par simulation.
On peut ainsi bootstrapper :
- une médiane
- un 90e percentile
- ou toute fonction
complexe pour laquelle la théorie classique devient difficile à
appliquer.
✍️ 𝐐𝐮𝐚𝐧𝐝 𝐮𝐭𝐢𝐥𝐢𝐬𝐞𝐫 𝐥𝐞 𝐁𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 ?
Utilisez-le lorsque :
- vous avez
besoin d’intervalles de confiance pour des statistiques non
standards ;
- votre échantillon est représentatif ;
- vous
souhaitez une mesure de l’incertitude sans dépendre d’une hypothèse de
distribution.
𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫 :
Le bootstrapping est un outil extrêmement utile en machine learning,
en statistique appliquée et en science des données, car il permet
d’évaluer la fiabilité d’un résultat de façon simple, flexible et puissante.
Si vous avez trouvé cette
publication utile, n'hésitez pas à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 𝒆𝒕 à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 avec vos amis et collègues !
Pour mieux apprendre
l’utilisation des logiciel et modèles statistiques, nous vous invitons à
prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 (https://forms.gle/yZAZimRXbTFbUWZk6)
#𝐁𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 #𝐌𝐚𝐜𝐡𝐢𝐧𝐞𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 #𝐒𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞𝐬 #𝐃𝐚𝐭𝐚𝐒𝐜𝐢𝐞𝐧𝐜𝐞 #𝐀𝐧𝐚𝐥𝐲𝐬𝐞𝐃𝐞𝐃𝐨𝐧𝐧𝐞́𝐞𝐬

Commentaires
Enregistrer un commentaire