𝓒𝓸𝓶𝓹𝓻𝓮𝓷𝓭𝓻𝓮 𝓵𝓪 𝓡é𝓰𝓻𝓮𝓼𝓼𝓲𝓸𝓷 𝓛𝓸𝓰𝓲𝓼𝓽𝓲𝓺𝓾𝓮 𝓑𝓪𝔂é𝓼𝓲𝓮𝓷𝓷𝓮 : 𝓘𝓷𝓽𝓮𝓻𝓹𝓻é𝓽𝓪𝓽𝓲𝓸𝓷 𝓮𝓽 𝓥𝓲𝓼𝓾𝓪𝓵𝓲𝓼𝓪𝓽𝓲𝓸𝓷 𝓭𝓮𝓼 𝓡é𝓼𝓾𝓵𝓽𝓪𝓽𝓼

La régression 𝕝𝕠𝕘𝕚𝕤𝕥𝕚𝕢𝕦𝕖 𝕓𝕒𝕪é𝕤𝕚𝕖𝕟𝕟𝕖 est une méthode 𝕡𝕦𝔽𝕚𝕤𝕤𝕒𝕟𝕥𝕖 pour prédire des résultats binaires (comme des décisions 𝕠𝕦𝕚/𝕟𝕠𝕟). Contrairement à la régression logistique traditionnelle, elle intègre des connaissances préalables (priors) et quantifie l'incertitude grâce aux distributions a posteriori. Ainsi, elle est particulièrement adaptée aux situations où l'on souhaite explicitement tenir compte de l'incertitude ou inclure des connaissances antérieures.

𝙐𝙣 𝙡𝙞𝙠𝙚 𝙚𝙩 𝙪𝙣 𝙋𝙖𝙧𝙩𝙖𝙜𝙚 de ce post avant d'aller plus loin nous fera plaisir.

Voici une explication des quatre graphiques clés permettant de mieux comprendre un modèle de régression logistique bayésienne :

✔️ 𝕲𝖗𝖆𝖕𝖍𝖎𝖖𝖚𝖊 𝖉𝖊 𝖑𝖆 𝖉𝖎𝖘𝖙𝖗𝖎𝖇𝖚𝖙𝖎𝖔𝖓 𝖆 𝖕𝖔𝖘𝖙𝖊𝖗𝖎𝖔𝖗𝖎 : Ce graphique présente les distributions a posteriori des coefficients pour les prédicteurs (predictor1 et predictor2). La zone ombrée représente les valeurs probables (intervalles de crédibilité), tandis que la ligne verticale indique l'estimation médiane de chaque coefficient. Contrairement aux approches fréquentistes fournissant des estimations ponctuelles, la régression logistique bayésienne offre une distribution complète des valeurs possibles, permettant une meilleure compréhension de l'incertitude associée aux paramètres du modèle.

✔️ 𝕲𝖗𝖆𝖕𝖍𝖎𝖖𝖚𝖊 𝖉𝖊 𝖙𝖗𝖆𝖈𝖊 : Ce graphique illustre le processus d'échantillonnage MCMC (Monte Carlo par Chaînes de Markov) sur 4000 itérations pour predictor1 et predictor2. Idéalement, les traces doivent apparaître aléatoires (« floues ») et bien mélangées, couvrant l’ensemble de l’espace des paramètres sans se bloquer. Cela indique que les chaînes ont convergé et que les estimations des paramètres du modèle sont fiables. Une chaîne mal mélangée (une ligne droite ou bloquée) signale des problèmes de convergence.

✔️ 𝖁é𝖗𝖎𝖋𝖎𝖈𝖆𝖙𝖎𝖔𝖓 𝖕𝖗é𝖉𝖎𝖈𝖙𝖎𝖛𝖊 𝖆 𝖕𝖔𝖘𝖙𝖊𝖗𝖎𝖔𝖗𝖎 : Ce graphique permet d’évaluer les performances prédictives du modèle en comparant les résultats prédits (y_rep, en bleu clair) avec les données observées (y, en bleu foncé). Plus les valeurs prédites s'alignent avec les données observées, mieux le modèle capte la structure sous-jacente. Ici, l'alignement entre les valeurs prédites et observées est bon, indiquant une bonne adéquation du modèle. Cette vérification est essentielle pour s'assurer que le modèle produit des prédictions réalistes.

✔️ 𝕲𝖗𝖆𝖕𝖍𝖎𝖖𝖚𝖊 𝖉𝖊𝖘 𝖎𝖓𝖙𝖊𝖗𝖛𝖆𝖑𝖑𝖊𝖘 𝖆 𝖕𝖔𝖘𝖙𝖊𝖗𝖎𝖔𝖗𝖎 :Ce graphique visualise les intervalles de crédibilité des coefficients du modèle, incluant l'intercept. Plus l'intervalle est large, plus grande est l'incertitude autour de l'estimation du coefficient. Les intervalles de crédibilité à 50 % (intérieur) et 95 % (extérieur) sont présentés, indiquant les plages de valeurs probables pour chaque coefficient. Si un intervalle inclut zéro, cela signifie que le prédicteur pourrait ne pas avoir un effet significatif sur la variable cible.

Cet ensemble de graphiques offre une compréhension complète du modèle bayésien, montrant la qualité d’ajustement aux données et quantifiant l'incertitude autour des estimations. La régression logistique bayésienne procure une interprétation plus riche que les méthodes traditionnelles en quantifiant l'incertitude et en intégrant des connaissances antérieures à l’analyse.

𝓙𝓸𝓪𝓬𝓱𝓲𝓶 𝓢𝓬𝓱𝓸𝓻𝓴

Vous souhaitez en savoir plus sur les Statistiques, la Science des Données, SPSS, STATA, R et Python ? Pour mieux apprendre l’utilisation des logiciel et modèles statistiques , nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨



#analytics #dataviz

 

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique