📊 𝐌𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐦𝐞𝐧𝐭 𝐬𝐚𝐯𝐨𝐢𝐫 𝐬𝐢 𝐯𝐨𝐭𝐫𝐞 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐬𝐞 𝐭𝐫𝐨𝐦𝐩𝐞 ?

En 𝐦𝐚𝐜𝐡𝐢𝐧𝐞 𝐥𝐞𝐚𝐫𝐧𝐢𝐧𝐠, lorsqu’on évalue un modèle de classification, il ne suffit pas de regarder uniquement l’𝐚𝐜𝐜𝐮𝐫𝐚𝐜𝐲.

Pourquoi ?

Parce qu’un modèle peut afficher un bon taux global de bonnes prédictions, tout en faisant beaucoup d’erreurs sur la classe qui nous intéresse vraiment.

C’est là qu’intervient la 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧.

Elle permet de comparer les 𝐯𝐫𝐚𝐢𝐞𝐬 𝐯𝐚𝐥𝐞𝐮𝐫𝐬 aux 𝐩𝐫𝐞́𝐝𝐢𝐜𝐭𝐢𝐨𝐧𝐬 𝐝𝐮 𝐦𝐨𝐝𝐞̀𝐥𝐞.

Autrement dit, elle montre clairement où le modèle réussit et où il se trompe.

📌 𝐒𝐭𝐫𝐮𝐜𝐭𝐮𝐫𝐞 𝐝’𝐮𝐧𝐞 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧

Les lignes représentent généralement les 𝐯𝐚𝐥𝐞𝐮𝐫𝐬 𝐫𝐞́𝐞𝐥𝐥𝐞𝐬.
Les colonnes représentent les 𝐯𝐚𝐥𝐞𝐮𝐫𝐬 𝐩𝐫𝐞́𝐝𝐢𝐭𝐞𝐬.

On obtient quatre situations principales :

🔹 𝐕𝐫𝐚𝐢 𝐩𝐨𝐬𝐢𝐭𝐢𝐟 (TP)
Le modèle prédit positif, et le cas est réellement positif.

🔹 𝐅𝐚𝐮𝐱 𝐩𝐨𝐬𝐢𝐭𝐢𝐟 (FP)
Le modèle prédit positif, alors que le cas est réellement négatif.
👉 C’est une 𝐟𝐚𝐮𝐬𝐬𝐞 𝐚𝐥𝐞𝐫𝐭𝐞.

🔹 𝐅𝐚𝐮𝐱 𝐧𝐞́𝐠𝐚𝐭𝐢𝐟 (FN)
Le modèle prédit négatif, alors que le cas est réellement positif.
👉 C’est un 𝐜𝐚𝐬 𝐦𝐚𝐧𝐪𝐮𝐞́.

🔹 𝐕𝐫𝐚𝐢 𝐧𝐞́𝐠𝐚𝐭𝐢𝐟 (TN)
Le modèle prédit négatif, et le cas est réellement négatif.

📐 𝐋𝐞𝐬 𝐢𝐧𝐝𝐢𝐜𝐚𝐭𝐞𝐮𝐫𝐬 𝐪𝐮’𝐨𝐧 𝐩𝐞𝐮𝐭 𝐜𝐚𝐥𝐜𝐮𝐥𝐞𝐫

À partir de cette matrice, on peut calculer plusieurs métriques importantes :

𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 = (TP + TN) / (TP + TN + FP + FN)
Elle mesure la proportion globale de bonnes prédictions.

𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 = TP / (TP + FP)
Elle répond à la question : parmi les cas prédits positifs, combien sont réellement positifs ?

𝐑𝐚𝐩𝐩𝐞𝐥 = TP / (TP + FN)
Il répond à la question : parmi les vrais cas positifs, combien ont été détectés ?

𝐒𝐜𝐨𝐫𝐞 𝐅𝟏 = 𝟐 × (𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 × 𝐑𝐚𝐩𝐩𝐞𝐥) / (𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 + 𝐑𝐚𝐩𝐩𝐞𝐥)
Il équilibre la précision et le rappel.

🔍 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐥𝐢𝐫𝐞 𝐥𝐚 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 ?

Commencez par regarder la diagonale :
TP et TN représentent les bonnes prédictions.

Ensuite, observez les erreurs :
FP indique les fausses alertes.
FN indique les cas que le modèle n’a pas détectés.

Selon le contexte, certaines erreurs peuvent être plus graves que d’autres.

Par exemple, dans un problème de détection de fraude, on veut souvent éviter de manquer les cas frauduleux.
Dans un système de filtrage, on veut éviter de bloquer par erreur des éléments légitimes.

⚠️ 𝐏𝐨𝐮𝐫𝐪𝐮𝐨𝐢 𝐥’𝐚𝐜𝐜𝐮𝐫𝐚𝐜𝐲 𝐧𝐞 𝐬𝐮𝐟𝐟𝐢𝐭 𝐩𝐚𝐬 ?

L’accuracy donne un seul chiffre.
Mais ce chiffre peut cacher les erreurs importantes, surtout lorsque les classes sont 𝐝𝐞́𝐬𝐞́𝐪𝐮𝐢𝐥𝐢𝐛𝐫𝐞́𝐞𝐬.

La 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧, elle, montre la répartition exacte des bonnes et mauvaises prédictions.

Elle permet donc de mieux choisir entre 𝐩𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧, 𝐫𝐚𝐩𝐩𝐞𝐥, 𝐬𝐜𝐨𝐫𝐞 𝐅𝟏 ou 𝐚𝐜𝐜𝐮𝐫𝐚𝐜𝐲, selon le problème étudié.

✅ 𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫

La matrice de confusion est l’un des outils les plus importants pour évaluer un modèle de classification.

Elle permet de comprendre :

• ce que le modèle prédit correctement ;
• les fausses alertes ;
• les cas manqués ;
• les métriques les plus adaptées à l’objectif de l’étude.

Avant de conclure qu’un modèle est performant, regardez toujours sa 𝐦𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧.

📌 Pour mieux apprendre les statistiques, l’économétrie, le machine learning et l’analyse des données, rejoignez notre prochaine formation en 𝐄́𝐜𝐨𝐧𝐨𝐦𝐞́𝐭𝐫𝐢𝐞 𝐞𝐭 𝐓𝐞𝐜𝐡𝐧𝐢𝐪𝐮𝐞𝐬 𝐐𝐮𝐚𝐧𝐭𝐢𝐭𝐚𝐭𝐢𝐯𝐞𝐬 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #MatriceDeConfusion #DataScience #Statistiques #Classification #Precision #Recall #F1Score #AnalyseDeDonnees #Econometrie

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝐌𝐚𝐭𝐫𝐢𝐜𝐞 𝐝𝐞 𝐜𝐨𝐧𝐟𝐮𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐦𝐞𝐧𝐭 𝐬𝐚𝐯𝐨𝐢𝐫 𝐬𝐢 𝐯𝐨𝐭𝐫𝐞 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐬𝐞 𝐭𝐫𝐨𝐦𝐩𝐞 ?

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...