📊 𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧, 𝐑𝐚𝐩𝐩𝐞𝐥 𝐞𝐭 𝐒𝐜𝐨𝐫𝐞 𝐅𝟏 : 𝐜𝐨𝐦𝐦𝐞𝐧𝐭 𝐞́𝐯𝐚𝐥𝐮𝐞𝐫 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐝𝐞 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧 ?

En machine learning, il ne suffit pas toujours de regarder le 𝐭𝐚𝐮𝐱 𝐝𝐞 𝐛𝐨𝐧𝐧𝐞𝐬 𝐩𝐫𝐞́𝐝𝐢𝐜𝐭𝐢𝐨𝐧𝐬, souvent appelé 𝐚𝐜𝐜𝐮𝐫𝐚𝐜𝐲.

Pourquoi ?

Parce que l’accuracy peut devenir trompeuse lorsque les classes sont 𝐝𝐞́𝐬𝐞́𝐪𝐮𝐢𝐥𝐢𝐛𝐫𝐞́𝐞𝐬.

Imaginons un modèle qui doit détecter les emails spam.
Si 95 % des emails ne sont pas des spams, un modèle qui prédit toujours “non spam” aura 95 % d’accuracy, mais il ne détectera aucun spam.

C’est pour cela qu’on utilise souvent trois indicateurs essentiels :

𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧, 𝐑𝐚𝐩𝐩𝐞𝐥 𝐞𝐭 𝐒𝐜𝐨𝐫𝐞 𝐅𝟏.

📐 𝐋𝐞𝐬 𝐟𝐨𝐫𝐦𝐮𝐥𝐞𝐬 𝐚̀ 𝐜𝐨𝐧𝐧𝐚𝐢̂𝐭𝐫𝐞

𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 = 𝐓𝐏 / (𝐓𝐏 + 𝐅𝐏)

𝐑𝐚𝐩𝐩𝐞𝐥 = 𝐓𝐏 / (𝐓𝐏 + 𝐅𝐍)

𝐒𝐜𝐨𝐫𝐞 𝐅𝟏 = 𝟐 × (𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 × 𝐑𝐚𝐩𝐩𝐞𝐥) / (𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 + 𝐑𝐚𝐩𝐩𝐞𝐥)

Avec :

• 𝐓𝐏 : vrais positifs
• 𝐅𝐏 : faux positifs
• 𝐅𝐍 : faux négatifs
• 𝐓𝐍 : vrais négatifs

🔹 𝐋𝐚 𝐩𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧, 𝐜’𝐞𝐬𝐭 𝐪𝐮𝐨𝐢 ?

La précision répond à la question :

👉 Parmi tous les cas prédits positifs par le modèle, combien sont réellement positifs ?

Une forte précision signifie que le modèle fait peu de 𝐟𝐚𝐮𝐬𝐬𝐞𝐬 𝐚𝐥𝐞𝐫𝐭𝐞𝐬.

Elle est importante lorsque les 𝐟𝐚𝐮𝐱 𝐩𝐨𝐬𝐢𝐭𝐢𝐟𝐬 coûtent cher.

Exemple : un filtre anti-spam qui bloque par erreur des emails importants.

🔹 𝐋𝐞 𝐫𝐚𝐩𝐩𝐞𝐥, 𝐜’𝐞𝐬𝐭 𝐪𝐮𝐨𝐢 ?

Le rappel répond à la question :

👉 Parmi tous les vrais cas positifs, combien le modèle a-t-il réussi à détecter ?

Un rappel élevé signifie que le modèle laisse passer peu de 𝐟𝐚𝐮𝐱 𝐧𝐞́𝐠𝐚𝐭𝐢𝐟𝐬.

Il est important lorsque manquer un cas positif peut avoir de fortes conséquences.

Exemple : un système de dépistage médical qui ne doit pas rater les cas à risque.

🔹 𝐋𝐞 𝐬𝐜𝐨𝐫𝐞 𝐅𝟏, 𝐜’𝐞𝐬𝐭 𝐪𝐮𝐨𝐢 ?

Le score F1 combine la précision et le rappel dans une seule mesure.

Il est particulièrement utile lorsque l’on veut trouver un 𝐞́𝐪𝐮𝐢𝐥𝐢𝐛𝐫𝐞 entre les fausses alertes et les cas manqués.

Le score F1 utilise une moyenne harmonique.
Cela signifie que si la précision ou le rappel est très faible, le score F1 sera aussi faible.

🎯 𝐋𝐞 𝐜𝐨𝐦𝐩𝐫𝐨𝐦𝐢𝐬 𝐚̀ 𝐜𝐨𝐦𝐩𝐫𝐞𝐧𝐝𝐫𝐞

On ne peut pas toujours maximiser la précision et le rappel en même temps.

Si on baisse le seuil de classification, le modèle détecte plus de cas positifs.
Le rappel augmente, mais la précision peut diminuer.

Si on augmente le seuil, le modèle devient plus strict.
La précision peut augmenter, mais le rappel peut baisser.

C’est pourquoi il faut choisir le seuil en fonction du 𝐜𝐨𝐮̂𝐭 𝐝𝐞𝐬 𝐞𝐫𝐫𝐞𝐮𝐫𝐬.

✅ 𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫

L’𝐚𝐜𝐜𝐮𝐫𝐚𝐜𝐲 donne une vue globale, mais elle peut être trompeuse.

La 𝐩𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧 mesure la qualité des prédictions positives.

Le 𝐫𝐚𝐩𝐩𝐞𝐥 mesure la capacité du modèle à retrouver les vrais positifs.

Le 𝐬𝐜𝐨𝐫𝐞 𝐅𝟏 équilibre précision et rappel.

Ces indicateurs sont indispensables lorsque les classes sont déséquilibrées ou lorsque les erreurs n’ont pas le même coût.

📌 Pour mieux apprendre les statistiques, l’économétrie, le machine learning et l’analyse des données, rejoignez notre prochaine formation en 𝐄́𝐜𝐨𝐧𝐨𝐦𝐞́𝐭𝐫𝐢𝐞 𝐞𝐭 𝐓𝐞𝐜𝐡𝐧𝐢𝐪𝐮𝐞𝐬 𝐐𝐮𝐚𝐧𝐭𝐢𝐭𝐚𝐭𝐢𝐯𝐞𝐬 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #DataScience #Statistiques #Precision #Recall #F1Score #Classification #AnalyseDeDonnees #Econometrie #IntelligenceArtificielle

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝐏𝐫𝐞́𝐜𝐢𝐬𝐢𝐨𝐧, 𝐑𝐚𝐩𝐩𝐞𝐥 𝐞𝐭 𝐒𝐜𝐨𝐫𝐞 𝐅𝟏 : 𝐜𝐨𝐦𝐦𝐞𝐧𝐭 𝐞́𝐯𝐚𝐥𝐮𝐞𝐫 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐝𝐞 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧 ?

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...