📊 𝑪𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏 𝒅𝒆́𝒔𝒆́𝒒𝒖𝒊𝒍𝒊𝒃𝒓𝒆́𝒆 : 𝒑𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒍’𝒂𝒄𝒄𝒖𝒓𝒂𝒄𝒚 𝒏𝒆 𝒔𝒖𝒇𝒇𝒊𝒕 𝒑𝒂𝒔 ?

En Machine Learning, tous les modèles de classification ne doivent pas être jugés uniquement avec le taux de bonne classification.

Quand les données sont déséquilibrées, un modèle peut sembler performant… alors qu’il se trompe sur la classe la plus importante.

👉 𝑪’𝒆𝒔𝒕 𝒍𝒆 𝒑𝒓𝒐𝒃𝒍𝒆̀𝒎𝒆 𝒄𝒍𝒂𝒔𝒔𝒊𝒒𝒖𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒅𝒆́𝒔𝒆́𝒒𝒖𝒊𝒍𝒊𝒃𝒓𝒆́𝒆𝒔.

Imaginons un jeu de données où 90 % des observations appartiennent à une seule classe.

Un modèle qui prédit toujours cette classe peut afficher 90 % d’accuracy…

Mais en réalité, il peut être incapable de détecter la classe minoritaire.

🔵 𝑳’𝒂𝒄𝒄𝒖𝒓𝒂𝒄𝒚

Elle mesure la proportion totale de prédictions correctes.

👉 Utile, mais parfois trompeuse en cas de classes déséquilibrées.

🔵 𝑳𝒂 𝒑𝒓𝒆́𝒄𝒊𝒔𝒊𝒐𝒏

Elle répond à la question :

parmi les cas prédits positifs, combien sont réellement positifs ?

C’est une mesure d’exactitude.

🔵 𝑳𝒆 𝒓𝒂𝒑𝒑𝒆𝒍 (𝑹𝒆𝒄𝒂𝒍𝒍)

Il répond à la question :

parmi les vrais positifs existants, combien ont été détectés ?

C’est une mesure de complétude.

🔵 𝑳𝒆 𝑭1-𝑺𝒄𝒐𝒓𝒆

Il combine précision et rappel.

👉 Très utile lorsque l’on cherche un bon équilibre entre les deux.

🔵 𝑳𝒂 𝒎𝒂𝒕𝒓𝒊𝒄𝒆 𝒅𝒆 𝒄𝒐𝒏𝒇𝒖𝒔𝒊𝒐𝒏

Elle permet de comprendre les prédictions à travers :

TP, TN, FP, FN.

C’est un outil essentiel pour interpréter réellement la performance du modèle.

📌 𝑷𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒄’𝒆𝒔𝒕 𝒊𝒎𝒑𝒐𝒓𝒕𝒂𝒏𝒕 ?

Dans plusieurs domaines comme :

la santé, la fraude, le crédit, la cybersécurité ou le diagnostic,

la classe minoritaire est souvent la plus critique.

Un modèle peut donc avoir une bonne accuracy…

mais être mauvais là où cela compte vraiment.

✅ 𝑸𝒖𝒆𝒍𝒒𝒖𝒆𝒔 𝒔𝒐𝒍𝒖𝒕𝒊𝒐𝒏𝒔 𝒇𝒂𝒄𝒆 𝒂𝒖 𝒅𝒆́𝒔𝒆́𝒒𝒖𝒊𝒍𝒊𝒃𝒓𝒆 :

répliquer la classe minoritaire ;

créer des données synthétiques ;

modifier la fonction de perte ;

ajuster ou changer l’algorithme.

📌 𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓 :

Un bon modèle n’est pas seulement celui qui affiche une forte accuracy.

C’est surtout celui qui sait bien reconnaître chaque classe, notamment la plus rare.

👉 𝑬𝒏 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏, 𝒃𝒊𝒆𝒏 𝒆́𝒗𝒂𝒍𝒖𝒆𝒓 𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆, 𝒄’𝒆𝒔𝒕 𝒂𝒖𝒔𝒔𝒊 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒍𝒂 𝒏𝒂𝒕𝒖𝒓𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔.

Inscrivez-vous dès maintenant pour réserver votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #DataScience #Classification #IntelligenceArtificielle #AnalyseDeDonnées

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝑪𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏 𝒅𝒆́𝒔𝒆́𝒒𝒖𝒊𝒍𝒊𝒃𝒓𝒆́𝒆 : 𝒑𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒍’𝒂𝒄𝒄𝒖𝒓𝒂𝒄𝒚 𝒏𝒆 𝒔𝒖𝒇𝒇𝒊𝒕 𝒑𝒂𝒔 ?

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

comment exporter les résultats des estimations de STATA vers word, Excel...

panel ARDL in STATA