๐ ๐๐๐ญ๐ซ๐ข๐๐ ๐๐ ๐๐จ๐ง๐๐ฎ๐ฌ๐ข๐จ๐ง : ๐๐จ๐ฆ๐ฆ๐๐ง๐ญ ๐ฌ๐๐ฏ๐จ๐ข๐ซ ๐ฌ๐ข ๐ฏ๐จ๐ญ๐ซ๐ ๐ฆ๐จ๐๐̀๐ฅ๐ ๐ฌ๐ ๐ญ๐ซ๐จ๐ฆ๐ฉ๐ ?
En ๐ฆ๐๐๐ก๐ข๐ง๐ ๐ฅ๐๐๐ซ๐ง๐ข๐ง๐ , lorsqu’on รฉvalue un modรจle de classification, il ne suffit pas de regarder uniquement l’๐๐๐๐ฎ๐ซ๐๐๐ฒ.
Pourquoi
?
Parce
qu’un modรจle peut afficher un bon taux global de bonnes prรฉdictions, tout en
faisant beaucoup d’erreurs sur la classe qui nous intรฉresse vraiment.
C’est
lร qu’intervient la ๐ฆ๐๐ญ๐ซ๐ข๐๐ ๐๐ ๐๐จ๐ง๐๐ฎ๐ฌ๐ข๐จ๐ง.
Elle
permet de comparer les ๐ฏ๐ซ๐๐ข๐๐ฌ ๐ฏ๐๐ฅ๐๐ฎ๐ซ๐ฌ aux ๐ฉ๐ซ๐́๐๐ข๐๐ญ๐ข๐จ๐ง๐ฌ ๐๐ฎ ๐ฆ๐จ๐๐̀๐ฅ๐.
Autrement
dit, elle montre clairement oรน le modรจle rรฉussit et oรน il se trompe.
๐ ๐๐ญ๐ซ๐ฎ๐๐ญ๐ฎ๐ซ๐ ๐’๐ฎ๐ง๐ ๐ฆ๐๐ญ๐ซ๐ข๐๐ ๐๐ ๐๐จ๐ง๐๐ฎ๐ฌ๐ข๐จ๐ง
Les
lignes reprรฉsentent gรฉnรฉralement les ๐ฏ๐๐ฅ๐๐ฎ๐ซ๐ฌ ๐ซ๐́๐๐ฅ๐ฅ๐๐ฌ.
Les colonnes reprรฉsentent les ๐ฏ๐๐ฅ๐๐ฎ๐ซ๐ฌ ๐ฉ๐ซ๐́๐๐ข๐ญ๐๐ฌ.
On
obtient quatre situations principales :
๐น ๐๐ซ๐๐ข ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐ (TP)
Le modรจle prรฉdit positif, et le cas est rรฉellement positif.
๐น ๐
๐๐ฎ๐ฑ ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐ (FP)
Le modรจle prรฉdit positif, alors que le cas est rรฉellement nรฉgatif.
๐
C’est une ๐๐๐ฎ๐ฌ๐ฌ๐ ๐๐ฅ๐๐ซ๐ญ๐.
๐น ๐
๐๐ฎ๐ฑ ๐ง๐́๐ ๐๐ญ๐ข๐ (FN)
Le modรจle prรฉdit nรฉgatif, alors que le cas est rรฉellement positif.
๐
C’est un ๐๐๐ฌ ๐ฆ๐๐ง๐ช๐ฎ๐́.
๐น ๐๐ซ๐๐ข ๐ง๐́๐ ๐๐ญ๐ข๐ (TN)
Le modรจle prรฉdit nรฉgatif, et le cas est rรฉellement nรฉgatif.
๐ ๐๐๐ฌ ๐ข๐ง๐๐ข๐๐๐ญ๐๐ฎ๐ซ๐ฌ ๐ช๐ฎ’๐จ๐ง ๐ฉ๐๐ฎ๐ญ ๐๐๐ฅ๐๐ฎ๐ฅ๐๐ซ
ร
partir de cette matrice, on peut calculer plusieurs mรฉtriques importantes :
๐๐๐๐ฎ๐ซ๐๐๐ฒ = (TP + TN) / (TP + TN + FP + FN)
Elle mesure la proportion globale de bonnes prรฉdictions.
๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง = TP / (TP + FP)
Elle rรฉpond ร la question : parmi les cas prรฉdits positifs, combien sont
rรฉellement positifs ?
๐๐๐ฉ๐ฉ๐๐ฅ = TP / (TP + FN)
Il rรฉpond ร la question : parmi les vrais cas positifs, combien ont รฉtรฉ
dรฉtectรฉs ?
๐๐๐จ๐ซ๐ ๐
๐ = ๐ × (๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง × ๐๐๐ฉ๐ฉ๐๐ฅ) / (๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง + ๐๐๐ฉ๐ฉ๐๐ฅ)
Il รฉquilibre la prรฉcision et le rappel.
๐ ๐๐จ๐ฆ๐ฆ๐๐ง๐ญ ๐ฅ๐ข๐ซ๐ ๐ฅ๐ ๐ฆ๐๐ญ๐ซ๐ข๐๐ ?
Commencez
par regarder la diagonale :
TP et TN reprรฉsentent les bonnes prรฉdictions.
Ensuite,
observez les erreurs :
FP indique les fausses alertes.
FN indique les cas que le modรจle
n’a pas dรฉtectรฉs.
Selon
le contexte, certaines erreurs peuvent รชtre plus graves que d’autres.
Par
exemple, dans un problรจme de dรฉtection de fraude, on veut souvent รฉviter de
manquer les cas frauduleux.
Dans un systรจme de filtrage, on veut รฉviter de bloquer par erreur des รฉlรฉments
lรฉgitimes.
⚠️ ๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฅ’๐๐๐๐ฎ๐ซ๐๐๐ฒ ๐ง๐ ๐ฌ๐ฎ๐๐๐ข๐ญ ๐ฉ๐๐ฌ ?
L’accuracy
donne un seul chiffre.
Mais ce chiffre peut cacher les erreurs importantes, surtout lorsque les
classes sont ๐๐́๐ฌ๐́๐ช๐ฎ๐ข๐ฅ๐ข๐๐ซ๐́๐๐ฌ.
La ๐ฆ๐๐ญ๐ซ๐ข๐๐ ๐๐ ๐๐จ๐ง๐๐ฎ๐ฌ๐ข๐จ๐ง, elle, montre la rรฉpartition exacte des
bonnes et mauvaises prรฉdictions.
Elle
permet donc de mieux choisir entre ๐ฉ๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง, ๐ซ๐๐ฉ๐ฉ๐๐ฅ, ๐ฌ๐๐จ๐ซ๐ ๐
๐ ou ๐๐๐๐ฎ๐ซ๐๐๐ฒ, selon le problรจme รฉtudiรฉ.
✅ ๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ
La
matrice de confusion est l’un des outils les plus importants pour รฉvaluer un
modรจle de classification.
Elle permet de comprendre :
•
ce que le modรจle prรฉdit correctement ;
• les fausses alertes ;
• les cas manquรฉs ;
• les mรฉtriques les plus adaptรฉes ร l’objectif de l’รฉtude.
Avant
de conclure qu’un modรจle est performant, regardez toujours sa ๐ฆ๐๐ญ๐ซ๐ข๐๐ ๐๐ ๐๐จ๐ง๐๐ฎ๐ฌ๐ข๐จ๐ง.
๐ Pour mieux apprendre les statistiques,
l’รฉconomรฉtrie, le machine learning et l’analyse des donnรฉes, rejoignez notre
prochaine formation en ๐́๐๐จ๐ง๐จ๐ฆ๐́๐ญ๐ซ๐ข๐ ๐๐ญ ๐๐๐๐ก๐ง๐ข๐ช๐ฎ๐๐ฌ ๐๐ฎ๐๐ง๐ญ๐ข๐ญ๐๐ญ๐ข๐ฏ๐๐ฌ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #MatriceDeConfusion #DataScience #Statistiques
#Classification #Precision #Recall #F1Score #AnalyseDeDonnees #Econometrie

Commentaires
Enregistrer un commentaire