๐Ÿ“Š ๐Œ๐š๐ญ๐ซ๐ข๐œ๐ž ๐๐ž ๐œ๐จ๐ง๐Ÿ๐ฎ๐ฌ๐ข๐จ๐ง : ๐œ๐จ๐ฆ๐ฆ๐ž๐ง๐ญ ๐ฌ๐š๐ฏ๐จ๐ข๐ซ ๐ฌ๐ข ๐ฏ๐จ๐ญ๐ซ๐ž ๐ฆ๐จ๐๐ž̀๐ฅ๐ž ๐ฌ๐ž ๐ญ๐ซ๐จ๐ฆ๐ฉ๐ž ?

En ๐ฆ๐š๐œ๐ก๐ข๐ง๐ž ๐ฅ๐ž๐š๐ซ๐ง๐ข๐ง๐ , lorsqu’on รฉvalue un modรจle de classification, il ne suffit pas de regarder uniquement l’๐š๐œ๐œ๐ฎ๐ซ๐š๐œ๐ฒ.

Pourquoi ?

Parce qu’un modรจle peut afficher un bon taux global de bonnes prรฉdictions, tout en faisant beaucoup d’erreurs sur la classe qui nous intรฉresse vraiment.

C’est lร  qu’intervient la ๐ฆ๐š๐ญ๐ซ๐ข๐œ๐ž ๐๐ž ๐œ๐จ๐ง๐Ÿ๐ฎ๐ฌ๐ข๐จ๐ง.

Elle permet de comparer les ๐ฏ๐ซ๐š๐ข๐ž๐ฌ ๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ aux ๐ฉ๐ซ๐ž́๐๐ข๐œ๐ญ๐ข๐จ๐ง๐ฌ ๐๐ฎ ๐ฆ๐จ๐๐ž̀๐ฅ๐ž.

Autrement dit, elle montre clairement oรน le modรจle rรฉussit et oรน il se trompe.

๐Ÿ“Œ ๐’๐ญ๐ซ๐ฎ๐œ๐ญ๐ฎ๐ซ๐ž ๐๐ฎ๐ง๐ž ๐ฆ๐š๐ญ๐ซ๐ข๐œ๐ž ๐๐ž ๐œ๐จ๐ง๐Ÿ๐ฎ๐ฌ๐ข๐จ๐ง

Les lignes reprรฉsentent gรฉnรฉralement les ๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ ๐ซ๐ž́๐ž๐ฅ๐ฅ๐ž๐ฌ.
Les colonnes reprรฉsentent les
๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ ๐ฉ๐ซ๐ž́๐๐ข๐ญ๐ž๐ฌ.

On obtient quatre situations principales :

๐Ÿ”น ๐•๐ซ๐š๐ข ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐Ÿ (TP)
Le modรจle prรฉdit positif, et le cas est rรฉellement positif.

๐Ÿ”น ๐…๐š๐ฎ๐ฑ ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐Ÿ (FP)
Le modรจle prรฉdit positif, alors que le cas est rรฉellement nรฉgatif.
๐Ÿ‘‰ C’est une ๐Ÿ๐š๐ฎ๐ฌ๐ฌ๐ž ๐š๐ฅ๐ž๐ซ๐ญ๐ž.

๐Ÿ”น ๐…๐š๐ฎ๐ฑ ๐ง๐ž́๐ ๐š๐ญ๐ข๐Ÿ (FN)
Le modรจle prรฉdit nรฉgatif, alors que le cas est rรฉellement positif.
๐Ÿ‘‰ C’est un ๐œ๐š๐ฌ ๐ฆ๐š๐ง๐ช๐ฎ๐ž́.

๐Ÿ”น ๐•๐ซ๐š๐ข ๐ง๐ž́๐ ๐š๐ญ๐ข๐Ÿ (TN)
Le modรจle prรฉdit nรฉgatif, et le cas est rรฉellement nรฉgatif.

๐Ÿ“ ๐‹๐ž๐ฌ ๐ข๐ง๐๐ข๐œ๐š๐ญ๐ž๐ฎ๐ซ๐ฌ ๐ช๐ฎ๐จ๐ง ๐ฉ๐ž๐ฎ๐ญ ๐œ๐š๐ฅ๐œ๐ฎ๐ฅ๐ž๐ซ

ร€ partir de cette matrice, on peut calculer plusieurs mรฉtriques importantes :

๐€๐œ๐œ๐ฎ๐ซ๐š๐œ๐ฒ = (TP + TN) / (TP + TN + FP + FN)
Elle mesure la proportion globale de bonnes prรฉdictions.

๐๐ซ๐ž́๐œ๐ข๐ฌ๐ข๐จ๐ง = TP / (TP + FP)
Elle rรฉpond ร  la question : parmi les cas prรฉdits positifs, combien sont rรฉellement positifs ?

๐‘๐š๐ฉ๐ฉ๐ž๐ฅ = TP / (TP + FN)
Il rรฉpond ร  la question : parmi les vrais cas positifs, combien ont รฉtรฉ dรฉtectรฉs ?

๐’๐œ๐จ๐ซ๐ž ๐…๐Ÿ = ๐Ÿ × (๐๐ซ๐ž́๐œ๐ข๐ฌ๐ข๐จ๐ง × ๐‘๐š๐ฉ๐ฉ๐ž๐ฅ) / (๐๐ซ๐ž́๐œ๐ข๐ฌ๐ข๐จ๐ง + ๐‘๐š๐ฉ๐ฉ๐ž๐ฅ)
Il รฉquilibre la prรฉcision et le rappel.

๐Ÿ” ๐‚๐จ๐ฆ๐ฆ๐ž๐ง๐ญ ๐ฅ๐ข๐ซ๐ž ๐ฅ๐š ๐ฆ๐š๐ญ๐ซ๐ข๐œ๐ž ?

Commencez par regarder la diagonale :
TP et TN reprรฉsentent les bonnes prรฉdictions.

Ensuite, observez les erreurs :
FP indique les fausses alertes.
FN indique les cas que le modรจle n’a pas dรฉtectรฉs.

Selon le contexte, certaines erreurs peuvent รชtre plus graves que d’autres.

Par exemple, dans un problรจme de dรฉtection de fraude, on veut souvent รฉviter de manquer les cas frauduleux.
Dans un systรจme de filtrage, on veut รฉviter de bloquer par erreur des รฉlรฉments lรฉgitimes.

๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฅ๐š๐œ๐œ๐ฎ๐ซ๐š๐œ๐ฒ ๐ง๐ž ๐ฌ๐ฎ๐Ÿ๐Ÿ๐ข๐ญ ๐ฉ๐š๐ฌ ?

L’accuracy donne un seul chiffre.
Mais ce chiffre peut cacher les erreurs importantes, surtout lorsque les classes sont
๐๐ž́๐ฌ๐ž́๐ช๐ฎ๐ข๐ฅ๐ข๐›๐ซ๐ž́๐ž๐ฌ.

La ๐ฆ๐š๐ญ๐ซ๐ข๐œ๐ž ๐๐ž ๐œ๐จ๐ง๐Ÿ๐ฎ๐ฌ๐ข๐จ๐ง, elle, montre la rรฉpartition exacte des bonnes et mauvaises prรฉdictions.

Elle permet donc de mieux choisir entre ๐ฉ๐ซ๐ž́๐œ๐ข๐ฌ๐ข๐จ๐ง, ๐ซ๐š๐ฉ๐ฉ๐ž๐ฅ, ๐ฌ๐œ๐จ๐ซ๐ž ๐…๐Ÿ ou ๐š๐œ๐œ๐ฎ๐ซ๐š๐œ๐ฒ, selon le problรจme รฉtudiรฉ.

๐€̀ ๐ซ๐ž๐ญ๐ž๐ง๐ข๐ซ

La matrice de confusion est l’un des outils les plus importants pour รฉvaluer un modรจle de classification.

Elle permet de comprendre :

• ce que le modรจle prรฉdit correctement ;
• les fausses alertes ;
• les cas manquรฉs ;
• les mรฉtriques les plus adaptรฉes ร  l’objectif de l’รฉtude.

Avant de conclure qu’un modรจle est performant, regardez toujours sa ๐ฆ๐š๐ญ๐ซ๐ข๐œ๐ž ๐๐ž ๐œ๐จ๐ง๐Ÿ๐ฎ๐ฌ๐ข๐จ๐ง.

๐Ÿ“Œ Pour mieux apprendre les statistiques, l’รฉconomรฉtrie, le machine learning et l’analyse des donnรฉes, rejoignez notre prochaine formation en ๐„́๐œ๐จ๐ง๐จ๐ฆ๐ž́๐ญ๐ซ๐ข๐ž ๐ž๐ญ ๐“๐ž๐œ๐ก๐ง๐ข๐ช๐ฎ๐ž๐ฌ ๐๐ฎ๐š๐ง๐ญ๐ข๐ญ๐š๐ญ๐ข๐ฏ๐ž๐ฌ https://forms.gle/yZAZimRXbTFbUWZk6



#MachineLearning #MatriceDeConfusion #DataScience #Statistiques #Classification #Precision #Recall #F1Score #AnalyseDeDonnees #Econometrie

 

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique