๐ ๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง, ๐๐๐ฉ๐ฉ๐๐ฅ ๐๐ญ ๐๐๐จ๐ซ๐ ๐ ๐ : ๐๐จ๐ฆ๐ฆ๐๐ง๐ญ ๐́๐ฏ๐๐ฅ๐ฎ๐๐ซ ๐ฎ๐ง ๐ฆ๐จ๐๐̀๐ฅ๐ ๐๐ ๐๐ฅ๐๐ฌ๐ฌ๐ข๐๐ข๐๐๐ญ๐ข๐จ๐ง ?
En machine learning, il ne suffit pas toujours de regarder le ๐ญ๐๐ฎ๐ฑ ๐๐ ๐๐จ๐ง๐ง๐๐ฌ ๐ฉ๐ซ๐́๐๐ข๐๐ญ๐ข๐จ๐ง๐ฌ, souvent appelรฉ ๐๐๐๐ฎ๐ซ๐๐๐ฒ.
Pourquoi
?
Parce
que l’accuracy peut devenir trompeuse lorsque les classes sont ๐๐́๐ฌ๐́๐ช๐ฎ๐ข๐ฅ๐ข๐๐ซ๐́๐๐ฌ.
Imaginons
un modรจle qui doit dรฉtecter les emails spam.
Si 95 % des emails ne sont pas des spams, un modรจle qui prรฉdit toujours “non
spam” aura 95 % d’accuracy, mais il ne dรฉtectera aucun spam.
C’est
pour cela qu’on utilise souvent trois indicateurs essentiels :
๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง, ๐๐๐ฉ๐ฉ๐๐ฅ ๐๐ญ ๐๐๐จ๐ซ๐ ๐
๐.
๐ ๐๐๐ฌ ๐๐จ๐ซ๐ฆ๐ฎ๐ฅ๐๐ฌ ๐̀ ๐๐จ๐ง๐ง๐๐ข̂๐ญ๐ซ๐
๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง = ๐๐ / (๐๐ + ๐
๐)
๐๐๐ฉ๐ฉ๐๐ฅ = ๐๐ / (๐๐ + ๐
๐)
๐๐๐จ๐ซ๐ ๐
๐ = ๐ × (๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง × ๐๐๐ฉ๐ฉ๐๐ฅ) / (๐๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง + ๐๐๐ฉ๐ฉ๐๐ฅ)
Avec
:
• ๐๐ : vrais positifs
• ๐
๐ : faux positifs
• ๐
๐ : faux nรฉgatifs
• ๐๐ : vrais nรฉgatifs
๐น ๐๐ ๐ฉ๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง, ๐’๐๐ฌ๐ญ ๐ช๐ฎ๐จ๐ข ?
La
prรฉcision rรฉpond ร la question :
๐ Parmi tous les cas prรฉdits positifs par le
modรจle, combien sont rรฉellement positifs ?
Une
forte prรฉcision signifie que le modรจle fait peu de ๐๐๐ฎ๐ฌ๐ฌ๐๐ฌ ๐๐ฅ๐๐ซ๐ญ๐๐ฌ.
Elle
est importante lorsque les ๐๐๐ฎ๐ฑ ๐ฉ๐จ๐ฌ๐ข๐ญ๐ข๐๐ฌ coรปtent cher.
Exemple
: un filtre anti-spam qui bloque par erreur des emails importants.
๐น ๐๐ ๐ซ๐๐ฉ๐ฉ๐๐ฅ, ๐’๐๐ฌ๐ญ ๐ช๐ฎ๐จ๐ข ?
Le
rappel rรฉpond ร la question :
๐ Parmi tous les vrais cas positifs, combien le
modรจle a-t-il rรฉussi ร dรฉtecter ?
Un
rappel รฉlevรฉ signifie que le modรจle laisse passer peu de ๐๐๐ฎ๐ฑ ๐ง๐́๐ ๐๐ญ๐ข๐๐ฌ.
Il
est important lorsque manquer un cas positif peut avoir de fortes consรฉquences.
Exemple
: un systรจme de dรฉpistage mรฉdical qui ne doit pas rater les cas ร risque.
๐น ๐๐ ๐ฌ๐๐จ๐ซ๐ ๐
๐, ๐’๐๐ฌ๐ญ ๐ช๐ฎ๐จ๐ข ?
Le
score F1 combine la prรฉcision et le rappel dans une seule mesure.
Il
est particuliรจrement utile lorsque l’on veut trouver un ๐́๐ช๐ฎ๐ข๐ฅ๐ข๐๐ซ๐ entre les fausses alertes et les cas
manquรฉs.
Le
score F1 utilise une moyenne harmonique.
Cela signifie que si la prรฉcision ou le rappel est trรจs faible, le score F1
sera aussi faible.
๐ฏ ๐๐
๐๐จ๐ฆ๐ฉ๐ซ๐จ๐ฆ๐ข๐ฌ
๐̀
๐๐จ๐ฆ๐ฉ๐ซ๐๐ง๐๐ซ๐
On
ne peut pas toujours maximiser la prรฉcision et le rappel en mรชme temps.
Si
on baisse le seuil de classification, le modรจle dรฉtecte plus de cas positifs.
Le rappel augmente, mais la prรฉcision peut diminuer.
Si
on augmente le seuil, le modรจle devient plus strict.
La prรฉcision peut augmenter, mais le rappel peut baisser.
C’est
pourquoi il faut choisir le seuil en fonction du ๐๐จ๐ฎ̂๐ญ ๐๐๐ฌ ๐๐ซ๐ซ๐๐ฎ๐ซ๐ฌ.
✅ ๐̀ ๐ซ๐๐ญ๐๐ง๐ข๐ซ
L’๐๐๐๐ฎ๐ซ๐๐๐ฒ donne une vue globale, mais elle peut
รชtre trompeuse.
La ๐ฉ๐ซ๐́๐๐ข๐ฌ๐ข๐จ๐ง mesure la qualitรฉ des prรฉdictions
positives.
Le ๐ซ๐๐ฉ๐ฉ๐๐ฅ mesure la capacitรฉ du modรจle ร retrouver
les vrais positifs.
Le ๐ฌ๐๐จ๐ซ๐ ๐
๐ รฉquilibre prรฉcision et rappel.
Ces
indicateurs sont indispensables lorsque les classes sont dรฉsรฉquilibrรฉes ou
lorsque les erreurs n’ont pas le mรชme coรปt.
๐ Pour mieux apprendre les statistiques,
l’รฉconomรฉtrie, le machine learning et l’analyse des donnรฉes, rejoignez notre
prochaine formation en ๐́๐๐จ๐ง๐จ๐ฆ๐́๐ญ๐ซ๐ข๐ ๐๐ญ ๐๐๐๐ก๐ง๐ข๐ช๐ฎ๐๐ฌ ๐๐ฎ๐๐ง๐ญ๐ข๐ญ๐๐ญ๐ข๐ฏ๐๐ฌ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning
#DataScience #Statistiques #Precision #Recall #F1Score #Classification
#AnalyseDeDonnees #Econometrie #IntelligenceArtificielle

Commentaires
Enregistrer un commentaire