๐ ๐ช๐๐๐๐๐๐๐๐ ๐ ’๐๐ ๐๐๐ ๐̀๐๐ : ๐๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐́ ๐๐๐́๐ ๐๐๐ ๐ ๐๐๐ ๐̂๐๐๐ ๐๐๐๐๐๐ ?
En machine learning, il ne suffit pas qu’un modรจle classe correctement les observations.
Il faut aussi que ses ๐๐๐๐๐๐๐๐๐๐๐́๐ ๐๐๐́๐
๐๐๐๐ soient crรฉdibles.
C’est exactement le rรดle du ๐๐๐๐๐๐๐๐๐ ๐
’๐๐ ๐๐๐
๐̀๐๐.
Un modรจle est bien calibrรฉ
lorsque ses probabilitรฉs prรฉdites correspondent aux frรฉquences rรฉellement
observรฉes.
Par exemple, si un modรจle prรฉdit
une probabilitรฉ de ๐,๐ pour 100 cas, environ 80 cas
devraient effectivement รชtre corrects.
๐
Si c’est le cas, le modรจle est bien calibrรฉ.
๐
Si ce n’est pas le cas, ses probabilitรฉs peuvent รชtre trompeuses.
๐ ๐ผ๐ ๐๐๐๐๐๐๐ ๐๐๐๐๐๐
Un modรจle peut annoncer :
“Je suis sรปr ร 90 %.”
Mais si, dans la rรฉalitรฉ, il n’a
raison que dans 70 % des cas, alors le modรจle est ๐๐๐๐๐๐๐๐๐๐๐.
ร l’inverse, si le modรจle annonce
60 %, mais qu’il a raison dans 80 % des cas, il est ๐๐๐๐-๐๐๐๐๐๐๐๐.
C’est pourquoi on utilise souvent
un ๐
๐๐๐๐๐๐๐๐ ๐
๐ ๐๐๐๐๐๐๐๐๐́ pour comparer les probabilitรฉs prรฉdites aux
frรฉquences rรฉelles.
๐ ๐ณ’๐๐๐
๐๐๐๐๐๐๐ ๐ฌ๐ช๐ฌ
L’un des indicateurs les plus
utilisรฉs est l’๐ฌ๐ช๐ฌ, ou ๐ฌ๐๐๐๐๐๐๐
๐ช๐๐๐๐๐๐๐๐๐๐ ๐ฌ๐๐๐๐.
Il mesure l’รฉcart entre :
• la ๐๐๐́๐๐๐๐๐๐ ๐๐́๐๐๐๐ du modรจle ;
• et la ๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐ annoncรฉe par le modรจle.
Plus l’ECE est faible, meilleur
est le calibrage.
Un calibrage parfait signifie que
la courbe de fiabilitรฉ suit la diagonale d’identitรฉ.
๐ ๐ช๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐ ๐๐ ๐๐๐
๐̀๐๐ ๐๐๐ ๐๐๐๐๐๐๐́ ?
On peut utiliser des mรฉthodes
dites ๐๐๐๐-๐๐๐, c’est-ร -dire appliquรฉes aprรจs
l’entraรฎnement du modรจle.
Le principe est simple :
1️⃣ entraรฎner le modรจle normalement ;
2️⃣ garder un jeu de donnรฉes
sรฉparรฉ pour le calibrage ;
3️⃣ ajuster les probabilitรฉs
prรฉdites ;
4️⃣ appliquer la correction
lors des prรฉdictions futures.
Parmi les mรฉthodes les plus
connues, on trouve :
๐น ๐ป๐๐๐๐๐๐๐๐๐๐ ๐บ๐๐๐๐๐๐
Elle ajuste les probabilitรฉs en adoucissant les scores du modรจle.
Elle est simple, rapide et trรจs utilisรฉe avec les rรฉseaux de neurones.
๐น ๐ท๐๐๐๐ ๐บ๐๐๐๐๐๐
Elle utilise une rรฉgression logistique pour corriger les probabilitรฉs.
Elle fonctionne bien lorsque le jeu de calibrage est relativement petit.
๐น ๐น๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐
Elle est plus flexible, car elle ne suppose pas une forme particuliรจre de
correction.
Mais elle demande davantage de donnรฉes pour รฉviter le surapprentissage.
๐ฏ ๐ท๐๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐ ๐๐๐-๐๐ ๐๐๐๐๐๐๐๐๐ ?
Parce que dans plusieurs
domaines, on ne prend pas seulement une dรฉcision ร partir de la classe prรฉdite.
On prend une dรฉcision ร partir du
niveau de ๐๐๐๐๐๐ annoncรฉ par le modรจle.
C’est trรจs important en :
✅ santรฉ ;
✅ finance ;
✅ assurance ;
✅ scoring ;
✅ dรฉtection de fraude ;
✅ systรจmes autonomes ;
✅ dรฉcisions publiques basรฉes sur les donnรฉes.
Un modรจle peut avoir une bonne
accuracy, mais รชtre mal calibrรฉ.
Dans ce cas, il peut classer
correctement tout en donnant des probabilitรฉs peu fiables.
⚠️ ๐ณ๐ ๐๐๐̀๐๐ ๐̀ ๐́๐๐๐๐๐
Il ne faut pas confondre ๐๐๐๐๐๐๐๐๐๐๐ ๐
๐ ๐๐๐๐๐๐๐๐๐๐๐๐๐๐ et ๐๐๐๐๐๐๐๐๐́ ๐
๐๐ ๐๐๐๐๐๐๐๐๐๐๐́๐.
Un modรจle peut bien classer, mais
mal estimer l’incertitude.
C’est pourquoi il est utile de
vรฉrifier les courbes de fiabilitรฉ, l’ECE, mais aussi le calibrage par classe,
surtout lorsque les donnรฉes sont dรฉsรฉquilibrรฉes.
✅ ๐จ̀ ๐๐๐๐๐๐๐
Le ๐๐๐๐๐๐๐๐๐ ๐
’๐๐ ๐๐๐
๐̀๐๐ permet de vรฉrifier si les probabilitรฉs
prรฉdites sont rรฉellement fiables.
Un modรจle bien calibrรฉ ne dit pas
seulement quelle classe est la plus probable.
Il indique aussi un niveau de
confiance cohรฉrent avec la rรฉalitรฉ.
En machine learning, surtout dans
les domaines sensibles au risque, une probabilitรฉ mal calibrรฉe peut conduire ร
de mauvaises dรฉcisions.
๐
Un bon modรจle ne doit donc pas seulement รชtre prรฉcis.
Il doit aussi รชtre ๐๐๐๐๐๐, ๐๐๐๐๐๐๐๐́๐๐๐๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐๐๐๐́.
๐
Pour mieux apprendre les statistiques, l’รฉconomรฉtrie et l’analyse des donnรฉes,
rejoignez notre prochaine formation en ๐ฌ́๐๐๐๐๐๐́๐๐๐๐ ๐๐ ๐ป๐๐๐๐๐๐๐๐๐ ๐ธ๐๐๐๐๐๐๐๐๐๐๐๐ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #DataScience #ModelCalibration #Calibration #Statistiques
#IntelligenceArtificielle #AnalyseDeDonnees #Classification #Prediction
#SciencesSociales

Commentaires
Enregistrer un commentaire