📊 𝑪𝒂𝒍𝒊𝒃𝒓𝒂𝒈𝒆 𝒅’𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆 : 𝒑𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒖𝒏𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒑𝒓𝒆́𝒅𝒊𝒕𝒆 𝒅𝒐𝒊𝒕 𝒆̂𝒕𝒓𝒆 𝒇𝒊𝒂𝒃𝒍𝒆 ?

En machine learning, il ne suffit pas qu’un modèle classe correctement les observations.

Il faut aussi que ses 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́𝒔 𝒑𝒓𝒆́𝒅𝒊𝒕𝒆𝒔 soient crédibles.

C’est exactement le rôle du 𝒄𝒂𝒍𝒊𝒃𝒓𝒂𝒈𝒆 𝒅’𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆.

Un modèle est bien calibré lorsque ses probabilités prédites correspondent aux fréquences réellement observées.

Par exemple, si un modèle prédit une probabilité de 𝟎,𝟖 pour 100 cas, environ 80 cas devraient effectivement être corrects.

👉 Si c’est le cas, le modèle est bien calibré.
👉 Si ce n’est pas le cas, ses probabilités peuvent être trompeuses.

📌 𝑼𝒏 𝒆𝒙𝒆𝒎𝒑𝒍𝒆 𝒔𝒊𝒎𝒑𝒍𝒆

Un modèle peut annoncer :
“Je suis sûr à 90 %.”

Mais si, dans la réalité, il n’a raison que dans 70 % des cas, alors le modèle est 𝒔𝒖𝒓𝒄𝒐𝒏𝒇𝒊𝒂𝒏𝒕.

À l’inverse, si le modèle annonce 60 %, mais qu’il a raison dans 80 % des cas, il est 𝒔𝒐𝒖𝒔-𝒄𝒐𝒏𝒇𝒊𝒂𝒏𝒕.

C’est pourquoi on utilise souvent un 𝒅𝒊𝒂𝒈𝒓𝒂𝒎𝒎𝒆 𝒅𝒆 𝒇𝒊𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ pour comparer les probabilités prédites aux fréquences réelles.

📐 𝑳’𝒊𝒏𝒅𝒊𝒄𝒂𝒕𝒆𝒖𝒓 𝑬𝑪𝑬

L’un des indicateurs les plus utilisés est l’𝑬𝑪𝑬, ou 𝑬𝒙𝒑𝒆𝒄𝒕𝒆𝒅 𝑪𝒂𝒍𝒊𝒃𝒓𝒂𝒕𝒊𝒐𝒏 𝑬𝒓𝒓𝒐𝒓.

Il mesure l’écart entre :

• la 𝒑𝒓𝒆́𝒄𝒊𝒔𝒊𝒐𝒏 𝒓𝒆́𝒆𝒍𝒍𝒆 du modèle ;
• et la 𝒄𝒐𝒏𝒇𝒊𝒂𝒏𝒄𝒆 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 annoncée par le modèle.

Plus l’ECE est faible, meilleur est le calibrage.

Un calibrage parfait signifie que la courbe de fiabilité suit la diagonale d’identité.

📌 𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒄𝒐𝒓𝒓𝒊𝒈𝒆𝒓 𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆 𝒎𝒂𝒍 𝒄𝒂𝒍𝒊𝒃𝒓𝒆́ ?

On peut utiliser des méthodes dites 𝒑𝒐𝒔𝒕-𝒉𝒐𝒄, c’est-à-dire appliquées après l’entraînement du modèle.

Le principe est simple :

1️⃣ entraîner le modèle normalement ;
2️⃣ garder un jeu de données séparé pour le calibrage ;
3️⃣ ajuster les probabilités prédites ;
4️⃣ appliquer la correction lors des prédictions futures.

Parmi les méthodes les plus connues, on trouve :

🔹 𝑻𝒆𝒎𝒑𝒆𝒓𝒂𝒕𝒖𝒓𝒆 𝑺𝒄𝒂𝒍𝒊𝒏𝒈
Elle ajuste les probabilités en adoucissant les scores du modèle.
Elle est simple, rapide et très utilisée avec les réseaux de neurones.

🔹 𝑷𝒍𝒂𝒕𝒕 𝑺𝒄𝒂𝒍𝒊𝒏𝒈
Elle utilise une régression logistique pour corriger les probabilités.
Elle fonctionne bien lorsque le jeu de calibrage est relativement petit.

🔹 𝑹𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒊𝒔𝒐𝒕𝒐𝒏𝒊𝒒𝒖𝒆
Elle est plus flexible, car elle ne suppose pas une forme particulière de correction.
Mais elle demande davantage de données pour éviter le surapprentissage.

🎯 𝑷𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒍𝒆 𝒄𝒂𝒍𝒊𝒃𝒓𝒂𝒈𝒆 𝒆𝒔𝒕-𝒊𝒍 𝒊𝒎𝒑𝒐𝒓𝒕𝒂𝒏𝒕 ?

Parce que dans plusieurs domaines, on ne prend pas seulement une décision à partir de la classe prédite.

On prend une décision à partir du niveau de 𝒓𝒊𝒔𝒒𝒖𝒆 annoncé par le modèle.

C’est très important en :

✅ santé ;
✅ finance ;
✅ assurance ;
✅ scoring ;
✅ détection de fraude ;
✅ systèmes autonomes ;
✅ décisions publiques basées sur les données.

Un modèle peut avoir une bonne accuracy, mais être mal calibré.

Dans ce cas, il peut classer correctement tout en donnant des probabilités peu fiables.

⚠️ 𝑳𝒆 𝒑𝒊𝒆̀𝒈𝒆 𝒂̀ 𝒆́𝒗𝒊𝒕𝒆𝒓

Il ne faut pas confondre 𝒑𝒆𝒓𝒇𝒐𝒓𝒎𝒂𝒏𝒄𝒆 𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒐𝒏 et 𝒇𝒊𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒅𝒆𝒔 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́𝒔.

Un modèle peut bien classer, mais mal estimer l’incertitude.

C’est pourquoi il est utile de vérifier les courbes de fiabilité, l’ECE, mais aussi le calibrage par classe, surtout lorsque les données sont déséquilibrées.

✅ 𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓

Le 𝒄𝒂𝒍𝒊𝒃𝒓𝒂𝒈𝒆 𝒅’𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆 permet de vérifier si les probabilités prédites sont réellement fiables.

Un modèle bien calibré ne dit pas seulement quelle classe est la plus probable.

Il indique aussi un niveau de confiance cohérent avec la réalité.

En machine learning, surtout dans les domaines sensibles au risque, une probabilité mal calibrée peut conduire à de mauvaises décisions.

📌 Un bon modèle ne doit donc pas seulement être précis.
Il doit aussi être 𝒇𝒊𝒂𝒃𝒍𝒆, 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒂𝒃𝒍𝒆 𝒆𝒕 𝒃𝒊𝒆𝒏 𝒄𝒂𝒍𝒊𝒃𝒓𝒆́.

📌 Pour mieux apprendre les statistiques, l’économétrie et l’analyse des données, rejoignez notre prochaine formation en 𝑬́𝒄𝒐𝒏𝒐𝒎𝒆́𝒕𝒓𝒊𝒆 𝒆𝒕 𝑻𝒆𝒄𝒉𝒏𝒊𝒒𝒖𝒆𝒔 𝑸𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒆𝒔 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #DataScience #ModelCalibration #Calibration #Statistiques #IntelligenceArtificielle #AnalyseDeDonnees #Classification #Prediction #SciencesSociales

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝑪𝒂𝒍𝒊𝒃𝒓𝒂𝒈𝒆 𝒅’𝒖𝒏 𝒎𝒐𝒅𝒆̀𝒍𝒆 : 𝒑𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒖𝒏𝒆 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒑𝒓𝒆́𝒅𝒊𝒕𝒆 𝒅𝒐𝒊𝒕 𝒆̂𝒕𝒓𝒆 𝒇𝒊𝒂𝒃𝒍𝒆 ?

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...