๐ ๐น๐ถ๐ช-๐จ๐ผ๐ช ๐๐ ๐ด๐๐๐๐๐๐ ๐ณ๐๐๐๐๐๐๐ : ๐๐๐๐๐๐๐ ๐́๐๐๐๐๐๐ ๐๐ ๐๐๐ ๐̀๐๐ ๐ ๐ ๐๐๐๐๐๐๐๐๐๐๐๐๐๐ ? ๐ค๐
En ๐ด๐๐๐๐๐๐ ๐ณ๐๐๐๐๐๐๐, lorsqu’on construit un modรจle de ๐๐๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐, il ne suffit pas toujours de regarder le taux de bonnes prรฉdictions.
C’est ici que
la ๐น๐ถ๐ช-๐จ๐ผ๐ช devient trรจs utile.
๐น ๐ธ๐’๐๐๐-๐๐ ๐๐๐ ๐๐ ๐น๐ถ๐ช-๐จ๐ผ๐ช ?
La ๐น๐ถ๐ช-๐จ๐ผ๐ช est une mesure utilisรฉe pour รฉvaluer la
capacitรฉ d’un modรจle ร ๐๐๐๐ ๐
๐๐๐๐๐๐๐๐๐ ๐๐๐ ๐
๐๐๐ ๐๐๐๐๐๐๐ : la classe positive et la classe
nรฉgative.
Elle est
particuliรจrement utilisรฉe lorsque le modรจle produit un score ou une
probabilitรฉ.
La courbe ROC
reprรฉsente le lien entre :
✅ le ๐ป๐๐๐ ๐
๐ ๐ฝ๐๐๐๐ ๐ท๐๐๐๐๐๐๐
et
❌ le ๐ป๐๐๐ ๐
๐ ๐ญ๐๐๐ ๐ท๐๐๐๐๐๐๐
pour
diffรฉrents seuils de dรฉcision.
๐น ๐ณ๐๐ ๐
๐๐๐ ๐๐๐
๐๐๐๐๐๐๐๐ ๐๐๐́๐
๐ป๐ท๐น = ๐ป๐ท / (๐ป๐ท + ๐ญ๐ต)
Le ๐ป๐ท๐น correspond ร la sensibilitรฉ ou au rappel.
Il mesure la proportion de vrais positifs correctement dรฉtectรฉs.
๐ญ๐ท๐น = ๐ญ๐ท / (๐ญ๐ท + ๐ป๐ต)
Le ๐ญ๐ท๐น mesure la proportion de faux positifs
parmi les vrais nรฉgatifs.
Avec :
TP = vrais
positifs
FP = faux positifs
TN = vrais nรฉgatifs
FN = faux nรฉgatifs
๐น ๐ช๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐́๐๐๐ ๐’๐จ๐ผ๐ช ?
L’๐จ๐ผ๐ช signifie ๐จ๐๐๐ ๐ผ๐๐
๐๐ ๐๐๐ ๐ช๐๐๐๐, c’est-ร -dire l’aire sous la courbe ROC.
Plus l’AUC est
รฉlevรฉe, plus le modรจle distingue bien les deux classes.
๐ ๐จ๐ผ๐ช = 0,5
Le modรจle ne fait pas mieux qu’un choix alรฉatoire.
๐ ๐จ๐ผ๐ช proche de 1
Le modรจle sรฉpare trรจs bien les positifs et les nรฉgatifs.
๐ ๐จ๐ผ๐ช = 1
Le modรจle rรฉalise une sรฉparation parfaite.
๐น ๐น๐ถ๐ช-๐จ๐ผ๐ช ๐๐ ๐จ๐๐๐๐๐๐๐
L’๐๐๐๐๐๐๐๐ dรฉpend d’un seuil de classification.
Par exemple,
si le seuil est fixรฉ ร 0,5, le modรจle classe les observations selon ce seuil.
Mais ce choix
peut รชtre trompeur, surtout lorsque les classes sont dรฉsรฉquilibrรฉes.
Exemple : si
99 % des observations appartiennent ร la classe nรฉgative, un modรจle qui prรฉdit
toujours “nรฉgatif” peut afficher une trรจs forte accuracy, sans รชtre rรฉellement
utile.
La ๐น๐ถ๐ช-๐จ๐ผ๐ช, elle, รฉvalue la performance du modรจle
sur plusieurs seuils.
Elle mesure surtout la qualitรฉ du classement des observations.
๐น ๐ธ๐๐๐๐
๐๐๐๐๐๐๐๐ ๐๐ ๐น๐ถ๐ช-๐จ๐ผ๐ช ?
On l’utilise
lorsque :
✅ on compare plusieurs modรจles de
classification ;
✅ on veut รฉvaluer la capacitรฉ du modรจle ร sรฉparer
les classes ;
✅ le seuil de dรฉcision n’est pas encore fixรฉ
;
✅ la qualitรฉ du classement est plus
importante que la probabilitรฉ exacte prรฉdite.
⚠️ Attention : lorsque la classe positive
est trรจs rare, il est souvent utile de complรฉter l’analyse avec la ๐ท๐น-๐จ๐ผ๐ช, qui se concentre davantage sur la
prรฉcision et le rappel.
✅ ๐จ̀ ๐๐๐๐๐๐๐
La ๐น๐ถ๐ช-๐จ๐ผ๐ช permet de mesurer la capacitรฉ d’un modรจle
ร distinguer les classes positives et nรฉgatives.
Elle ne dรฉpend
pas d’un seul seuil de dรฉcision.
Elle est plus
informative que l’accuracy lorsque l’on veut comparer la qualitรฉ de classement
des modรจles.
En rรฉsumรฉ :
๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐น๐ถ๐ช ๐๐๐ ๐๐๐๐๐๐ ๐
๐ ๐๐๐๐ ๐๐๐๐́๐๐๐๐๐ ๐๐๐๐๐๐, ๐๐๐๐๐๐๐๐ ๐๐๐ ๐๐ ๐๐๐
๐̀๐๐.
Si cette
publication vous a รฉtรฉ utile, pensez ร ๐๐ ๐๐๐๐๐, ๐๐ ๐๐๐๐๐๐๐๐๐ et ๐๐ ๐๐๐๐๐๐๐๐ avec vos amis, รฉtudiants et collรจgues.
Inscrivez-vous dรจs maintenant
pour rรฉserver votre place pour la prochaine session de notre formation en ร๐ฐ๐ผ๐ป๐ผ๐บรฉ๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #DataScience
#ROCAUC #Classification #AnalyseDeDonnรฉes #Statistiques
#IntelligenceArtificielle #ModelEvaluation #DataAnalytics

Commentaires
Enregistrer un commentaire