๐Ÿ“Š ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช ๐’†๐’ ๐‘ด๐’‚๐’„๐’‰๐’Š๐’๐’† ๐‘ณ๐’†๐’‚๐’“๐’๐’Š๐’๐’ˆ : ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’†́๐’—๐’‚๐’๐’–๐’†๐’“ ๐’–๐’ ๐’Ž๐’๐’…๐’†̀๐’๐’† ๐’…๐’† ๐’„๐’๐’‚๐’”๐’”๐’Š๐’‡๐’Š๐’„๐’‚๐’•๐’Š๐’๐’ ? ๐Ÿค–๐Ÿ“ˆ

En ๐‘ด๐’‚๐’„๐’‰๐’Š๐’๐’† ๐‘ณ๐’†๐’‚๐’“๐’๐’Š๐’๐’ˆ, lorsqu’on construit un modรจle de ๐’„๐’๐’‚๐’”๐’”๐’Š๐’‡๐’Š๐’„๐’‚๐’•๐’Š๐’๐’ ๐’ƒ๐’Š๐’๐’‚๐’Š๐’“๐’†, il ne suffit pas toujours de regarder le taux de bonnes prรฉdictions.

C’est ici que la ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช devient trรจs utile.

๐Ÿ”น ๐‘ธ๐’–๐’†๐’”๐’•-๐’„๐’† ๐’’๐’–๐’† ๐’๐’‚ ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช ?

La ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช est une mesure utilisรฉe pour รฉvaluer la capacitรฉ d’un modรจle ร  ๐’ƒ๐’Š๐’†๐’ ๐’…๐’Š๐’”๐’•๐’Š๐’๐’ˆ๐’–๐’†๐’“ ๐’๐’†๐’” ๐’…๐’†๐’–๐’™ ๐’„๐’๐’‚๐’”๐’”๐’†๐’” : la classe positive et la classe nรฉgative.

Elle est particuliรจrement utilisรฉe lorsque le modรจle produit un score ou une probabilitรฉ.

La courbe ROC reprรฉsente le lien entre :

le ๐‘ป๐’‚๐’–๐’™ ๐’…๐’† ๐‘ฝ๐’“๐’‚๐’Š๐’” ๐‘ท๐’๐’”๐’Š๐’•๐’Š๐’‡๐’”
et
le ๐‘ป๐’‚๐’–๐’™ ๐’…๐’† ๐‘ญ๐’‚๐’–๐’™ ๐‘ท๐’๐’”๐’Š๐’•๐’Š๐’‡๐’”

pour diffรฉrents seuils de dรฉcision.

๐Ÿ”น ๐‘ณ๐’†๐’” ๐’…๐’†๐’–๐’™ ๐’Š๐’๐’…๐’Š๐’„๐’‚๐’•๐’†๐’–๐’“๐’” ๐’„๐’๐’†́๐’”

๐‘ป๐‘ท๐‘น = ๐‘ป๐‘ท / (๐‘ป๐‘ท + ๐‘ญ๐‘ต)

Le ๐‘ป๐‘ท๐‘น correspond ร  la sensibilitรฉ ou au rappel.
Il mesure la proportion de vrais positifs correctement dรฉtectรฉs.

๐‘ญ๐‘ท๐‘น = ๐‘ญ๐‘ท / (๐‘ญ๐‘ท + ๐‘ป๐‘ต)

Le ๐‘ญ๐‘ท๐‘น mesure la proportion de faux positifs parmi les vrais nรฉgatifs.

Avec :

TP = vrais positifs
FP = faux positifs
TN = vrais nรฉgatifs
FN = faux nรฉgatifs

๐Ÿ”น ๐‘ช๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’Š๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’†๐’“ ๐’๐‘จ๐‘ผ๐‘ช ?

L’๐‘จ๐‘ผ๐‘ช signifie ๐‘จ๐’“๐’†๐’‚ ๐‘ผ๐’๐’…๐’†๐’“ ๐’•๐’‰๐’† ๐‘ช๐’–๐’“๐’—๐’†, c’est-ร -dire l’aire sous la courbe ROC.

Plus l’AUC est รฉlevรฉe, plus le modรจle distingue bien les deux classes.

๐Ÿ“Œ ๐‘จ๐‘ผ๐‘ช = 0,5
Le modรจle ne fait pas mieux qu’un choix alรฉatoire.

๐Ÿ“Œ ๐‘จ๐‘ผ๐‘ช proche de 1
Le modรจle sรฉpare trรจs bien les positifs et les nรฉgatifs.

๐Ÿ“Œ ๐‘จ๐‘ผ๐‘ช = 1
Le modรจle rรฉalise une sรฉparation parfaite.

๐Ÿ”น ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช ๐’—๐’” ๐‘จ๐’„๐’„๐’–๐’“๐’‚๐’„๐’š

L’๐’‚๐’„๐’„๐’–๐’“๐’‚๐’„๐’š dรฉpend d’un seuil de classification.

Par exemple, si le seuil est fixรฉ ร  0,5, le modรจle classe les observations selon ce seuil.

Mais ce choix peut รชtre trompeur, surtout lorsque les classes sont dรฉsรฉquilibrรฉes.

Exemple : si 99 % des observations appartiennent ร  la classe nรฉgative, un modรจle qui prรฉdit toujours “nรฉgatif” peut afficher une trรจs forte accuracy, sans รชtre rรฉellement utile.

La ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช, elle, รฉvalue la performance du modรจle sur plusieurs seuils.
Elle mesure surtout la qualitรฉ du classement des observations.

๐Ÿ”น ๐‘ธ๐’–๐’‚๐’๐’… ๐’–๐’•๐’Š๐’๐’Š๐’”๐’†๐’“ ๐’๐’‚ ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช ?

On l’utilise lorsque :

on compare plusieurs modรจles de classification ;
on veut รฉvaluer la capacitรฉ du modรจle ร  sรฉparer les classes ;
le seuil de dรฉcision n’est pas encore fixรฉ ;
la qualitรฉ du classement est plus importante que la probabilitรฉ exacte prรฉdite.

Attention : lorsque la classe positive est trรจs rare, il est souvent utile de complรฉter l’analyse avec la ๐‘ท๐‘น-๐‘จ๐‘ผ๐‘ช, qui se concentre davantage sur la prรฉcision et le rappel.

๐‘จ̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“

La ๐‘น๐‘ถ๐‘ช-๐‘จ๐‘ผ๐‘ช permet de mesurer la capacitรฉ d’un modรจle ร  distinguer les classes positives et nรฉgatives.

Elle ne dรฉpend pas d’un seul seuil de dรฉcision.

Elle est plus informative que l’accuracy lorsque l’on veut comparer la qualitรฉ de classement des modรจles.

En rรฉsumรฉ :
๐’‘๐’๐’–๐’” ๐’๐’‚ ๐’„๐’๐’–๐’“๐’ƒ๐’† ๐‘น๐‘ถ๐‘ช ๐’†๐’”๐’• ๐’‘๐’“๐’๐’„๐’‰๐’† ๐’…๐’– ๐’„๐’๐’Š๐’ ๐’”๐’–๐’‘๐’†́๐’“๐’Š๐’†๐’–๐’“ ๐’ˆ๐’‚๐’–๐’„๐’‰๐’†, ๐’Ž๐’†๐’Š๐’๐’๐’†๐’–๐’“ ๐’†๐’”๐’• ๐’๐’† ๐’Ž๐’๐’…๐’†̀๐’๐’†.

Si cette publication vous a รฉtรฉ utile, pensez ร  ๐’๐’‚ ๐’๐’Š๐’Œ๐’†๐’“, ๐’๐’‚ ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’•๐’†๐’“ et ๐’๐’‚ ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ avec vos amis, รฉtudiants et collรจgues.

Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ https://forms.gle/yZAZimRXbTFbUWZk6



#MachineLearning #DataScience #ROCAUC #Classification #AnalyseDeDonnรฉes #Statistiques #IntelligenceArtificielle #ModelEvaluation #DataAnalytics

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique