𝗦𝗛𝗔𝗣 𝗲𝗻 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 : 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗲𝘅𝗽𝗹𝗶𝗾𝘂𝗲𝗿 𝗹𝗲𝘀 𝗽𝗿𝗲́𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗱’𝘂𝗻 𝗺𝗼𝗱𝗲̀𝗹𝗲 ?
En 𝗺𝗮𝗰𝗵𝗶𝗻𝗲 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴, il ne suffit pas toujours d’avoir un modèle performant.
Il faut aussi comprendre 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗹𝗲 𝗺𝗼𝗱𝗲̀𝗹𝗲 𝗽𝗿𝗲́𝗱𝗶𝘁 𝘁𝗲𝗹 𝗼𝘂 𝘁𝗲𝗹 𝗿𝗲́𝘀𝘂𝗹𝘁𝗮𝘁.
C’est là
qu’intervient 𝗦𝗛𝗔𝗣, pour 𝗦𝗛𝗮𝗽𝗹𝗲𝘆 𝗔𝗱𝗱𝗶𝘁𝗶𝘃𝗲 𝗲𝘅𝗣𝗹𝗮𝗻𝗮𝘁𝗶𝗼𝗻𝘀.
𝗦𝗛𝗔𝗣 est une méthode d’explication des modèles
basée sur la 𝘁𝗵𝗲́𝗼𝗿𝗶𝗲 𝗱𝗲𝘀 𝗷𝗲𝘂𝘅 𝗰𝗼𝗼𝗽𝗲́𝗿𝗮𝘁𝗶𝗳𝘀.
L’idée est
simple : chaque variable est considérée comme un 𝗷𝗼𝘂𝗲𝘂𝗿 qui contribue à la prédiction finale du
modèle.
La question
principale est donc :
Quelle
est la contribution de chaque variable à une prédiction précise ?
Par exemple,
si un modèle prédit un risque élevé, 𝗦𝗛𝗔𝗣 permet d’identifier les variables qui ont
augmenté ou diminué cette prédiction.
𝗟𝗮 𝗳𝗼𝗿𝗺𝘂𝗹𝗲 𝗱𝗲 𝗦𝗵𝗮𝗽𝗹𝗲𝘆
La valeur
SHAP d’une variable peut être représentée ainsi :
φᵢ = Σ [|S|!(|F|-|S|-1)!
/ |F|!] × [f(S∪{i})
- f(S)]
Avec :
φᵢ : valeur SHAP de la variable i
S : sous-ensemble de variables
F : ensemble total des variables
f(S∪{i}) - f(S) : contribution marginale de la variable i
|F| : nombre total de variables
Autrement
dit, 𝗦𝗛𝗔𝗣 𝗺𝗲𝘀𝘂𝗿𝗲 𝗹𝗮 𝗰𝗼𝗻𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 𝗱’𝘂𝗻𝗲 𝘃𝗮𝗿𝗶𝗮𝗯𝗹𝗲 dans toutes les combinaisons possibles de
variables.
𝗟𝗲 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗲 𝗰𝗲𝗻𝘁𝗿𝗮𝗹
La somme des
valeurs SHAP explique l’écart entre la prédiction du modèle et la prédiction
moyenne :
Somme
des SHAP = f(x) - E[f(X)]
Cela signifie
que chaque partie de la prédiction est répartie entre les variables du modèle.
𝗟𝗲𝘀 𝟰 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗲𝘀 𝗱𝗲 𝗦𝗛𝗔𝗣
① 𝗘𝗳𝗳𝗶𝗰𝗮𝗰𝗶𝘁𝗲́ : toutes les contributions expliquent l’écart
total de prédiction.
② 𝗦𝘆𝗺𝗲́𝘁𝗿𝗶𝗲 : deux variables qui contribuent de la
même façon reçoivent le même crédit.
③ 𝗩𝗮𝗿𝗶𝗮𝗯𝗹𝗲 𝗻𝘂𝗹𝗹𝗲 : une variable qui ne change rien reçoit
une contribution égale à zéro.
④ 𝗔𝗱𝗱𝗶𝘁𝗶𝘃𝗶𝘁𝗲́ : les contributions peuvent être additionnées,
notamment dans les modèles d’ensemble.
Ces
propriétés rendent 𝗦𝗛𝗔𝗣 particulièrement utile pour produire des
explications cohérentes et comparables.
𝗟𝗲𝘀 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗮𝗹𝗲𝘀 𝘃𝗲𝗿𝘀𝗶𝗼𝗻𝘀 𝗱𝗲 𝗦𝗛𝗔𝗣
𝗧𝗿𝗲𝗲𝗦𝗛𝗔𝗣
Utilisé pour les modèles à arbres comme 𝗫𝗚𝗕𝗼𝗼𝘀𝘁, 𝗟𝗶𝗴𝗵𝘁𝗚𝗕𝗠 ou 𝗥𝗮𝗻𝗱𝗼𝗺 𝗙𝗼𝗿𝗲𝘀𝘁.
Il est rapide et adapté aux données tabulaires.
𝗗𝗲𝗲𝗽𝗦𝗛𝗔𝗣
Utilisé pour les réseaux de neurones.
Il donne une approximation des contributions à partir de la rétropropagation.
𝗞𝗲𝗿𝗻𝗲𝗹𝗦𝗛𝗔𝗣
Méthode plus générale, applicable à presque tous les modèles.
Elle est flexible, mais peut devenir coûteuse lorsque le nombre de variables
est élevé.
𝗦𝗛𝗔𝗣 𝗶𝗻𝘁𝗲𝗿𝘃𝗲𝗻𝘁𝗶𝗼𝗻𝗻𝗲𝗹 𝘃𝘀 𝗦𝗛𝗔𝗣 𝗼𝗯𝘀𝗲𝗿𝘃𝗮𝘁𝗶𝗼𝗻𝗻𝗲𝗹
Le 𝗦𝗛𝗔𝗣 𝗶𝗻𝘁𝗲𝗿𝘃𝗲𝗻𝘁𝗶𝗼𝗻𝗻𝗲𝗹 traite les variables comme si elles
pouvaient être modifiées indépendamment.
Il donne souvent une attribution plus claire, mais peut créer des combinaisons
de variables peu réalistes.
Le 𝗦𝗛𝗔𝗣 𝗼𝗯𝘀𝗲𝗿𝘃𝗮𝘁𝗶𝗼𝗻𝗻𝗲𝗹 respecte davantage les corrélations entre
variables.
Il reste plus proche des données observées, mais l’interprétation peut devenir
plus délicate lorsque les variables sont très corrélées.
Le vrai défi
apparaît donc lorsque plusieurs variables sont 𝗳𝗼𝗿𝘁𝗲𝗺𝗲𝗻𝘁 𝗰𝗼𝗿𝗿𝗲́𝗹𝗲́𝗲𝘀.
𝗤𝘂𝗮𝗻𝗱
𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿
𝗦𝗛𝗔𝗣 ?
Utilisez 𝗦𝗛𝗔𝗣 lorsque vous voulez :
✅ expliquer une prédiction individuelle
✅ identifier les variables les plus influentes
✅ comparer l’importance globale des
variables
✅ détecter des comportements inattendus du
modèle
✅ rendre un modèle plus transparent pour
les décideurs
En résumé, 𝗦𝗛𝗔𝗣 permet de passer d’un modèle vu comme une
boîte noire à un modèle plus 𝗲𝘅𝗽𝗹𝗶𝗰𝗮𝗯𝗹𝗲, plus 𝘁𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗲𝗻𝘁 et plus facile à défendre.
________________________________________
Pour mieux apprendre l’utilisation des
logiciel et modèles statistiques, nous vous invitons à prendre part à la
prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6
________________________________________
#MachineLearning #SHAP #ExplainableAI #DataScience #AnalyseDesDonnées

Commentaires
Enregistrer un commentaire