𝗦𝗛𝗔𝗣 𝗲𝗻 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 : 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗲𝘅𝗽𝗹𝗶𝗾𝘂𝗲𝗿 𝗹𝗲𝘀 𝗽𝗿𝗲́𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗱’𝘂𝗻 𝗺𝗼𝗱𝗲̀𝗹𝗲 ?

En 𝗺𝗮𝗰𝗵𝗶𝗻𝗲 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴, il ne suffit pas toujours d’avoir un modèle performant.

Il faut aussi comprendre 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗹𝗲 𝗺𝗼𝗱𝗲̀𝗹𝗲 𝗽𝗿𝗲́𝗱𝗶𝘁 𝘁𝗲𝗹 𝗼𝘂 𝘁𝗲𝗹 𝗿𝗲́𝘀𝘂𝗹𝘁𝗮𝘁.

C’est là qu’intervient 𝗦𝗛𝗔𝗣, pour 𝗦𝗛𝗮𝗽𝗹𝗲𝘆 𝗔𝗱𝗱𝗶𝘁𝗶𝘃𝗲 𝗲𝘅𝗣𝗹𝗮𝗻𝗮𝘁𝗶𝗼𝗻𝘀.

𝗦𝗛𝗔𝗣 est une méthode d’explication des modèles basée sur la 𝘁𝗵𝗲́𝗼𝗿𝗶𝗲 𝗱𝗲𝘀 𝗷𝗲𝘂𝘅 𝗰𝗼𝗼𝗽𝗲́𝗿𝗮𝘁𝗶𝗳𝘀.

L’idée est simple : chaque variable est considérée comme un 𝗷𝗼𝘂𝗲𝘂𝗿 qui contribue à la prédiction finale du modèle.

La question principale est donc :

Quelle est la contribution de chaque variable à une prédiction précise ?

Par exemple, si un modèle prédit un risque élevé, 𝗦𝗛𝗔𝗣 permet d’identifier les variables qui ont augmenté ou diminué cette prédiction.

𝗟𝗮 𝗳𝗼𝗿𝗺𝘂𝗹𝗲 𝗱𝗲 𝗦𝗵𝗮𝗽𝗹𝗲𝘆

La valeur SHAP d’une variable peut être représentée ainsi :

φᵢ = Σ [|S|!(|F|-|S|-1)! / |F|!] × [f(S{i}) - f(S)]

Avec :

φᵢ : valeur SHAP de la variable i
S : sous-ensemble de variables
F : ensemble total des variables
f(S
{i}) - f(S) : contribution marginale de la variable i
|F| : nombre total de variables

Autrement dit, 𝗦𝗛𝗔𝗣 𝗺𝗲𝘀𝘂𝗿𝗲 𝗹𝗮 𝗰𝗼𝗻𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 𝗱𝘂𝗻𝗲 𝘃𝗮𝗿𝗶𝗮𝗯𝗹𝗲 dans toutes les combinaisons possibles de variables.

𝗟𝗲 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗲 𝗰𝗲𝗻𝘁𝗿𝗮𝗹

La somme des valeurs SHAP explique l’écart entre la prédiction du modèle et la prédiction moyenne :

Somme des SHAP = f(x) - E[f(X)]

Cela signifie que chaque partie de la prédiction est répartie entre les variables du modèle.

𝗟𝗲𝘀 𝟰 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗲𝘀 𝗱𝗲 𝗦𝗛𝗔𝗣

𝗘𝗳𝗳𝗶𝗰𝗮𝗰𝗶𝘁𝗲́ : toutes les contributions expliquent l’écart total de prédiction.

𝗦𝘆𝗺𝗲́𝘁𝗿𝗶𝗲 : deux variables qui contribuent de la même façon reçoivent le même crédit.

𝗩𝗮𝗿𝗶𝗮𝗯𝗹𝗲 𝗻𝘂𝗹𝗹𝗲 : une variable qui ne change rien reçoit une contribution égale à zéro.

𝗔𝗱𝗱𝗶𝘁𝗶𝘃𝗶𝘁𝗲́ : les contributions peuvent être additionnées, notamment dans les modèles d’ensemble.

Ces propriétés rendent 𝗦𝗛𝗔𝗣 particulièrement utile pour produire des explications cohérentes et comparables.

𝗟𝗲𝘀 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗮𝗹𝗲𝘀 𝘃𝗲𝗿𝘀𝗶𝗼𝗻𝘀 𝗱𝗲 𝗦𝗛𝗔𝗣

𝗧𝗿𝗲𝗲𝗦𝗛𝗔𝗣
Utilisé pour les modèles à arbres comme
𝗫𝗚𝗕𝗼𝗼𝘀𝘁, 𝗟𝗶𝗴𝗵𝘁𝗚𝗕𝗠 ou 𝗥𝗮𝗻𝗱𝗼𝗺 𝗙𝗼𝗿𝗲𝘀𝘁.
Il est rapide et adapté aux données tabulaires.

𝗗𝗲𝗲𝗽𝗦𝗛𝗔𝗣
Utilisé pour les réseaux de neurones.
Il donne une approximation des contributions à partir de la rétropropagation.

𝗞𝗲𝗿𝗻𝗲𝗹𝗦𝗛𝗔𝗣
Méthode plus générale, applicable à presque tous les modèles.
Elle est flexible, mais peut devenir coûteuse lorsque le nombre de variables est élevé.

𝗦𝗛𝗔𝗣 𝗶𝗻𝘁𝗲𝗿𝘃𝗲𝗻𝘁𝗶𝗼𝗻𝗻𝗲𝗹 𝘃𝘀 𝗦𝗛𝗔𝗣 𝗼𝗯𝘀𝗲𝗿𝘃𝗮𝘁𝗶𝗼𝗻𝗻𝗲𝗹

Le 𝗦𝗛𝗔𝗣 𝗶𝗻𝘁𝗲𝗿𝘃𝗲𝗻𝘁𝗶𝗼𝗻𝗻𝗲𝗹 traite les variables comme si elles pouvaient être modifiées indépendamment.
Il donne souvent une attribution plus claire, mais peut créer des combinaisons de variables peu réalistes.

Le 𝗦𝗛𝗔𝗣 𝗼𝗯𝘀𝗲𝗿𝘃𝗮𝘁𝗶𝗼𝗻𝗻𝗲𝗹 respecte davantage les corrélations entre variables.
Il reste plus proche des données observées, mais l’interprétation peut devenir plus délicate lorsque les variables sont très corrélées.

Le vrai défi apparaît donc lorsque plusieurs variables sont 𝗳𝗼𝗿𝘁𝗲𝗺𝗲𝗻𝘁 𝗰𝗼𝗿𝗿𝗲́𝗹𝗲́𝗲𝘀.

𝗤𝘂𝗮𝗻𝗱 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗦𝗛𝗔𝗣 ?

Utilisez 𝗦𝗛𝗔𝗣 lorsque vous voulez :

expliquer une prédiction individuelle
identifier les variables les plus influentes
comparer l’importance globale des variables
détecter des comportements inattendus du modèle
rendre un modèle plus transparent pour les décideurs

En résumé, 𝗦𝗛𝗔𝗣 permet de passer d’un modèle vu comme une boîte noire à un modèle plus 𝗲𝘅𝗽𝗹𝗶𝗰𝗮𝗯𝗹𝗲, plus 𝘁𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗲𝗻𝘁 et plus facile à défendre.

________________________________________

Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨 https://forms.gle/yZAZimRXbTFbUWZk6



________________________________________

#MachineLearning #SHAP #ExplainableAI #DataScience #AnalyseDesDonnées

 

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique