๐‘น² ๐’๐’– ๐’„๐’๐’†๐’‡๐’‡๐’Š๐’„๐’Š๐’†๐’๐’• ๐’…๐’† ๐’…๐’†́๐’•๐’†๐’“๐’Ž๐’Š๐’๐’‚๐’•๐’Š๐’๐’ : ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’†́๐’—๐’‚๐’๐’–๐’†๐’“ ๐’๐’‚ ๐’’๐’–๐’‚๐’๐’Š๐’•๐’†́ ๐’…’๐’–๐’ ๐’Ž๐’๐’…๐’†̀๐’๐’† ?

Le ๐‘น², aussi appelรฉ ๐’„๐’๐’†๐’‡๐’‡๐’Š๐’„๐’Š๐’†๐’๐’• ๐’…๐’† ๐’…๐’†́๐’•๐’†๐’“๐’Ž๐’Š๐’๐’‚๐’•๐’Š๐’๐’, est un indicateur qui permet de mesurer la part de la variation d’une variable dรฉpendante expliquรฉe par un modรจle.

Autrement dit, il rรฉpond ร  une question simple :

๐‘ธ๐’–๐’†๐’๐’๐’† ๐’‘๐’‚๐’“๐’• ๐’…๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’•๐’Š๐’๐’๐’” ๐’…๐’† ๐’€ ๐’†๐’”๐’• ๐’†๐’™๐’‘๐’๐’Š๐’’๐’–๐’†́๐’† ๐’‘๐’‚๐’“ ๐’๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’” ๐’…๐’– ๐’Ž๐’๐’…๐’†̀๐’๐’† ?

Par exemple, si ๐‘น² = ๐ŸŽ,๐Ÿ–๐ŸŽ, cela signifie que le modรจle explique ๐Ÿ–๐ŸŽ % ๐’…๐’† ๐’๐’‚ ๐’—๐’‚๐’“๐’Š๐’‚๐’•๐’Š๐’๐’ observรฉe dans les donnรฉes.

Les ๐Ÿ๐ŸŽ % restants correspondent ร  la partie non expliquรฉe par le modรจle, c’est-ร -dire aux erreurs, aux facteurs non observรฉs ou aux variations alรฉatoires.

๐‘ณ๐’‚ ๐’‡๐’๐’“๐’Ž๐’–๐’๐’† ๐’…๐’– ๐‘น²

R² = 1 − SS_res / SS_tot

Avec :

SS_res : somme des carrรฉs des rรฉsidus, c’est-ร -dire les erreurs de prรฉdiction
SS_tot : somme totale des carrรฉs, c’est-ร -dire la variation totale autour de la moyenne
ลท
แตข : valeur prรฉdite
y
แตข : valeur observรฉe
ศณ : moyenne des valeurs observรฉes

๐‘ช๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’Š๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’†๐’“ ๐‘น² ?

๐‘น² = ๐Ÿ : le modรจle explique parfaitement les donnรฉes.
๐‘น² = ๐ŸŽ,๐Ÿ—๐ŸŽ : le modรจle explique 90 % de la variation, ce qui indique un trรจs bon ajustement.
๐‘น² = ๐ŸŽ,๐Ÿ“๐ŸŽ : le modรจle explique la moitiรฉ de la variation, ce qui traduit un ajustement modรฉrรฉ.
๐‘น² proche de ๐ŸŽ : le modรจle explique trรจs peu la variation de la variable รฉtudiรฉe.

Mais attention : un ๐‘น² รฉlevรฉ ne signifie pas automatiquement que le modรจle est bon.

Il faut aussi vรฉrifier :

๐’๐’‚ ๐’”๐’Š๐’ˆ๐’๐’Š๐’‡๐’Š๐’„๐’‚๐’•๐’Š๐’—๐’Š๐’•๐’†́ ๐’…๐’†๐’” ๐’„๐’๐’†๐’‡๐’‡๐’Š๐’„๐’Š๐’†๐’๐’•๐’”,
๐’๐’‚ ๐’„๐’๐’‰๐’†́๐’“๐’†๐’๐’„๐’† ๐’†́๐’„๐’๐’๐’๐’Ž๐’Š๐’’๐’–๐’† ๐’๐’– ๐’”๐’•๐’‚๐’•๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†,
๐’๐’†๐’” ๐’“๐’†́๐’”๐’Š๐’…๐’–๐’”,
๐’๐’‚ ๐’Ž๐’–๐’๐’•๐’Š๐’„๐’๐’๐’Š๐’๐’†́๐’‚๐’“๐’Š๐’•๐’†́,
et
๐’๐’† ๐’“๐’Š๐’”๐’’๐’–๐’† ๐’…๐’† ๐’”๐’–๐’“๐’‚๐’‹๐’–๐’”๐’•๐’†๐’Ž๐’†๐’๐’•.

๐‘น² ๐’—๐’” ๐‘น² ๐’‚๐’‹๐’–๐’”๐’•๐’†́

Le ๐‘น² classique augmente souvent lorsqu’on ajoute de nouvelles variables au modรจle, mรชme si ces variables n’apportent pas rรฉellement d’information utile.

C’est pourquoi on utilise souvent le ๐‘น² ๐’‚๐’‹๐’–๐’”๐’•๐’†́.

Le ๐‘น² ajustรฉ pรฉnalise l’ajout inutile de variables. Il peut diminuer si une nouvelle variable n’amรฉliore pas suffisamment le modรจle.

Il est donc particuliรจrement utile lorsque l’on compare plusieurs modรจles avec un nombre diffรฉrent de variables explicatives.

๐‘ธ๐’–๐’‚๐’๐’… ๐’–๐’•๐’Š๐’๐’Š๐’”๐’†๐’“ ๐‘น² ?

Le ๐‘น² est surtout utilisรฉ dans les modรจles de ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† avec une variable dรฉpendante quantitative continue.

Pour les modรจles de classification, les modรจles non linรฉaires ou les problรจmes de prรฉdiction avancรฉe, il faut souvent utiliser d’autres indicateurs comme :

๐’๐’† ๐‘น๐‘ด๐‘บ๐‘ฌ,
๐’๐’† ๐‘ด๐‘จ๐‘ฌ,
๐’๐’‚๐’„๐’„๐’–๐’“๐’‚๐’„๐’š,
๐’๐’† ๐‘ญ๐Ÿ-๐’”๐’„๐’๐’“๐’†,
ou
๐’๐‘จ๐‘ผ๐‘ช.

๐‘ฐ๐’…๐’†́๐’† ๐’„๐’๐’†́ :
Le
๐‘น² indique la proportion de la variation expliquรฉe par le modรจle, mais il ne suffit jamais ร  lui seul pour juger la qualitรฉ complรจte d’une analyse.

Si vous avez trouvรฉ cette publication utile, n'hรฉsitez pas ร  ๐’๐’‚ ๐’๐’Š๐’Œ๐’†๐’“ ๐’†๐’• ร  ๐’๐’‚ ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ avec vos amis et collรจgues ! Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร  prendre part ร  la prochaine session de notre formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ขรฉ๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ https://forms.gle/yZAZimRXbTFbUWZk6



#Statistiques #RegressionLineaire #AnalyseDesDonnรฉes #ร‰conomรฉtrie #DataScience

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique