𝕮𝖔𝖗𝖗é𝖑𝖆𝖙𝖎𝖔𝖓 𝖛𝖘 𝕮𝖔𝖛𝖆𝖗𝖎𝖆𝖓𝖈𝖊 : 𝕮𝖑𝖆𝖗𝖎𝖋𝖎𝖊𝖟 𝖑𝖆 𝕯𝖎𝖋𝖋é𝖗𝖊𝖓𝖈𝖊 𝖕𝖔𝖚𝖗 𝖉𝖊𝖘 𝕬𝖓𝖆𝖑𝖞𝖘𝖊𝖘 𝕻𝖑𝖚𝖘 𝕻𝖊𝖗𝖙𝖎𝖓𝖊𝖓𝖙𝖊𝖘 !

Même si la corrélation et la covariance figurent parmi les indicateurs statistiques les plus utilisés, elles sont souvent mal comprises et employées de manière interchangeable. Démystifions leurs différences !

𝙐𝙣 𝙡𝙞𝙠𝙚 𝙚𝙩 𝙪𝙣 𝙋𝙖𝙧𝙩𝙖𝙜𝙚 de ce post avant d'aller plus loin nous fera plaisir.

________________________________________

𝓒𝓸𝓿𝓪𝓻𝓲𝓪𝓷𝓬𝓮

La covariance mesure la manière dont deux variables évoluent conjointement. Une valeur positive indique qu'une augmentation de l'une tend à s'accompagner d'une augmentation de l'autre, tandis qu'une valeur négative suggère une relation inverse. Toutefois, la covariance est sensible à l'échelle des données, ce qui la rend difficile à comparer entre différentes variables ou ensembles de données.

𝓒𝓸𝓻𝓻é𝓵𝓪𝓽𝓲𝓸𝓷

La corrélation standardise la covariance en la divisant par le produit des écarts-types, ce qui contraint ses valeurs à se situer entre -1 et 1. Cette standardisation facilite son interprétation et sa comparaison entre variables. La corrélation est largement utilisée pour la sélection de variables, la détection de la multicolinéarité et l'évaluation des relations dans les modèles statistiques.

L'image ci-dessous illustre différents types de relations entre variables :

𝔼𝕟 𝕙𝕒𝕦𝕥 à 𝕘𝕒𝕦𝕔𝕙𝕖 : forte corrélation positive (les deux variables augmentent ensemble).
𝔼𝕟 𝕙𝕒𝕦𝕥 à 𝕕𝕣𝕠𝕚𝕥𝕖 : forte corrélation négative (lorsqu'une variable diminue, l'autre augmente).
𝔼𝕟 𝕓𝕒𝕤 à 𝕘𝕒𝕦𝕔𝕙𝕖 : corrélation faible, indiquant une relation peu marquée.
𝔼𝕟 𝕓𝕒𝕤 à 𝕕𝕣𝕠𝕚𝕥𝕖 : relation non linéaire, où la corrélation linéaire ne parvient pas à saisir la structure de dépendance.

________________________________________

🔹 𝓔𝓷 𝓡 :

cov() calcule la covariance,
cor() calcule la corrélation,
Pour une estimation robuste, cov.rob() (du package MASS) stabilise la covariance, et cor(method = "spearman") permet d'obtenir une corrélation basée sur les rangs.

🔹 𝓔𝓷 𝓟𝔂𝓽𝓱𝓸𝓷 :

numpy.cov() calcule la covariance,
numpy.corrcoef() calcule la corrélation,
pandas.DataFrame.corr() est efficace pour de grands ensembles de données, et
scipy.stats.spearmanr() ou sklearn.feature_selection.mutual_info_regression() permettent d'appréhender les relations non linéaires.

________________________________________

Vous souhaitez en savoir plus sur les statistiques, la science des données, SPSS, STATA, R et Python ?

Inscrivez-vous dès maintenant pour réserver votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 𝗤𝘂𝗮𝗻𝘁𝗶𝘁𝗮𝘁𝗶𝘃𝗲𝘀

________________________________________

#dataanalytics #rprogramming #analytics #advancedanalytics #pythonfordatascience #database

Rechercher dans ce blog

Statistical Models for Social Sciences

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

comment exporter les résultats des estimations de STATA vers word, Excel...

panel ARDL in STATA