๐•ฎ๐–”๐–—๐–—รฉ๐–‘๐–†๐–™๐–Ž๐–”๐–“ ๐–›๐–˜ ๐•ฎ๐–”๐–›๐–†๐–—๐–Ž๐–†๐–“๐–ˆ๐–Š : ๐•ฎ๐–‘๐–†๐–—๐–Ž๐–‹๐–Ž๐–Š๐–Ÿ ๐–‘๐–† ๐•ฏ๐–Ž๐–‹๐–‹รฉ๐–—๐–Š๐–“๐–ˆ๐–Š ๐–•๐–”๐–š๐–— ๐–‰๐–Š๐–˜ ๐•ฌ๐–“๐–†๐–‘๐–ž๐–˜๐–Š๐–˜ ๐•ป๐–‘๐–š๐–˜ ๐•ป๐–Š๐–—๐–™๐–Ž๐–“๐–Š๐–“๐–™๐–Š๐–˜ !

Mรชme si la corrรฉlation et la covariance figurent parmi les indicateurs statistiques les plus utilisรฉs, elles sont souvent mal comprises et employรฉes de maniรจre interchangeable. Dรฉmystifions leurs diffรฉrences !

๐™๐™ฃ ๐™ก๐™ž๐™ ๐™š ๐™š๐™ฉ ๐™ช๐™ฃ ๐™‹๐™–๐™ง๐™ฉ๐™–๐™œ๐™š de ce post avant d'aller plus loin nous fera plaisir.

________________________________________

๐“’๐“ธ๐“ฟ๐“ช๐“ป๐“ฒ๐“ช๐“ท๐“ฌ๐“ฎ

La covariance mesure la maniรจre dont deux variables รฉvoluent conjointement. Une valeur positive indique qu'une augmentation de l'une tend ร  s'accompagner d'une augmentation de l'autre, tandis qu'une valeur nรฉgative suggรจre une relation inverse. Toutefois, la covariance est sensible ร  l'รฉchelle des donnรฉes, ce qui la rend difficile ร  comparer entre diffรฉrentes variables ou ensembles de donnรฉes.

๐“’๐“ธ๐“ป๐“ปรฉ๐“ต๐“ช๐“ฝ๐“ฒ๐“ธ๐“ท

La corrรฉlation standardise la covariance en la divisant par le produit des รฉcarts-types, ce qui contraint ses valeurs ร  se situer entre -1 et 1. Cette standardisation facilite son interprรฉtation et sa comparaison entre variables. La corrรฉlation est largement utilisรฉe pour la sรฉlection de variables, la dรฉtection de la multicolinรฉaritรฉ et l'รฉvaluation des relations dans les modรจles statistiques.

L'image ci-dessous illustre diffรฉrents types de relations entre variables :

  • ๐”ผ๐•Ÿ ๐•™๐•’๐•ฆ๐•ฅ ร  ๐•˜๐•’๐•ฆ๐•”๐•™๐•– : forte corrรฉlation positive (les deux variables augmentent ensemble).
  • ๐”ผ๐•Ÿ ๐•™๐•’๐•ฆ๐•ฅ ร  ๐••๐•ฃ๐• ๐•š๐•ฅ๐•– : forte corrรฉlation nรฉgative (lorsqu'une variable diminue, l'autre augmente).
  • ๐”ผ๐•Ÿ ๐•“๐•’๐•ค ร  ๐•˜๐•’๐•ฆ๐•”๐•™๐•– : corrรฉlation faible, indiquant une relation peu marquรฉe.
  • ๐”ผ๐•Ÿ ๐•“๐•’๐•ค ร  ๐••๐•ฃ๐• ๐•š๐•ฅ๐•– : relation non linรฉaire, oรน la corrรฉlation linรฉaire ne parvient pas ร  saisir la structure de dรฉpendance.

________________________________________

๐Ÿ”น ๐“”๐“ท ๐“ก :

  • cov() calcule la covariance,
  • cor() calcule la corrรฉlation,
  • Pour une estimation robuste, cov.rob() (du package MASS) stabilise la covariance, et cor(method = "spearman") permet d'obtenir une corrรฉlation basรฉe sur les rangs.

๐Ÿ”น ๐“”๐“ท ๐“Ÿ๐”‚๐“ฝ๐“ฑ๐“ธ๐“ท :

  • numpy.cov() calcule la covariance,
  • numpy.corrcoef() calcule la corrรฉlation,
  • pandas.DataFrame.corr() est efficace pour de grands ensembles de donnรฉes, et
  • scipy.stats.spearmanr() ou sklearn.feature_selection.mutual_info_regression() permettent d'apprรฉhender les relations non linรฉaires.

________________________________________

๐ŸŽฏVous souhaitez en savoir plus sur les statistiques, la science des donnรฉes, SPSS, STATA, R et Python ?

Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ ๐—ค๐˜‚๐—ฎ๐—ป๐˜๐—ถ๐˜๐—ฎ๐˜๐—ถ๐˜ƒ๐—ฒ๐˜€

________________________________________



#dataanalytics #rprogramming #analytics #advancedanalytics #pythonfordatascience #database

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique