๐ฎ๐๐๐รฉ๐๐๐๐๐๐ ๐๐ ๐ฎ๐๐๐๐๐๐๐๐๐ : ๐ฎ๐๐๐๐๐๐๐๐ ๐๐ ๐ฏ๐๐๐รฉ๐๐๐๐๐ ๐๐๐๐ ๐๐๐ ๐ฌ๐๐๐๐๐๐๐ ๐ป๐๐๐ ๐ป๐๐๐๐๐๐๐๐๐๐ !
Mรชme si la corrรฉlation et la covariance figurent parmi les indicateurs statistiques les plus utilisรฉs, elles sont souvent mal comprises et employรฉes de maniรจre interchangeable. Dรฉmystifions leurs diffรฉrences !
๐๐ฃ ๐ก๐๐ ๐ ๐๐ฉ ๐ช๐ฃ ๐๐๐ง๐ฉ๐๐๐ de ce post avant
d'aller plus loin nous fera plaisir.
________________________________________
๐๐ธ๐ฟ๐ช๐ป๐ฒ๐ช๐ท๐ฌ๐ฎ
La
covariance mesure la maniรจre dont deux variables รฉvoluent conjointement. Une
valeur positive indique qu'une augmentation de l'une tend ร s'accompagner d'une
augmentation de l'autre, tandis qu'une valeur nรฉgative suggรจre une relation
inverse. Toutefois, la covariance est sensible ร l'รฉchelle des donnรฉes, ce qui
la rend difficile ร comparer entre diffรฉrentes variables ou ensembles de
donnรฉes.
๐๐ธ๐ป๐ปรฉ๐ต๐ช๐ฝ๐ฒ๐ธ๐ท
La
corrรฉlation standardise la covariance en la divisant par le produit des
รฉcarts-types, ce qui contraint ses valeurs ร se situer entre -1 et 1. Cette
standardisation facilite son interprรฉtation et sa comparaison entre variables.
La corrรฉlation est largement utilisรฉe pour la sรฉlection de variables, la
dรฉtection de la multicolinรฉaritรฉ et l'รฉvaluation des relations dans les modรจles
statistiques.
L'image
ci-dessous illustre diffรฉrents types de relations entre variables :
- ๐ผ๐ ๐๐๐ฆ๐ฅ ร ๐๐๐ฆ๐๐๐ : forte
corrรฉlation positive (les deux variables augmentent ensemble).
- ๐ผ๐ ๐๐๐ฆ๐ฅ ร ๐๐ฃ๐ ๐๐ฅ๐ : forte
corrรฉlation nรฉgative (lorsqu'une variable diminue, l'autre augmente).
- ๐ผ๐ ๐๐๐ค ร ๐๐๐ฆ๐๐๐ : corrรฉlation
faible, indiquant une relation peu marquรฉe.
- ๐ผ๐ ๐๐๐ค ร ๐๐ฃ๐ ๐๐ฅ๐ :
relation non linรฉaire, oรน la corrรฉlation linรฉaire ne parvient pas ร saisir
la structure de dรฉpendance.
________________________________________
๐น ๐๐ท ๐ก
:
- cov()
calcule la covariance,
- cor() calcule
la corrรฉlation,
- Pour
une estimation robuste, cov.rob() (du package MASS) stabilise la
covariance, et cor(method = "spearman") permet d'obtenir une
corrรฉlation basรฉe sur les rangs.
๐น ๐๐ท ๐๐๐ฝ๐ฑ๐ธ๐ท :
- numpy.cov()
calcule la covariance,
- numpy.corrcoef() calcule
la corrรฉlation,
- pandas.DataFrame.corr() est
efficace pour de grands ensembles de donnรฉes, et
- scipy.stats.spearmanr() ou sklearn.feature_selection.mutual_info_regression()
permettent d'apprรฉhender les relations non linรฉaires.
________________________________________
Vous souhaitez en savoir plus sur les statistiques, la
science des donnรฉes, SPSS, STATA, R et Python ?
Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร๐ฐ๐ผ๐ป๐ผ๐บรฉ๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐ ๐ค๐๐ฎ๐ป๐๐ถ๐๐ฎ๐๐ถ๐๐ฒ๐
________________________________________
#dataanalytics #rprogramming
#analytics #advancedanalytics #pythonfordatascience #database
.png)
Commentaires
Enregistrer un commentaire