๐ ๐๐ฎ๐๐ฎ ๐๐ป๐ฎ๐น๐๐๐ : ๐ฒ ๐ฐ๐ผ๐ป๐ฐ๐ฒ๐ฝ๐๐ ๐๐๐ฎ๐๐ถ๐๐๐ถ๐พ๐๐ฒ๐ ๐ฎ̀ ๐บ๐ฎ๐ถ̂๐๐ฟ๐ถ๐๐ฒ๐ฟ ๐ฝ๐ผ๐๐ฟ ๐บ๐ถ๐ฒ๐๐ ๐ฎ๐ป๐ฎ๐น๐๐๐ฒ๐ฟ ๐น๐ฒ๐ ๐ฑ๐ผ๐ป๐ป๐ฒ́๐ฒ๐ ๐
La statistique est l’un des fondements les plus importants de l’๐ฎ๐ป๐ฎ๐น๐๐๐ฒ ๐ฑ๐ฒ ๐ฑ๐ผ๐ป๐ป๐ฒ́๐ฒ๐.
Un bon Data Analyst ne se
contente pas de produire des tableaux, des graphiques ou des dashboards.
Il doit surtout savoir ๐ฟ๐ฒ́๐๐๐บ๐ฒ๐ฟ, ๐ฐ๐ผ๐บ๐ฝ๐ฎ๐ฟ๐ฒ๐ฟ, ๐๐ฒ๐๐๐ฒ๐ฟ, ๐บ๐ผ๐ฑ๐ฒ́๐น๐ถ๐๐ฒ๐ฟ ๐ฒ๐ ๐ถ๐ป๐๐ฒ๐ฟ๐ฝ๐ฟ๐ฒ́๐๐ฒ๐ฟ correctement les donnรฉes.
Voici ๐ฒ ๐ฐ๐ผ๐ป๐ฐ๐ฒ๐ฝ๐๐ ๐๐๐ฎ๐๐ถ๐๐๐ถ๐พ๐๐ฒ๐ essentiels ร maรฎtriser ๐
๐ญ. ๐ฆ๐๐ฎ๐๐ถ๐๐๐ถ๐พ๐๐ฒ๐ ๐ฑ๐ฒ๐๐ฐ๐ฟ๐ถ๐ฝ๐๐ถ๐๐ฒ๐
Elles permettent de rรฉsumer les
donnรฉes ร travers des indicateurs simples comme :
• la ๐บ๐ผ๐๐ฒ๐ป๐ป๐ฒ ;
• la ๐บ๐ฒ́๐ฑ๐ถ๐ฎ๐ป๐ฒ ;
• le ๐บ๐ผ๐ฑ๐ฒ ;
• la ๐๐ฎ๐ฟ๐ถ๐ฎ๐ป๐ฐ๐ฒ ;
• l’๐ฒ́๐ฐ๐ฎ๐ฟ๐-๐๐๐ฝ๐ฒ.
C’est la premiรจre รฉtape pour
comprendre la structure d’un jeu de donnรฉes.
๐ฎ. ๐ฃ๐ฟ๐ผ๐ฏ๐ฎ๐ฏ๐ถ๐น๐ถ๐๐ฒ́๐
Les probabilitรฉs aident ร
analyser l’incertitude.
Elles permettent de comprendre
les ๐ฒ́๐๐ฒ́๐ป๐ฒ๐บ๐ฒ๐ป๐๐ ๐ถ๐ป๐ฑ๐ฒ́๐ฝ๐ฒ๐ป๐ฑ๐ฎ๐ป๐๐, les ๐ฒ́๐๐ฒ́๐ป๐ฒ๐บ๐ฒ๐ป๐๐ ๐ฑ๐ฒ́๐ฝ๐ฒ๐ป๐ฑ๐ฎ๐ป๐๐ et les principales distributions comme la
๐น๐ผ๐ถ ๐ป๐ผ๐ฟ๐บ๐ฎ๐น๐ฒ, la ๐น๐ผ๐ถ ๐ฏ๐ถ๐ป๐ผ๐บ๐ถ๐ฎ๐น๐ฒ ou la ๐น๐ผ๐ถ ๐ฑ๐ฒ ๐ฃ๐ผ๐ถ๐๐๐ผ๐ป.
Sans probabilitรฉs, il devient
difficile de raisonner correctement face au hasard.
๐ฏ. ๐ฆ๐๐ฎ๐๐ถ๐๐๐ถ๐พ๐๐ฒ๐ ๐ถ๐ป๐ณ๐ฒ́๐ฟ๐ฒ๐ป๐๐ถ๐ฒ๐น๐น๐ฒ๐
Elles permettent de tirer des
conclusions sur une population ร partir d’un รฉchantillon.
On y retrouve notamment :
• les ๐๐ฒ๐๐๐ ๐ฑ’๐ต๐๐ฝ๐ผ๐๐ต๐ฒ̀๐๐ฒ ;
• les ๐ถ๐ป๐๐ฒ๐ฟ๐๐ฎ๐น๐น๐ฒ๐ ๐ฑ๐ฒ ๐ฐ๐ผ๐ป๐ณ๐ถ๐ฎ๐ป๐ฐ๐ฒ ;
• les ๐ฝ-๐๐ฎ๐น๐๐ฒ๐ ;
• les marges d’erreur.
C’est indispensable pour passer
de la simple description ร une analyse plus rigoureuse.
๐ฐ. ๐๐ผ๐ฟ๐ฟ๐ฒ́๐น๐ฎ๐๐ถ๐ผ๐ป ๐๐ ๐๐ฎ๐๐๐ฎ๐น๐ถ๐๐ฒ́
Deux variables peuvent รฉvoluer
ensemble sans que l’une soit la cause de l’autre.
C’est pourquoi il faut toujours
faire attention aux ๐ฐ๐ผ๐ฟ๐ฟ๐ฒ́๐น๐ฎ๐๐ถ๐ผ๐ป๐ ๐ณ๐ฎ๐น๐น๐ฎ๐ฐ๐ถ๐ฒ๐๐๐ฒ๐.
Une corrรฉlation peut suggรฉrer une
relation, mais elle ne prouve pas automatiquement une causalitรฉ.
๐ฑ. ๐๐ป๐ฎ๐น๐๐๐ฒ ๐ฑ๐ฒ ๐ฟ๐ฒ́๐ด๐ฟ๐ฒ๐๐๐ถ๐ผ๐ป
La rรฉgression permet d’expliquer
ou de prรฉdire une variable ร partir d’une ou plusieurs autres variables.
Elle peut รชtre :
• ๐๐ถ๐บ๐ฝ๐น๐ฒ, lorsqu’il y a une seule variable
explicative ;
• ๐บ๐๐น๐๐ถ๐ฝ๐น๐ฒ, lorsqu’il y a plusieurs variables
explicatives.
C’est l’un des outils les plus
utilisรฉs en data analysis, รฉconomรฉtrie et machine learning.
๐ฒ. ๐๐ถ๐๐๐ฟ๐ถ๐ฏ๐๐๐ถ๐ผ๐ป๐ ๐ฑ๐ฒ ๐ฑ๐ผ๐ป๐ป๐ฒ́๐ฒ๐
Comprendre la distribution des
donnรฉes permet de choisir les bons outils d’analyse.
Une variable peut รชtre :
• ๐ป๐ผ๐ฟ๐บ๐ฎ๐น๐ฒ ;
• ๐ฎ๐๐๐บ๐ฒ́๐๐ฟ๐ถ๐พ๐๐ฒ ;
• ๐ฑ๐ถ๐๐ฐ๐ฟ๐ฒ̀๐๐ฒ ;
• ๐ฐ๐ผ๐ป๐๐ถ๐ป๐๐ฒ ;
• ๐ฐ๐ฎ๐๐ฒ́๐ด๐ผ๐ฟ๐ถ๐ฒ๐น๐น๐ฒ.
Analyser la forme d’une
distribution aide ร รฉviter les mauvaises interprรฉtations.
๐ ๐̀ ๐ฟ๐ฒ๐๐ฒ๐ป๐ถ๐ฟ
Maรฎtriser ces 6 notions permet de
mieux comprendre les donnรฉes, de choisir les bonnes mรฉthodes, d’รฉviter les
erreurs d’interprรฉtation et de prendre de meilleures dรฉcisions.
En data analysis, les outils sont
importants.
Mais la vraie valeur vient de la
capacitรฉ ร ๐ฟ๐ฎ๐ถ๐๐ผ๐ป๐ป๐ฒ๐ฟ ๐๐๐ฎ๐๐ถ๐๐๐ถ๐พ๐๐ฒ๐บ๐ฒ๐ป๐.
Si cette publication vous a รฉtรฉ
utile, pensez ร ๐น๐ถ๐ธ๐ฒ๐ฟ, ๐ฝ๐ฎ๐ฟ๐๐ฎ๐ด๐ฒ๐ฟ et ๐๐ผ๐๐ ๐ฎ๐ฏ๐ผ๐ป๐ป๐ฒ๐ฟ ร la page.
Pour mieux apprendre
l’utilisation des logiciels et modรจles statistiques, prenez part ร notre
prochaine formation en ๐́๐ฐ๐ผ๐ป๐ผ๐บ๐ฒ́๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐ ๐ค๐๐ฎ๐ป๐๐ถ๐๐ฎ๐๐ถ๐๐ฒ๐ https://forms.gle/yZAZimRXbTFbUWZk6
#DataAnalysis #Statistiques #DataScience #MachineLearning #BigData

Commentaires
Enregistrer un commentaire