๐‘จ๐’๐’‚๐’๐’š๐’”๐’† ๐‘ฌ๐’™๐’‘๐’๐’๐’“๐’‚๐’•๐’๐’Š๐’“๐’† ๐’…๐’†๐’” ๐‘ซ๐’๐’๐’๐’†́๐’†๐’” : ๐’๐’‚ ๐’ƒ๐’‚๐’”๐’† ๐’…’๐’–๐’๐’† ๐’ƒ๐’๐’๐’๐’† ๐’‚๐’๐’‚๐’๐’š๐’”๐’†

Avant de construire un modรจle statistique, รฉconomรฉtrique ou de machine learning, il y a une รฉtape que l’on ne devrait jamais nรฉgliger : ๐’’๐’‚๐’๐’‚๐’๐’š๐’”๐’† ๐’†๐’™๐’‘๐’๐’๐’“๐’‚๐’•๐’๐’Š๐’“๐’† ๐’…๐’†๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’”, aussi appelรฉe ๐‘ฌ๐‘ซ๐‘จ.

L’EDA permet de ๐’„๐’๐’Ž๐’‘๐’“๐’†๐’๐’…๐’“๐’†, ๐’๐’†๐’•๐’•๐’๐’š๐’†๐’“, ๐’—๐’Š๐’”๐’–๐’‚๐’๐’Š๐’”๐’†๐’“ et ๐’Š๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’†๐’“ les donnรฉes avant toute modรฉlisation.

Voici ce qu’elle aide ร  faire concrรจtement :

๐‘น๐’†́๐’”๐’–๐’Ž๐’†๐’“ ๐’๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’”

Avec les statistiques descriptives comme la moyenne, l’รฉcart-type, l’asymรฉtrie ou encore l’aplatissement.

๐‘ซ๐’†́๐’•๐’†๐’„๐’•๐’†๐’“ ๐’๐’†๐’” ๐’—๐’‚๐’๐’†๐’–๐’“๐’” ๐’‚๐’ƒ๐’†๐’“๐’“๐’‚๐’๐’•๐’†๐’”

Les histogrammes, boxplots et courbes de densitรฉ permettent de repรฉrer les anomalies dans les donnรฉes.

๐‘ช๐’๐’Ž๐’‘๐’“๐’†๐’๐’…๐’“๐’† ๐’๐’‚ ๐’…๐’Š๐’”๐’•๐’“๐’Š๐’ƒ๐’–๐’•๐’Š๐’๐’

On observe si une variable suit une distribution symรฉtrique, asymรฉtrique, dispersรฉe ou concentrรฉe.

๐‘ฎ๐’†́๐’“๐’†๐’“ ๐’๐’† ๐’๐’†๐’•๐’•๐’๐’š๐’‚๐’ˆ๐’† ๐’…๐’†๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’”

Valeurs manquantes, doublons, types de variables, encodage… tout cela influence la qualitรฉ de l’analyse.

๐‘ฌ๐’™๐’‚๐’Ž๐’Š๐’๐’†๐’“ ๐’๐’†๐’” ๐’“๐’†๐’๐’‚๐’•๐’Š๐’๐’๐’” ๐’†๐’๐’•๐’“๐’† ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’”

Les nuages de points, matrices de corrรฉlation et analyses bi- ou multivariรฉes aident ร  mieux comprendre les liens entre variables.

๐‘ท๐’“๐’†́๐’‘๐’‚๐’“๐’†๐’“ ๐’๐’‚ ๐’”๐’–๐’Š๐’•๐’† ๐’…๐’† ๐’’๐’‚๐’๐’‚๐’๐’š๐’”๐’†

L’EDA oriente les choix mรฉthodologiques : tests statistiques, modรฉlisation, crรฉation de variables, vรฉrification des hypothรจses.

๐‘ฌ๐’ ๐’“๐’†́๐’‚๐’๐’Š๐’•๐’†́, ๐’–๐’๐’† ๐’ƒ๐’๐’๐’๐’† ๐’Ž๐’๐’…๐’†́๐’๐’Š๐’”๐’‚๐’•๐’Š๐’๐’ ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’„๐’† ๐’•๐’๐’–๐’‹๐’๐’–๐’“๐’” ๐’‘๐’‚๐’“ ๐’–๐’๐’† ๐’ƒ๐’๐’๐’๐’† ๐’†๐’™๐’‘๐’๐’๐’“๐’‚๐’•๐’Š๐’๐’ ๐’…๐’†๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’”.

Beaucoup veulent aller vite vers les modรจles sophistiquรฉs.

Mais sans une exploration rigoureuse, mรชme le meilleur modรจle peut conduire ร  de mauvaises conclusions.

๐‘จ̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“ :

๐‘ณ’๐‘ฌ๐‘ซ๐‘จ ๐’’๐’†๐’”๐’• ๐’‘๐’‚๐’” ๐’–๐’๐’† ๐’†́๐’•๐’‚๐’‘๐’† ๐’”๐’†๐’„๐’๐’๐’…๐’‚๐’Š๐’“๐’†.

๐‘ช’๐’†๐’”๐’• ๐’๐’† ๐’—๐’“๐’‚๐’Š ๐’‘๐’๐’Š๐’๐’• ๐’…๐’† ๐’…๐’†́๐’‘๐’‚๐’“๐’• ๐’…’๐’–๐’๐’† ๐’‚๐’๐’‚๐’๐’š๐’”๐’† ๐’‡๐’Š๐’‚๐’ƒ๐’๐’† ๐’†๐’• ๐’‘๐’†๐’“๐’•๐’Š๐’๐’†๐’๐’•๐’†.

Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ https://forms.gle/yZAZimRXbTFbUWZk6




#Statistiques

#DataAnalysis

#DataScience

#EDA

#AnalyseDeDonnรฉes

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique