๐‘ฌ๐’™๐’‘๐’๐’๐’“๐’‚๐’•๐’๐’“๐’š ๐‘ซ๐’‚๐’•๐’‚ ๐‘จ๐’๐’‚๐’๐’š๐’”๐’Š๐’” : ๐’’๐’†́๐’•๐’‚๐’‘๐’† ๐’‚̀ ๐’๐’† ๐’‹๐’‚๐’Ž๐’‚๐’Š๐’” ๐’”๐’‚๐’–๐’•๐’†๐’“ ๐’‚๐’—๐’‚๐’๐’• ๐’…๐’† ๐’Ž๐’๐’…๐’†́๐’๐’Š๐’”๐’†๐’“

Avant de lancer une rรฉgression, un algorithme de Machine Learning ou un modรจle รฉconomรฉtrique, il faut d’abord comprendre les donnรฉes.

C’est exactement le rรดle de l’๐‘ฌ๐’™๐’‘๐’๐’๐’“๐’‚๐’•๐’๐’“๐’š ๐‘ซ๐’‚๐’•๐’‚ ๐‘จ๐’๐’‚๐’๐’š๐’”๐’Š๐’”, souvent appelรฉe ๐‘ฌ๐‘ซ๐‘จ.

L’EDA permet de rรฉpondre ร  des questions essentielles :

๐‘ธ๐’–๐’†๐’๐’๐’† ๐’†๐’”๐’• ๐’๐’‚ ๐’”๐’•๐’“๐’–๐’„๐’•๐’–๐’“๐’† ๐’…๐’†๐’” ๐’…๐’๐’๐’๐’†́๐’†๐’” ?

Nombre d’observations, nombre de variables, types de donnรฉes, format des colonnes.

๐’€ ๐’‚-๐’•-๐’Š๐’ ๐’…๐’†๐’” ๐’—๐’‚๐’๐’†๐’–๐’“๐’” ๐’Ž๐’‚๐’๐’’๐’–๐’‚๐’๐’•๐’†๐’” ?

Les donnรฉes absentes peuvent fausser les rรฉsultats si elles ne sont pas identifiรฉes et traitรฉes correctement.

๐‘ธ๐’–๐’† ๐’…๐’Š๐’”๐’†๐’๐’• ๐’๐’†๐’” ๐’”๐’•๐’‚๐’•๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†๐’” ๐’…๐’†๐’”๐’„๐’“๐’Š๐’‘๐’•๐’Š๐’—๐’†๐’” ?

La moyenne, la mรฉdiane, l’รฉcart-type, le minimum et le maximum donnent une premiรจre lecture du comportement des variables.

๐‘ธ๐’–๐’†๐’๐’๐’† ๐’†๐’”๐’• ๐’๐’‚ ๐’…๐’Š๐’”๐’•๐’“๐’Š๐’ƒ๐’–๐’•๐’Š๐’๐’ ๐’…๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’” ?

Les histogrammes et les boxplots permettent de visualiser la dispersion, l’asymรฉtrie et les valeurs extrรชmes.

๐‘ณ๐’†๐’” ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’†๐’” ๐’”๐’๐’๐’•-๐’†๐’๐’๐’†๐’” ๐’๐’Š๐’†́๐’†๐’” ๐’†๐’๐’•๐’“๐’† ๐’†๐’๐’๐’†๐’” ?

Les nuages de points, les tableaux croisรฉs et les matrices de corrรฉlation aident ร  repรฉrer les relations importantes.

๐’€ ๐’‚-๐’•-๐’Š๐’ ๐’…๐’†๐’” ๐’‚๐’๐’๐’Ž๐’‚๐’๐’Š๐’†๐’” ?

Les valeurs aberrantes peuvent rรฉvรฉler des erreurs, mais aussi des informations trรจs importantes.

En rรฉalitรฉ, l’๐‘ฌ๐‘ซ๐‘จ n’est pas une simple รฉtape technique.

C’est une phase de dรฉcouverte, de diagnostic et de rรฉflexion.

Un bon analyste ne modรฉlise pas immรฉdiatement.

Il observe, il vรฉrifie, il compare, il visualise et il questionne les donnรฉes.

๐‘จ̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“ :

Une bonne modรฉlisation commence toujours par une bonne exploration des donnรฉes.

Sans EDA, on risque de construire un modรจle รฉlรฉgant… sur des donnรฉes mal comprises.

Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ https://forms.gle/yZAZimRXbTFbUWZk6



#DataAnalysis

#Statistiques

#ExploratoryDataAnalysis

#DataScience

#Econometrie

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique