๐จ๐๐๐๐๐๐ ๐ฌ๐๐๐๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ซ๐๐๐๐́๐๐ : ๐๐ ๐๐๐๐ ๐ ’๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐
Avant de construire un modรจle statistique, รฉconomรฉtrique ou de machine learning, il y a une รฉtape que l’on ne devrait jamais nรฉgliger : ๐’๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ ๐๐๐๐́๐๐, aussi appelรฉe ๐ฌ๐ซ๐จ.
L’EDA permet de ๐๐๐๐๐๐๐๐ ๐๐, ๐๐๐๐๐๐๐๐, ๐๐๐๐๐๐๐๐๐๐ et ๐๐๐๐๐๐๐๐́๐๐๐ les donnรฉes avant toute modรฉlisation.
Voici ce qu’elle aide ร faire concrรจtement :
๐น๐́๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐
Avec les statistiques descriptives comme la moyenne, l’รฉcart-type, l’asymรฉtrie ou encore l’aplatissement.
๐ซ๐́๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐
Les histogrammes, boxplots et courbes de densitรฉ permettent de repรฉrer les anomalies dans les donnรฉes.
๐ช๐๐๐๐๐๐๐ ๐๐ ๐๐ ๐ ๐๐๐๐๐๐๐๐๐๐๐
On observe si une variable suit une distribution symรฉtrique, asymรฉtrique, dispersรฉe ou concentrรฉe.
๐ฎ๐́๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ ๐๐๐๐́๐๐
Valeurs manquantes, doublons, types de variables, encodage… tout cela influence la qualitรฉ de l’analyse.
๐ฌ๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐
Les nuages de points, matrices de corrรฉlation et analyses bi- ou multivariรฉes aident ร mieux comprendre les liens entre variables.
๐ท๐๐́๐๐๐๐๐ ๐๐ ๐๐๐๐๐ ๐ ๐ ๐’๐๐๐๐๐๐๐
L’EDA oriente les choix mรฉthodologiques : tests statistiques, modรฉlisation, crรฉation de variables, vรฉrification des hypothรจses.
๐ฌ๐ ๐๐́๐๐๐๐๐́, ๐๐๐ ๐๐๐๐๐ ๐๐๐ ๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ ๐๐๐๐́๐๐.
Beaucoup veulent aller vite vers les modรจles sophistiquรฉs.
Mais sans une exploration rigoureuse, mรชme le meilleur modรจle peut conduire ร de mauvaises conclusions.
๐จ̀ ๐๐๐๐๐๐๐ :
๐ณ’๐ฌ๐ซ๐จ ๐’๐๐๐ ๐๐๐ ๐๐๐ ๐́๐๐๐๐ ๐๐๐๐๐๐ ๐๐๐๐.
๐ช’๐๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐ ๐ ๐ ๐́๐๐๐๐ ๐ ’๐๐๐ ๐๐๐๐๐๐๐ ๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐.
Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร๐ฐ๐ผ๐ป๐ผ๐บรฉ๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐ https://forms.gle/yZAZimRXbTFbUWZk6
#Statistiques
#DataAnalysis
#DataScience
#EDA
#AnalyseDeDonnรฉes

Commentaires
Enregistrer un commentaire