Articles

𝑨𝒏𝒂𝒍𝒚𝒔𝒆 𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝑫𝒐𝒏𝒏𝒆́𝒆𝒔 : 𝒍𝒂 𝒃𝒂𝒔𝒆 𝒅’𝒖𝒏𝒆 𝒃𝒐𝒏𝒏𝒆 𝒂𝒏𝒂𝒍𝒚𝒔𝒆

Image
Avant de construire un modèle statistique, économétrique ou de machine learning, il y a une étape que l’on ne devrait jamais négliger : 𝒍’𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒆𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔, aussi appelée 𝑬𝑫𝑨. L’EDA permet de 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆, 𝒏𝒆𝒕𝒕𝒐𝒚𝒆𝒓, 𝒗𝒊𝒔𝒖𝒂𝒍𝒊𝒔𝒆𝒓 et 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒆𝒓 les données avant toute modélisation. Voici ce qu’elle aide à faire concrètement : 𝑹𝒆́𝒔𝒖𝒎𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 Avec les statistiques descriptives comme la moyenne, l’écart-type, l’asymétrie ou encore l’aplatissement. 𝑫𝒆́𝒕𝒆𝒄𝒕𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒂𝒃𝒆𝒓𝒓𝒂𝒏𝒕𝒆𝒔 Les histogrammes, boxplots et courbes de densité permettent de repérer les anomalies dans les données. 𝑪𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒍𝒂 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 On observe si une variable suit une distribution symétrique, asymétrique, dispersée ou concentrée. 𝑮𝒆́𝒓𝒆𝒓 𝒍𝒆 𝒏𝒆𝒕𝒕𝒐𝒚𝒂𝒈𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 Valeurs manquantes, doublons, types de variables, encodage… tou...

𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒓𝒚 𝑫𝒂𝒕𝒂 𝑨𝒏𝒂𝒍𝒚𝒔𝒊𝒔 : 𝒍’𝒆́𝒕𝒂𝒑𝒆 𝒂̀ 𝒏𝒆 𝒋𝒂𝒎𝒂𝒊𝒔 𝒔𝒂𝒖𝒕𝒆𝒓 𝒂𝒗𝒂𝒏𝒕 𝒅𝒆 𝒎𝒐𝒅𝒆́𝒍𝒊𝒔𝒆𝒓

Image
Avant de lancer une régression, un algorithme de Machine Learning ou un modèle économétrique, il faut d’abord comprendre les données. C’est exactement le rôle de l’𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒓𝒚 𝑫𝒂𝒕𝒂 𝑨𝒏𝒂𝒍𝒚𝒔𝒊𝒔, souvent appelée 𝑬𝑫𝑨. L’EDA permet de répondre à des questions essentielles : 𝑸𝒖𝒆𝒍𝒍𝒆 𝒆𝒔𝒕 𝒍𝒂 𝒔𝒕𝒓𝒖𝒄𝒕𝒖𝒓𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 ? Nombre d’observations, nombre de variables, types de données, format des colonnes. 𝒀 𝒂-𝒕-𝒊𝒍 𝒅𝒆𝒔 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒎𝒂𝒏𝒒𝒖𝒂𝒏𝒕𝒆𝒔 ? Les données absentes peuvent fausser les résultats si elles ne sont pas identifiées et traitées correctement. 𝑸𝒖𝒆 𝒅𝒊𝒔𝒆𝒏𝒕 𝒍𝒆𝒔 𝒔𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆𝒔 𝒅𝒆𝒔𝒄𝒓𝒊𝒑𝒕𝒊𝒗𝒆𝒔 ? La moyenne, la médiane, l’écart-type, le minimum et le maximum donnent une première lecture du comportement des variables. 𝑸𝒖𝒆𝒍𝒍𝒆 𝒆𝒔𝒕 𝒍𝒂 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 𝒅𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 ? Les histogrammes et les boxplots permettent de visualiser la dispersion, l’asymétrie et les valeurs e...
Image
   𝑨𝒏𝒂𝒍𝒚𝒔𝒆 𝑴𝒖𝒍𝒕𝒊𝒗𝒂𝒓𝒊𝒆́𝒆 : 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒑𝒍𝒖𝒔𝒊𝒆𝒖𝒓𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒆𝒏 𝒎𝒆̂𝒎𝒆 𝒕𝒆𝒎𝒑𝒔  En analyse de données, il est rare qu’un phénomène soit expliqué par une seule variable. La réalité est souvent plus complexe : le rendement agricole dépend du sol, de l’eau, des engrais et du climat ; la santé dépend de l’âge, du mode de vie, de l’environnement et des antécédents ; la performance d’une entreprise dépend des ventes, des coûts, du capital humain et du marché. C’est là qu’intervient 𝒍’𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒎𝒖𝒍𝒕𝒊𝒗𝒂𝒓𝒊𝒆́𝒆. Elle regroupe un ensemble de méthodes statistiques permettant d’étudier 𝒑𝒍𝒖𝒔𝒊𝒆𝒖𝒓𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒔𝒊𝒎𝒖𝒍𝒕𝒂𝒏𝒆́𝒎𝒆𝒏𝒕 afin d’identifier des relations, des profils, des groupes, des ressemblances ou des différences entre les observations.  𝑷𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒍’𝒖𝒕𝒊𝒍𝒊𝒔𝒆𝒓 ? Parce qu’une seule variable ne suffit pas toujours pour comprendre un phénomène. L’analyse multivariée permet...