𝑨𝒏𝒂𝒍𝒚𝒔𝒆 𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝑫𝒐𝒏𝒏𝒆́𝒆𝒔 : 𝒍𝒂 𝒃𝒂𝒔𝒆 𝒅’𝒖𝒏𝒆 𝒃𝒐𝒏𝒏𝒆 𝒂𝒏𝒂𝒍𝒚𝒔𝒆
Avant de construire un modèle statistique, économétrique ou de machine learning, il y a une étape que l’on ne devrait jamais négliger : 𝒍’𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒆𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔, aussi appelée 𝑬𝑫𝑨. L’EDA permet de 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆, 𝒏𝒆𝒕𝒕𝒐𝒚𝒆𝒓, 𝒗𝒊𝒔𝒖𝒂𝒍𝒊𝒔𝒆𝒓 et 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒆𝒓 les données avant toute modélisation. Voici ce qu’elle aide à faire concrètement : 𝑹𝒆́𝒔𝒖𝒎𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 Avec les statistiques descriptives comme la moyenne, l’écart-type, l’asymétrie ou encore l’aplatissement. 𝑫𝒆́𝒕𝒆𝒄𝒕𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒂𝒃𝒆𝒓𝒓𝒂𝒏𝒕𝒆𝒔 Les histogrammes, boxplots et courbes de densité permettent de repérer les anomalies dans les données. 𝑪𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒍𝒂 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 On observe si une variable suit une distribution symétrique, asymétrique, dispersée ou concentrée. 𝑮𝒆́𝒓𝒆𝒓 𝒍𝒆 𝒏𝒆𝒕𝒕𝒐𝒚𝒂𝒈𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 Valeurs manquantes, doublons, types de variables, encodage… tou...