Articles

📊 𝗧𝗥𝗔𝗡𝗦𝗙𝗢𝗥𝗠𝗔𝗧𝗜𝗢𝗡𝗦 𝗗𝗘𝗦 𝗗𝗢𝗡𝗡𝗘́𝗘𝗦 𝗘𝗡 𝗘́𝗖𝗢𝗡𝗢𝗠𝗘́𝗧𝗥𝗜𝗘 : 𝗨𝗡𝗘 𝗘́𝗧𝗔𝗣𝗘 𝗤𝗨𝗜 𝗣𝗘𝗨𝗧 𝗖𝗛𝗔𝗡𝗚𝗘𝗥 𝗧𝗢𝗨𝗧

Image
En économétrie, la qualité d’un modèle ne dépend pas seulement du choix des variables ou de la méthode d’estimation. Elle dépend aussi de la manière dont les données sont préparées avant l’analyse. 𝗨𝗻𝗲 𝗺𝗮𝘂𝘃𝗮𝗶𝘀𝗲 𝘁𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 peut conduire à des résultats biaisés, instables ou difficiles à interpréter. 𝗨𝗻𝗲 𝗯𝗼𝗻𝗻𝗲 𝘁𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 permet au contraire d’améliorer la lisibilité, la stabilité et la pertinence empirique du modèle. 𝟭. 𝗟𝗮 𝘁𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗹𝗼𝗴𝗮𝗿𝗶𝘁𝗵𝗺𝗶𝗾𝘂𝗲 Elle est très utilisée lorsque les variables sont fortement asymétriques. Elle permet aussi d’interpréter certains coefficients en termes de pourcentage ou d’élasticité. Exemple : revenu, PIB, consommation, prix, salaires. 𝟮. 𝗟𝗮 𝗱𝗶𝗳𝗳𝗲́𝗿𝗲𝗻𝗰𝗶𝗮𝘁𝗶𝗼𝗻 Elle est souvent utilisée dans les séries temporelles pour réduire les tendances et rendre les variables plus stationnaires. Exemple : transformer un niveau de PIB en variation du PIB. 𝟯. 𝗟...

📊 𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒍𝒆 𝒅𝒆 𝑪𝒐𝒏𝒇𝒊𝒂𝒏𝒄𝒆 𝒗𝒔 𝑬𝒔𝒕𝒊𝒎𝒂𝒕𝒊𝒐𝒏 𝑷𝒐𝒏𝒄𝒕𝒖𝒆𝒍𝒍𝒆 : 𝒅𝒆𝒖𝒙 𝒏𝒐𝒕𝒊𝒐𝒏𝒔 𝒂̀ 𝒏𝒆 𝒑𝒂𝒔 𝒄𝒐𝒏𝒇𝒐𝒏𝒅𝒓𝒆

Image
En statistique, lorsqu’on travaille avec un échantillon, on cherche souvent à estimer une réalité plus large : 𝒍𝒂 𝒑𝒐𝒑𝒖𝒍𝒂𝒕𝒊𝒐𝒏. Mais attention : il existe une grande différence entre donner 𝒖𝒏𝒆 𝒔𝒆𝒖𝒍𝒆 𝒗𝒂𝒍𝒆𝒖𝒓 et donner 𝒖𝒏𝒆 𝒑𝒍𝒂𝒈𝒆 𝒅𝒆 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒑𝒍𝒂𝒖𝒔𝒊𝒃𝒍𝒆𝒔. 𝑳’𝒆𝒔𝒕𝒊𝒎𝒂𝒕𝒊𝒐𝒏 𝒑𝒐𝒏𝒄𝒕𝒖𝒆𝒍𝒍𝒆 donne une seule valeur, par exemple la moyenne observée dans l’échantillon. Elle répond à la question : 𝑸𝒖𝒆𝒍𝒍𝒆 𝒆𝒔𝒕 𝒍𝒂 𝒎𝒆𝒊𝒍𝒍𝒆𝒖𝒓𝒆 𝒗𝒂𝒍𝒆𝒖𝒓 𝒆𝒔𝒕𝒊𝒎𝒆́𝒆 ? Exemple : Si la moyenne d’un échantillon est de 15, alors 15 est l’estimation ponctuelle de la moyenne de la population. 𝑳’𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒍𝒆 𝒅𝒆 𝒄𝒐𝒏𝒇𝒊𝒂𝒏𝒄𝒆, lui, va plus loin. Il donne une fourchette dans laquelle la vraie valeur de la population a de fortes chances de se trouver. Il répond à la question : 𝑫𝒂𝒏𝒔 𝒒𝒖𝒆𝒍𝒍𝒆 𝒑𝒍𝒂𝒈𝒆 𝒅𝒆 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒍𝒂 𝒗𝒓𝒂𝒊𝒆 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 𝒑𝒆𝒖𝒕-𝒆𝒍𝒍𝒆 𝒔𝒆 𝒔𝒊𝒕𝒖𝒆𝒓 ? Exemple : Dire que la moyenn...

📊 𝑻-𝑻𝒆𝒔𝒕 𝒂𝒗𝒆𝒄 𝑷𝒚𝒕𝒉𝒐𝒏 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒄𝒐𝒎𝒑𝒂𝒓𝒆𝒓 𝒅𝒆𝒖𝒙 𝒎𝒐𝒚𝒆𝒏𝒏𝒆𝒔 ? 📉🐍

Image
En analyse de données, il ne suffit pas toujours d’observer que deux groupes ont des moyennes différentes. La vraie question est la suivante : 𝑪𝒆𝒕𝒕𝒆 𝒅𝒊𝒇𝒇𝒆́𝒓𝒆𝒏𝒄𝒆 𝒆𝒔𝒕-𝒆𝒍𝒍𝒆 𝒔𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆𝒎𝒆𝒏𝒕 𝒔𝒊𝒈𝒏𝒊𝒇𝒊𝒄𝒂𝒕𝒊𝒗𝒆 𝒐𝒖 𝒔𝒊𝒎𝒑𝒍𝒆𝒎𝒆𝒏𝒕 𝒅𝒖𝒆 𝒂𝒖 𝒉𝒂𝒔𝒂𝒓𝒅 ? C’est précisément le rôle du 𝒕-𝒕𝒆𝒔𝒕. Le 𝒕-𝒕𝒆𝒔𝒕 permet de comparer des moyennes dans plusieurs situations : deux groupes indépendants ; une situation avant/après ; une moyenne observée par rapport à une valeur théorique. Il est très utilisé en 𝒂𝒈𝒓𝒊𝒄𝒖𝒍𝒕𝒖𝒓𝒆, en 𝒔𝒂𝒏𝒕𝒆́, en 𝒃𝒖𝒔𝒊𝒏𝒆𝒔𝒔, en 𝒆́𝒅𝒖𝒄𝒂𝒕𝒊𝒐𝒏 et en 𝒔𝒄𝒊𝒆𝒏𝒄𝒆𝒔 𝒔𝒐𝒄𝒊𝒂𝒍𝒆𝒔. 𝟏. 𝑰𝒏𝒔𝒕𝒂𝒍𝒍𝒆𝒓 𝑺𝒄𝒊𝑷𝒚 Python pip install scipy 𝟐. 𝑰𝒎𝒑𝒐𝒓𝒕𝒆𝒓 𝒍𝒆𝒔 𝒍𝒊𝒃𝒓𝒂𝒊𝒓𝒊𝒆𝒔 Python import numpy as np from scipy import stats 𝟑. 𝑪𝒓𝒆́𝒆𝒓 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒅’𝒆𝒙𝒆𝒎𝒑𝒍𝒆 Exemple : comparaison de la hauteur des plantes sous deux traitements. Python group1 = np.array([...

𝑨𝒏𝒂𝒍𝒚𝒔𝒆 𝑬𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝑫𝒐𝒏𝒏𝒆́𝒆𝒔 : 𝒍𝒂 𝒃𝒂𝒔𝒆 𝒅’𝒖𝒏𝒆 𝒃𝒐𝒏𝒏𝒆 𝒂𝒏𝒂𝒍𝒚𝒔𝒆

Image
Avant de construire un modèle statistique, économétrique ou de machine learning, il y a une étape que l’on ne devrait jamais négliger : 𝒍’𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒆𝒙𝒑𝒍𝒐𝒓𝒂𝒕𝒐𝒊𝒓𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔, aussi appelée 𝑬𝑫𝑨. L’EDA permet de 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆, 𝒏𝒆𝒕𝒕𝒐𝒚𝒆𝒓, 𝒗𝒊𝒔𝒖𝒂𝒍𝒊𝒔𝒆𝒓 et 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒆𝒓 les données avant toute modélisation. Voici ce qu’elle aide à faire concrètement : 𝑹𝒆́𝒔𝒖𝒎𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 Avec les statistiques descriptives comme la moyenne, l’écart-type, l’asymétrie ou encore l’aplatissement. 𝑫𝒆́𝒕𝒆𝒄𝒕𝒆𝒓 𝒍𝒆𝒔 𝒗𝒂𝒍𝒆𝒖𝒓𝒔 𝒂𝒃𝒆𝒓𝒓𝒂𝒏𝒕𝒆𝒔 Les histogrammes, boxplots et courbes de densité permettent de repérer les anomalies dans les données. 𝑪𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒍𝒂 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 On observe si une variable suit une distribution symétrique, asymétrique, dispersée ou concentrée. 𝑮𝒆́𝒓𝒆𝒓 𝒍𝒆 𝒏𝒆𝒕𝒕𝒐𝒚𝒂𝒈𝒆 𝒅𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 Valeurs manquantes, doublons, types de variables, encodage… tou...