Articles

𝑻𝒆𝒔𝒕 𝒅𝒆 𝒏𝒐𝒓𝒎𝒂𝒍𝒊𝒕𝒆́ 𝒅𝒂𝒏𝒔 𝑹 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒔𝒂𝒗𝒐𝒊𝒓 𝒔𝒊 𝒗𝒐𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔 𝒔𝒐𝒏𝒕 𝒏𝒐𝒓𝒎𝒂𝒍𝒆𝒔 ?

Image
En analyse statistique, avant d’appliquer certains tests ou modèles, il est souvent nécessaire de vérifier si les données suivent une 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒕𝒊𝒐𝒏 𝒏𝒐𝒓𝒎𝒂𝒍𝒆. Cette étape est importante, car plusieurs méthodes statistiques reposent sur l’hypothèse de normalité. Dans 𝑹, cette vérification peut se faire à l’aide de 𝒕𝒆𝒔𝒕𝒔 𝒔𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆𝒔 et de 𝒎𝒆́𝒕𝒉𝒐𝒅𝒆𝒔 𝒈𝒓𝒂𝒑𝒉𝒊𝒒𝒖𝒆𝒔.  𝟏. 𝑳𝒆 𝒕𝒆𝒔𝒕 𝒅𝒆 𝑺𝒉𝒂𝒑𝒊𝒓𝒐-𝑾𝒊𝒍𝒌  Le test de 𝑺𝒉𝒂𝒑𝒊𝒓𝒐-𝑾𝒊𝒍𝒌 est l’un des plus utilisés pour tester la normalité. Il est particulièrement adapté aux 𝒑𝒆𝒕𝒊𝒕𝒔 𝒆𝒕 𝒎𝒐𝒚𝒆𝒏𝒔 𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏𝒔. Exemple sous R : R data <- c(160, 162, 165, 170, 168, 164, 163) shapiro.test(data) 𝑰𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒂𝒕𝒊𝒐𝒏 : Si p-value > 0,05, la normalité est plausible. Si p-value ≤ 0,05, les données s’éloignent significativement de la normalité.  𝟐. 𝑳𝒆 𝒕𝒆𝒔𝒕 𝒅𝒆 𝑲𝒐𝒍𝒎𝒐𝒈𝒐𝒓𝒐𝒗-𝑺𝒎𝒊𝒓𝒏𝒐𝒗  Le test de 𝑲𝒐𝒍𝒎𝒐𝒈𝒐𝒓𝒐?...

📊 𝑫𝒓𝒐𝒊𝒕𝒔 𝒅𝒆 𝒅𝒐𝒖𝒂𝒏𝒆 : 𝒑𝒓𝒐𝒕𝒆𝒄𝒕𝒊𝒐𝒏 𝒆́𝒄𝒐𝒏𝒐𝒎𝒊𝒒𝒖𝒆 𝒐𝒖 𝒇𝒂𝒖𝒔𝒔𝒆 𝒃𝒐𝒏𝒏𝒆 𝒊𝒅𝒆́𝒆 ? 🌍

Image
En économie internationale, un 𝒅𝒓𝒐𝒊𝒕 𝒅𝒆 𝒅𝒐𝒖𝒂𝒏𝒆 est une 𝒕𝒂𝒙𝒆 𝒊𝒎𝒑𝒐𝒔𝒆 ́ 𝒆 𝒔𝒖𝒓 𝒍𝒆𝒔 𝒑𝒓𝒐𝒅𝒖𝒊𝒕𝒔 𝒊𝒎𝒑𝒐𝒓𝒕𝒆 ́ 𝒔 . Autrement dit, lorsqu’un bien entre dans un pays, l’État peut lui appliquer une taxe afin de le rendre plus cher sur le marché local. L’objectif affiché est souvent simple : 𝒑𝒓𝒐𝒕𝒆 ́ 𝒈𝒆𝒓 𝒍𝒆𝒔 𝒆𝒏𝒕𝒓𝒆𝒑𝒓𝒊𝒔𝒆𝒔 𝒏𝒂𝒕𝒊𝒐𝒏𝒂𝒍𝒆𝒔 face à la concurrence étrangère. Avant d’aller plus loin, pensez à 𝒍𝒊𝒌𝒆𝒓 et 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 cette publication pour aider d’autres personnes à mieux comprendre les mécanismes du commerce international. 🔹 𝑷𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒖𝒏 𝒑𝒂𝒚𝒔 𝒊𝒎𝒑𝒐𝒔𝒆 - 𝒕 - 𝒊𝒍 𝒅𝒆𝒔 𝒅𝒓𝒐𝒊𝒕𝒔 𝒅𝒆 𝒅𝒐𝒖𝒂𝒏𝒆 ? Les droits de douane peuvent avoir plusieurs objectifs. Ils peuvent servir à 𝒑𝒓𝒐𝒕𝒆 ́ 𝒈𝒆𝒓 𝒍𝒆𝒔 𝒊𝒏𝒅𝒖𝒔𝒕𝒓𝒊𝒆𝒔 𝒍𝒐𝒄𝒂𝒍𝒆𝒔 , surtout lorsque celles-ci sont fragiles ou exposées à des produits étrangers moins chers. Ils peuvent aussi permettre à...

📊 𝑳𝒆𝒔 𝒎𝒆́𝒕𝒊𝒆𝒓𝒔 𝒅𝒆 𝒍𝒂 𝑫𝒂𝒕𝒂 : 𝒒𝒖𝒆𝒍 𝒑𝒓𝒐𝒇𝒊𝒍 𝒗𝒐𝒖𝒔 𝒄𝒐𝒓𝒓𝒆𝒔𝒑𝒐𝒏𝒅 ? 🚀

Image
Dans l’univers de la 𝑫𝒂𝒕𝒂 , tout ne se résume pas aux chiffres, aux tableaux ou aux algorithmes. Chaque professionnel joue un rôle précis dans la chaîne de valeur : 𝒄𝒐𝒍𝒍𝒆𝒄𝒕𝒆𝒓 , 𝒔𝒕𝒐𝒄𝒌𝒆𝒓 , 𝒕𝒓𝒂𝒊𝒕𝒆𝒓 , 𝒂𝒏𝒂𝒍𝒚𝒔𝒆𝒓 , 𝒎𝒐𝒅𝒆 ́ 𝒍𝒊𝒔𝒆𝒓 et 𝒗𝒂𝒍𝒐𝒓𝒊𝒔𝒆𝒓 les données. Avant d’aller plus loin, pensez à 𝒍𝒊𝒌𝒆𝒓 et 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 cette publication pour aider d’autres personnes à mieux comprendre les métiers de la Data. 🔹 𝑳𝒆 𝑫𝒂𝒕𝒂 𝑬𝒏𝒈𝒊𝒏𝒆𝒆𝒓 C’est l’architecte technique de la donnée. Il conçoit les bases de données, construit les pipelines, automatise les flux et garantit que les données soient disponibles, propres et exploitables. 🔹 𝑳𝒆 𝑴𝑳 𝑬𝒏𝒈𝒊𝒏𝒆𝒆𝒓 Il transforme les modèles de machine learning en solutions utilisables en production. Son rôle est essentiel pour le déploiement, le suivi des modèles, le MLOps et l’intégration de l’intelligence artificielle dans les applications réelles. 🔹 𝑳𝒆 𝑫𝒂𝒕𝒂 𝑺...
Image
 𝑪𝒂𝒍𝒄𝒖𝒍𝒆𝒓 𝒍𝒂 𝒕𝒂𝒊𝒍𝒍𝒆 𝒅’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏 : 𝒖𝒏𝒆 𝒆́𝒕𝒂𝒑𝒆 𝒄𝒍𝒆́ 𝒑𝒐𝒖𝒓 𝒖𝒏𝒆 𝒆́𝒕𝒖𝒅𝒆 𝒇𝒊𝒂𝒃𝒍𝒆  En statistique, la qualité d’une enquête ne dépend pas seulement du questionnaire ou du logiciel utilisé. Elle dépend aussi de la 𝒕𝒂𝒊𝒍𝒍𝒆 𝒅𝒆 𝒍’𝒆́𝒄𝒉𝒂𝒏𝒕𝒊𝒍𝒍𝒐𝒏.  Un échantillon trop petit peut conduire à des résultats fragiles. Un échantillon bien calculé permet d’obtenir des résultats plus 𝒇𝒊𝒂𝒃𝒍𝒆𝒔, plus 𝒑𝒓𝒆́𝒄𝒊𝒔 et plus 𝒓𝒆𝒑𝒓𝒆́𝒔𝒆𝒏𝒕𝒂𝒕𝒊𝒇𝒔.  Avant d’aller plus loin, un 𝒍𝒊𝒌𝒆 et un 𝒑𝒂𝒓𝒕𝒂𝒈𝒆 nous aideraient beaucoup à diffuser ce contenu pédagogique.  𝑳𝒂 𝒇𝒐𝒓𝒎𝒖𝒍𝒆 𝒅𝒆 𝒃𝒂𝒔𝒆 n ≥ (Zc / ME)² × p × (1 − p)  Avec :  • 𝒏 : taille minimale de l’échantillon  • 𝒁𝒄 : valeur associée au niveau de confiance  • 𝒑 : proportion attendue dans la population  • 𝑴𝑬 : marge d’erreur acceptée  𝑪𝒆 𝒒𝒖’𝒊𝒍 𝒇𝒂𝒖𝒕 𝒓𝒆𝒕𝒆𝒏𝒊𝒓 Plus le 𝒏𝒊𝒗𝒆𝒂𝒖 𝒅𝒆 𝒄?...

📌 𝑻𝒆𝒔𝒕 𝒅𝒖 𝑲𝒉𝒊-𝒅𝒆𝒖𝒙 𝒔𝒖𝒓 𝒍𝒂 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 : 𝒑𝒐𝒖𝒓𝒒𝒖𝒐𝒊 𝒍𝒂 𝒅𝒊𝒔𝒑𝒆𝒓𝒔𝒊𝒐𝒏 𝒄𝒐𝒎𝒑𝒕𝒆 𝒂𝒖𝒕𝒂𝒏𝒕 𝒒𝒖𝒆 𝒍𝒂 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 ?

Image
En statistique, on s’intéresse souvent à la 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 pour comparer des groupes, mesurer des écarts ou interpréter des résultats. Pourtant, la 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 est tout aussi importante. Deux populations peuvent avoir une moyenne presque identique, mais présenter des niveaux de dispersion très différents. Cela signifie que les observations ne sont pas réparties de la même manière autour de la moyenne. Le 𝒕𝒆𝒔𝒕 𝒅𝒖 𝑲𝒉𝒊 - 𝒅𝒆𝒖𝒙 𝒂𝒑𝒑𝒍𝒊𝒒𝒖𝒆 ́ 𝒂 ̀ 𝒍𝒂 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 permet d’évaluer si la variabilité observée dans un échantillon est compatible avec une variance théorique attendue. Autrement dit, il aide à répondre à une question essentielle : 👉 La dispersion observée dans les données est-elle normale ou révèle-t-elle une instabilité statistiquement significative ? Cette question est très utile en 𝒓𝒆𝒄𝒉𝒆𝒓𝒄𝒉𝒆 𝒒𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒆 , en 𝒆 ́ 𝒄𝒐𝒏𝒐𝒎𝒆 ́ 𝒕𝒓𝒊𝒆 , en 𝒔𝒄𝒊𝒆𝒏𝒄𝒆𝒔 𝒔𝒐𝒄𝒊𝒂𝒍𝒆𝒔 , en 𝒔𝒂𝒏𝒕𝒆 ́ , en 𝒄𝒐𝒏𝒕...

📊 𝑳𝒐𝒔𝒔 𝑭𝒖𝒏𝒄𝒕𝒊𝒐𝒏𝒔 𝒆𝒏 𝑴𝒂𝒄𝒉𝒊𝒏𝒆 𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈 : 𝒄𝒐𝒎𝒑𝒓𝒆𝒏𝒅𝒓𝒆 𝒄𝒆 𝒒𝒖𝒆 𝒍𝒆 𝒎𝒐𝒅𝒆̀𝒍𝒆 𝒄𝒉𝒆𝒓𝒄𝒉𝒆 𝒂̀ 𝒎𝒊𝒏𝒊𝒎𝒊𝒔𝒆𝒓

Image
En 𝑴𝒂𝒄𝒉𝒊𝒏𝒆 𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈 , une bonne prédiction ne suffit pas. Il faut aussi mesurer à quel point le modèle se trompe . C’est exactement le rôle des 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏𝒔 𝒅𝒆 𝒑𝒆𝒓𝒕𝒆 , encore appelées 𝑳𝒐𝒔𝒔 𝑭𝒖𝒏𝒄𝒕𝒊𝒐𝒏𝒔 . 👉 Une fonction de perte quantifie l’écart entre la 𝒑𝒓𝒆 ́ 𝒅𝒊𝒄𝒕𝒊𝒐𝒏 du modèle et la 𝒗𝒂𝒍𝒆𝒖𝒓 𝒓𝒆 ́ 𝒆𝒍𝒍𝒆 . Plus cette perte est faible, plus le modèle apprend correctement. Pensez à 𝒍𝒂 𝒍𝒊𝒌𝒆𝒓 et à 𝒍𝒂 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 . 📌 𝑨 ̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓 : 𝑬𝒏𝒕𝒓𝒂𝒊 ̂ 𝒏𝒆𝒓 𝒖𝒏 𝒎𝒐𝒅𝒆 ̀ 𝒍𝒆 , 𝒄 ’ 𝒆𝒔𝒕 𝒔𝒖𝒓𝒕𝒐𝒖𝒕 𝒄𝒉𝒆𝒓𝒄𝒉𝒆𝒓 𝒂 ̀ 𝒎𝒊𝒏𝒊𝒎𝒊𝒔𝒆𝒓 𝒖𝒏𝒆 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏 𝒅𝒆 𝒑𝒆𝒓𝒕𝒆 . 🔹 𝑳𝒆𝒔 𝒑𝒓𝒊𝒏𝒄𝒊𝒑𝒂𝒍𝒆𝒔 𝒍𝒐𝒔𝒔 𝒇𝒖𝒏𝒄𝒕𝒊𝒐𝒏𝒔 𝒆𝒏 𝒓𝒆 ́ 𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 Lorsque la cible est 𝒒𝒖𝒂𝒏𝒕𝒊𝒕𝒂𝒕𝒊𝒗𝒆 , on utilise souvent : ✅ 𝑴𝑺𝑬 – Mean Squared Error Elle pénalise fortement les grandes erreurs. Très utilisée en régression. ✅ 𝑴𝑨𝑬 – Mean Abso...