Articles

📌 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘀𝘁 : 𝟲 𝗰𝗼𝗻𝗰𝗲𝗽𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗮̀ 𝗺𝗮𝗶̂𝘁𝗿𝗶𝘀𝗲𝗿 𝗽𝗼𝘂𝗿 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 𝗹𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀 📊

Image
La statistique est l’un des fondements les plus importants de l’ 𝗮𝗻𝗮𝗹𝘆𝘀𝗲 𝗱𝗲 𝗱𝗼𝗻𝗻𝗲 ́ 𝗲𝘀 . Un bon Data Analyst ne se contente pas de produire des tableaux, des graphiques ou des dashboards. Il doit surtout savoir 𝗿𝗲 ́ 𝘀𝘂𝗺𝗲𝗿 , 𝗰𝗼𝗺𝗽𝗮𝗿𝗲𝗿 , 𝘁𝗲𝘀𝘁𝗲𝗿 , 𝗺𝗼𝗱𝗲 ́ 𝗹𝗶𝘀𝗲𝗿 𝗲𝘁 𝗶𝗻𝘁𝗲𝗿𝗽𝗿𝗲 ́ 𝘁𝗲𝗿 correctement les données. Voici 𝟲 𝗰𝗼𝗻𝗰𝗲𝗽𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 essentiels à maîtriser 👇 𝟭 . 𝗦𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗱𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝘃𝗲𝘀 Elles permettent de résumer les données à travers des indicateurs simples comme : • la 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 ; • la 𝗺𝗲 ́ 𝗱𝗶𝗮𝗻𝗲 ; • le 𝗺𝗼𝗱𝗲 ; • la 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 ; • l’ 𝗲 ́ 𝗰𝗮𝗿𝘁 - 𝘁𝘆𝗽𝗲 . C’est la première étape pour comprendre la structure d’un jeu de données. 𝟮 . 𝗣𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲 ́ 𝘀 Les probabilités aident à analyser l’incertitude. Elles permettent de comprendre les 𝗲 ́ 𝘃𝗲 ́ 𝗻𝗲𝗺𝗲𝗻𝘁𝘀 𝗶𝗻𝗱𝗲 ́ 𝗽𝗲𝗻𝗱𝗮𝗻𝘁𝘀 , les 𝗲 ́ 𝘃𝗲 ́ 𝗻𝗲...

📌 𝑴𝒆́𝒕𝒉𝒐𝒅𝒆 𝒅𝒖 𝒄𝒐𝒏𝒕𝒓𝒐̂𝒍𝒆 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒆́𝒗𝒂𝒍𝒖𝒆𝒓 𝒍’𝒆𝒇𝒇𝒆𝒕 𝒓𝒆́𝒆𝒍 𝒅’𝒖𝒏𝒆 𝒓𝒆́𝒇𝒐𝒓𝒎𝒆 ? 📊

Image
Dans les analyses économiques et statistiques, il n’est pas toujours facile de mesurer l’effet réel d’une réforme, d’une politique publique ou d’une intervention. Le problème est simple : 👉 on observe ce qui s’est passé 𝒂𝒑𝒓𝒆̀𝒔 l’intervention, mais on ne peut pas observer directement ce qui se serait passé 𝒔𝒂𝒏𝒔 cette intervention. C’est précisément cette situation que la 𝒎𝒆́𝒕𝒉𝒐𝒅𝒆 𝒅𝒖 𝒄𝒐𝒏𝒕𝒓𝒐̂𝒍𝒆 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 cherche à résoudre. Son objectif est de construire un 𝒈𝒓𝒐𝒖𝒑𝒆 𝒕𝒆́𝒎𝒐𝒊𝒏 𝒂𝒓𝒕𝒊𝒇𝒊𝒄𝒊𝒆𝒍 capable de reproduire le comportement de l’unité traitée avant l’intervention. Autrement dit, au lieu de comparer une région, une entreprise ou un pays à un seul témoin imparfait, on construit un 𝒕𝒆́𝒎𝒐𝒊𝒏 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 à partir de plusieurs unités comparables non traitées. 🎯 Le but est de reconstruire le 𝒄𝒐𝒏𝒕𝒓𝒆𝒇𝒂𝒄𝒕𝒖𝒆𝒍, c’est-à-dire : ➡️ 𝒄𝒆 𝒒𝒖𝒊 𝒂𝒖𝒓𝒂𝒊𝒕 𝒑𝒓𝒐𝒃𝒂𝒃𝒍𝒆𝒎𝒆𝒏𝒕 𝒆𝒖 𝒍𝒊𝒆𝒖 𝒔𝒂𝒏𝒔 𝒍’𝒊𝒏𝒕𝒆...

📌 𝗙𝗼𝗿𝗺𝘂𝗹𝗲𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗲𝘀𝘀𝗲𝗻𝘁𝗶𝗲𝗹𝗹𝗲𝘀 : 𝗹𝗲𝘀 𝗯𝗮𝘀𝗲𝘀 𝗮̀ 𝗺𝗮𝗶̂𝘁𝗿𝗶𝘀𝗲𝗿 𝗽𝗼𝘂𝗿 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 𝘀𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀 📊

Image
En statistique, certaines formules reviennent presque toujours. On les retrouve dans la 𝗱𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝗼𝗻 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻𝗲 ́ 𝗲𝘀 , les 𝘁𝗲𝘀𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 , la 𝗿𝗲 ́ 𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 , l’ 𝗲 ́ 𝗰𝗼𝗻𝗼𝗺𝗲 ́ 𝘁𝗿𝗶𝗲 et même en 𝗱𝗮𝘁𝗮 𝘀𝗰𝗶𝗲𝗻𝗰𝗲 . Les connaître ne signifie pas seulement les mémoriser. Cela signifie surtout savoir 𝗰𝗲 𝗾𝘂 ’ 𝗲𝗹𝗹𝗲𝘀 𝗺𝗲𝘀𝘂𝗿𝗲𝗻𝘁 , 𝗾𝘂𝗮𝗻𝗱 𝗹𝗲𝘀 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 et 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗹𝗲𝘀 𝗶𝗻𝘁𝗲𝗿𝗽𝗿𝗲 ́ 𝘁𝗲𝗿 . Voici un rappel pratique des formules à garder sous la main 👇 𝟭 . 𝗠𝗼𝘆𝗲𝗻𝗻𝗲 x̄ = Σ x / n Elle résume la valeur centrale d’une série. 𝟮 . 𝗩𝗮𝗿𝗶𝗮𝗻𝗰𝗲 σ ² = Σ (x − x̄)² / n Elle mesure la dispersion des valeurs autour de la moyenne. 𝟯 . 𝗘 ́ 𝗰𝗮𝗿𝘁 - 𝘁𝘆𝗽𝗲 σ = √ [ Σ (x − x̄)² / n] Il indique à quel point les données s’éloignent en moyenne de la moyenne. 𝟰 . 𝗣𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲 ́ P(A) = nombre de cas favorables / nombre total de cas Elle mesure la...

📌 𝗟𝗼𝗶𝘀 𝗱𝗲 𝗽𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲́ : 𝗯𝗶𝗲𝗻 𝗹𝗲𝘀 𝗰𝗵𝗼𝗶𝘀𝗶𝗿, 𝗰’𝗲𝘀𝘁 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 📊

Image
En statistique et en data science, beaucoup d’apprenants retiennent les formules des lois de probabilité. Mais la vraie question n’est pas seulement : 👉 𝗤𝘂𝗲𝗹𝗹𝗲 𝗲𝘀𝘁 𝗹𝗮 𝗳𝗼𝗿𝗺𝘂𝗹𝗲 ? La vraie question est surtout : 👉 𝗤𝘂𝗮𝗻𝗱 𝗲𝘁 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗳𝗮𝘂𝘁-𝗶𝗹 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗰𝗲𝘁𝘁𝗲 𝗹𝗼𝗶 ? Chaque loi de probabilité répond à un type particulier de phénomène. 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻𝘀 𝗱𝗶𝘀𝗰𝗿𝗲̀𝘁𝗲𝘀 🔹 Loi de Bernoulli : succès / échec sur un seul essai P(X = k) = p^k (1 − p)^(1 − k), k ∈ {0,1} 🔹 Loi binomiale : nombre de succès sur n essais indépendants P(X = k) = C(n,k) p^k (1 − p)^(n − k) 🔹 Loi de Poisson : comptage d’événements rares sur un intervalle P(X = k) = (e^(−λ) λ^k) / k! 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻𝘀 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗲𝘀 🔹 Loi normale (gaussienne) : données continues symétriques autour d’une moyenne f(x) = 1 / (σ√(2π)) · exp(−(x − μ)² / (2σ²)) 🔹 Loi exponentielle : temps d’attente entre événements f(x) = λe^(−λx), x ≥ 0 ...

📌 𝗡𝗮𝘁𝘂𝗿𝗲 𝗲𝘁 𝗰𝗵𝗮𝗺𝗽 𝗱𝗲 𝗹’𝗲́𝗰𝗼𝗻𝗼𝗺𝗶𝗲 : 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗹𝗲𝘀 𝗿𝗲𝘀𝘀𝗼𝘂𝗿𝗰𝗲𝘀 𝗿𝗮𝗿𝗲𝘀 𝗶𝗺𝗽𝗼𝘀𝗲𝗻𝘁 𝗱𝗲𝘀 𝗰𝗵𝗼𝗶𝘅 ? 📊

Image
L’ 𝗲 ́ 𝗰𝗼𝗻𝗼𝗺𝗶𝗲 est une science sociale qui étudie la manière dont les individus, les entreprises et les États utilisent des ressources limitées pour produire, échanger et consommer des biens et services. Son point de départ est simple : 👉 𝗹𝗲𝘀 𝗯𝗲𝘀𝗼𝗶𝗻𝘀 𝗵𝘂𝗺𝗮𝗶𝗻𝘀 𝘀𝗼𝗻𝘁 𝗶𝗹𝗹𝗶𝗺𝗶𝘁𝗲 ́ 𝘀 👉 𝗹𝗲𝘀 𝗿𝗲𝘀𝘀𝗼𝘂𝗿𝗰𝗲𝘀 𝘀𝗼𝗻𝘁 𝗿𝗮𝗿𝗲𝘀 👉 𝗹𝗲𝘀 𝗰𝗵𝗼𝗶𝘅 𝗱𝗲𝘃𝗶𝗲𝗻𝗻𝗲𝗻𝘁 𝗱𝗼𝗻𝗰 𝗶𝗻𝗲 ́ 𝘃𝗶𝘁𝗮𝗯𝗹𝗲𝘀 C’est précisément cette rareté qui donne naissance aux problèmes économiques. Par exemple, un agriculteur peut vouloir cultiver du riz, de la canne à sucre, de la banane ou du coton. Mais il ne peut pas tout faire en même temps si la terre, l’eau, le capital ou la main-d’œuvre sont limités. Il doit donc choisir. Et c’est là que l’économie intervient : elle aide à 𝗰𝗼𝗺𝗽𝗮𝗿𝗲𝗿 𝗹𝗲𝘀 𝗮𝗹𝘁𝗲𝗿𝗻𝗮𝘁𝗶𝘃𝗲𝘀 , à 𝗲 ́ 𝘃𝗮𝗹𝘂𝗲𝗿 𝗹𝗲𝘀 𝗰𝗼𝘂 ̂ 𝘁𝘀 et à 𝗽𝗿𝗲𝗻𝗱𝗿𝗲 𝗹𝗮 𝗺𝗲𝗶𝗹𝗹𝗲𝘂𝗿𝗲 𝗱𝗲 ́ 𝗰𝗶𝘀𝗶𝗼...

📌 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐩𝐫𝐞𝐧𝐝𝐫𝐞 𝐥𝐚 𝐫𝐞́𝐠𝐮𝐥𝐚𝐫𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐 𝐞𝐧 𝐦𝐚𝐜𝐡𝐢𝐧𝐞 𝐥𝐞𝐚𝐫𝐧𝐢𝐧𝐠 📊🤖

Image
En apprentissage automatique, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une technique très utilisée lorsque le modèle linéaire classique devient instable. 👉 En termes simples, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une 𝐫𝐞́𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 𝐥𝐢𝐧𝐞́𝐚𝐢𝐫𝐞 𝐚𝐯𝐞𝐜 𝐮𝐧𝐞 𝐩𝐞́𝐧𝐚𝐥𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐. Son objectif est de réduire la taille des coefficients afin de limiter le 𝐬𝐮𝐫𝐚𝐣𝐮𝐬𝐭𝐞𝐦𝐞𝐧𝐭 et de mieux gérer la 𝐦𝐮𝐥𝐭𝐢𝐜𝐨𝐥𝐢𝐧𝐞́𝐚𝐫𝐢𝐭𝐞́. Autrement dit, lorsque plusieurs variables explicatives sont fortement corrélées entre elles, les coefficients d’une régression linéaire classique peuvent devenir très instables. La régression Ridge vient alors imposer une forme de discipline au modèle. 📐 𝐋’𝐢𝐝𝐞́𝐞 𝐝𝐮 𝐜𝐫𝐢𝐭𝐞̀𝐫𝐞 𝐚̀ 𝐦𝐢𝐧𝐢𝐦𝐢𝐬𝐞𝐫 : β̂ridge = argmin { Σ(yi − Xiβ)² + λΣβj² } Dans cette expression : • 𝐒Σ(𝐲𝐢 − 𝐗𝐢β)² représente l’erreur du modèle, appelée somme des carrés des résidus. • 𝐋𝐚 𝐩𝐚𝐫𝐭𝐢𝐞 λΣβj² représente la pénalité L2 appliquée aux...

𝑩𝒊𝒆𝒏 𝒄𝒉𝒐𝒊𝒔𝒊𝒓 𝒔𝒐𝒏 𝒕𝒆𝒔𝒕 𝒔𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆 : 𝒍𝒂 𝒄𝒍𝒆́ 𝒅’𝒖𝒏𝒆 𝒂𝒏𝒂𝒍𝒚𝒔𝒆 𝒇𝒊𝒂𝒃𝒍𝒆 📊

Image
En analyse de données, 𝐥𝐞 𝐜𝐡𝐨𝐢𝐱 𝐝𝐮 𝐭𝐞𝐬𝐭 𝐬𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 n’est jamais un détail. Il peut influencer directement la 𝐪𝐮𝐚𝐥𝐢𝐭𝐞 ́ , la 𝐩𝐫𝐞 ́ 𝐜𝐢𝐬𝐢𝐨𝐧 et la 𝐜𝐫𝐞 ́ 𝐝𝐢𝐛𝐢𝐥𝐢𝐭𝐞 ́ de vos résultats. Autrement dit, une bonne question de recherche mérite aussi 𝐥𝐞 𝐛𝐨𝐧 𝐨𝐮𝐭𝐢𝐥 𝐝 ’ 𝐚𝐧𝐚𝐥𝐲𝐬𝐞 . Voici un repère simple pour mieux vous orienter : ✅ 𝐂𝐨𝐦𝐩𝐚𝐫𝐞𝐫 𝟐 𝐠𝐫𝐨𝐮𝐩𝐞𝐬 𝐢𝐧𝐝𝐞 ́ 𝐩𝐞𝐧𝐝𝐚𝐧𝐭𝐬 → 𝐭 - 𝐭𝐞𝐬𝐭 𝐩𝐨𝐮𝐫 𝐞 ́ 𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐬 𝐢𝐧𝐝𝐞 ́ 𝐩𝐞𝐧𝐝𝐚𝐧𝐭𝐬 ✅ 𝐂𝐨𝐦𝐩𝐚𝐫𝐞𝐫 𝐮𝐧 𝐚𝐯𝐚𝐧𝐭 / 𝐚𝐩𝐫𝐞 ̀ 𝐬 → 𝐭 - 𝐭𝐞𝐬𝐭 𝐚𝐩𝐩𝐚𝐫𝐢𝐞 ́ ✅ 𝐂𝐨𝐦𝐩𝐚𝐫𝐞𝐫 𝟑 𝐠𝐫𝐨𝐮𝐩𝐞𝐬 𝐨𝐮 𝐩𝐥𝐮𝐬 → 𝐀𝐍𝐎𝐕𝐀 ✅ 𝐃𝐨𝐧𝐧𝐞 ́ 𝐞𝐬 𝐧𝐨𝐧 𝐧𝐨𝐫𝐦𝐚𝐥𝐞𝐬 → 𝐌𝐚𝐧𝐧 - 𝐖𝐡𝐢𝐭𝐧𝐞𝐲 ou 𝐊𝐫𝐮𝐬𝐤𝐚𝐥 - 𝐖𝐚𝐥𝐥𝐢𝐬 ✅ 𝐄 ́ 𝐭𝐮𝐝𝐢𝐞𝐫 𝐥𝐚 𝐫𝐞𝐥𝐚𝐭𝐢𝐨𝐧 𝐞𝐧𝐭𝐫𝐞 𝐝𝐞𝐮𝐱 𝐯𝐚𝐫𝐢𝐚𝐛𝐥𝐞𝐬 → 𝐜𝐨𝐫𝐫𝐞 ́ 𝐥𝐚𝐭𝐢𝐨𝐧 𝐝𝐞 𝐏𝐞𝐚𝐫𝐬𝐨𝐧 ou 𝐝𝐞 𝐒𝐩𝐞𝐚𝐫𝐦𝐚𝐧 ...