Articles

📌 𝗣-𝘃𝗮𝗹𝘂𝗲 : 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗰𝗼𝗺𝗽𝗿𝗲𝗻𝗱𝗿𝗲 𝗹𝗮 𝘀𝗶𝗴𝗻𝗶𝗳𝗶𝗰𝗮𝘁𝗶𝗼𝗻 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲 ? 📊

Image
En statistique, la 𝗽 - 𝘃𝗮𝗹𝘂𝗲 est l’un des concepts les plus utilisés, mais aussi l’un des plus mal compris. Elle intervient dans les 𝘁𝗲𝘀𝘁𝘀 𝗱 ’ 𝗵𝘆𝗽𝗼𝘁𝗵𝗲 ̀ 𝘀𝗲 pour aider à décider si un résultat observé est suffisamment surprenant pour remettre en cause l’hypothèse nulle. 👉 𝗗𝗲 ́ 𝗳𝗶𝗻𝗶𝘁𝗶𝗼𝗻 𝘀𝗶𝗺𝗽𝗹𝗲 La 𝗽 - 𝘃𝗮𝗹𝘂𝗲 est la probabilité d’obtenir le résultat observé, ou un résultat encore plus extrême, 𝘀𝗶 𝗹 ’ 𝗵𝘆𝗽𝗼𝘁𝗵𝗲 ̀ 𝘀𝗲 𝗻𝘂𝗹𝗹𝗲 𝗲𝘀𝘁 𝘃𝗿𝗮𝗶𝗲 . Autrement dit, elle répond à la question suivante : 𝗦𝗶 𝗛 ₀ 𝗲 ́ 𝘁𝗮𝗶𝘁 𝘃𝗿𝗮𝗶𝗲 , 𝗾𝘂𝗲𝗹𝗹𝗲 𝘀𝗲𝗿𝗮𝗶𝘁 𝗹𝗮 𝗽𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲 ́ 𝗱 ’ 𝗼𝗯𝘁𝗲𝗻𝗶𝗿 𝘂𝗻 𝗿𝗲 ́ 𝘀𝘂𝗹𝘁𝗮𝘁 𝗮𝘂𝘀𝘀𝗶 𝗲𝘅𝘁𝗿𝗲 ̂ 𝗺𝗲 ? 🔹 𝗣 - 𝘃𝗮𝗹𝘂𝗲 𝗳𝗮𝗶𝗯𝗹𝗲 Si la p-value est inférieure ou égale à 0,05 : ➡ ️ le résultat est peu compatible avec l’hypothèse nulle ; ➡ ️ on dispose d’une évidence statistique contre H₀ ; ➡ ️ on rejette généralement l’hypothèse null...

📌 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘀𝘁 : 𝟲 𝗰𝗼𝗻𝗰𝗲𝗽𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗮̀ 𝗺𝗮𝗶̂𝘁𝗿𝗶𝘀𝗲𝗿 𝗽𝗼𝘂𝗿 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 𝗹𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀 📊

Image
La statistique est l’un des fondements les plus importants de l’ 𝗮𝗻𝗮𝗹𝘆𝘀𝗲 𝗱𝗲 𝗱𝗼𝗻𝗻𝗲 ́ 𝗲𝘀 . Un bon Data Analyst ne se contente pas de produire des tableaux, des graphiques ou des dashboards. Il doit surtout savoir 𝗿𝗲 ́ 𝘀𝘂𝗺𝗲𝗿 , 𝗰𝗼𝗺𝗽𝗮𝗿𝗲𝗿 , 𝘁𝗲𝘀𝘁𝗲𝗿 , 𝗺𝗼𝗱𝗲 ́ 𝗹𝗶𝘀𝗲𝗿 𝗲𝘁 𝗶𝗻𝘁𝗲𝗿𝗽𝗿𝗲 ́ 𝘁𝗲𝗿 correctement les données. Voici 𝟲 𝗰𝗼𝗻𝗰𝗲𝗽𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 essentiels à maîtriser 👇 𝟭 . 𝗦𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗱𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝘃𝗲𝘀 Elles permettent de résumer les données à travers des indicateurs simples comme : • la 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 ; • la 𝗺𝗲 ́ 𝗱𝗶𝗮𝗻𝗲 ; • le 𝗺𝗼𝗱𝗲 ; • la 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 ; • l’ 𝗲 ́ 𝗰𝗮𝗿𝘁 - 𝘁𝘆𝗽𝗲 . C’est la première étape pour comprendre la structure d’un jeu de données. 𝟮 . 𝗣𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲 ́ 𝘀 Les probabilités aident à analyser l’incertitude. Elles permettent de comprendre les 𝗲 ́ 𝘃𝗲 ́ 𝗻𝗲𝗺𝗲𝗻𝘁𝘀 𝗶𝗻𝗱𝗲 ́ 𝗽𝗲𝗻𝗱𝗮𝗻𝘁𝘀 , les 𝗲 ́ 𝘃𝗲 ́ 𝗻𝗲...

📌 𝑴𝒆́𝒕𝒉𝒐𝒅𝒆 𝒅𝒖 𝒄𝒐𝒏𝒕𝒓𝒐̂𝒍𝒆 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒆́𝒗𝒂𝒍𝒖𝒆𝒓 𝒍’𝒆𝒇𝒇𝒆𝒕 𝒓𝒆́𝒆𝒍 𝒅’𝒖𝒏𝒆 𝒓𝒆́𝒇𝒐𝒓𝒎𝒆 ? 📊

Image
Dans les analyses économiques et statistiques, il n’est pas toujours facile de mesurer l’effet réel d’une réforme, d’une politique publique ou d’une intervention. Le problème est simple : 👉 on observe ce qui s’est passé 𝒂𝒑𝒓𝒆̀𝒔 l’intervention, mais on ne peut pas observer directement ce qui se serait passé 𝒔𝒂𝒏𝒔 cette intervention. C’est précisément cette situation que la 𝒎𝒆́𝒕𝒉𝒐𝒅𝒆 𝒅𝒖 𝒄𝒐𝒏𝒕𝒓𝒐̂𝒍𝒆 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 cherche à résoudre. Son objectif est de construire un 𝒈𝒓𝒐𝒖𝒑𝒆 𝒕𝒆́𝒎𝒐𝒊𝒏 𝒂𝒓𝒕𝒊𝒇𝒊𝒄𝒊𝒆𝒍 capable de reproduire le comportement de l’unité traitée avant l’intervention. Autrement dit, au lieu de comparer une région, une entreprise ou un pays à un seul témoin imparfait, on construit un 𝒕𝒆́𝒎𝒐𝒊𝒏 𝒔𝒚𝒏𝒕𝒉𝒆́𝒕𝒊𝒒𝒖𝒆 à partir de plusieurs unités comparables non traitées. 🎯 Le but est de reconstruire le 𝒄𝒐𝒏𝒕𝒓𝒆𝒇𝒂𝒄𝒕𝒖𝒆𝒍, c’est-à-dire : ➡️ 𝒄𝒆 𝒒𝒖𝒊 𝒂𝒖𝒓𝒂𝒊𝒕 𝒑𝒓𝒐𝒃𝒂𝒃𝒍𝒆𝒎𝒆𝒏𝒕 𝒆𝒖 𝒍𝒊𝒆𝒖 𝒔𝒂𝒏𝒔 𝒍’𝒊𝒏𝒕𝒆...

📌 𝗙𝗼𝗿𝗺𝘂𝗹𝗲𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 𝗲𝘀𝘀𝗲𝗻𝘁𝗶𝗲𝗹𝗹𝗲𝘀 : 𝗹𝗲𝘀 𝗯𝗮𝘀𝗲𝘀 𝗮̀ 𝗺𝗮𝗶̂𝘁𝗿𝗶𝘀𝗲𝗿 𝗽𝗼𝘂𝗿 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 𝘀𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀 📊

Image
En statistique, certaines formules reviennent presque toujours. On les retrouve dans la 𝗱𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝗼𝗻 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻𝗲 ́ 𝗲𝘀 , les 𝘁𝗲𝘀𝘁𝘀 𝘀𝘁𝗮𝘁𝗶𝘀𝘁𝗶𝗾𝘂𝗲𝘀 , la 𝗿𝗲 ́ 𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 , l’ 𝗲 ́ 𝗰𝗼𝗻𝗼𝗺𝗲 ́ 𝘁𝗿𝗶𝗲 et même en 𝗱𝗮𝘁𝗮 𝘀𝗰𝗶𝗲𝗻𝗰𝗲 . Les connaître ne signifie pas seulement les mémoriser. Cela signifie surtout savoir 𝗰𝗲 𝗾𝘂 ’ 𝗲𝗹𝗹𝗲𝘀 𝗺𝗲𝘀𝘂𝗿𝗲𝗻𝘁 , 𝗾𝘂𝗮𝗻𝗱 𝗹𝗲𝘀 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 et 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗹𝗲𝘀 𝗶𝗻𝘁𝗲𝗿𝗽𝗿𝗲 ́ 𝘁𝗲𝗿 . Voici un rappel pratique des formules à garder sous la main 👇 𝟭 . 𝗠𝗼𝘆𝗲𝗻𝗻𝗲 x̄ = Σ x / n Elle résume la valeur centrale d’une série. 𝟮 . 𝗩𝗮𝗿𝗶𝗮𝗻𝗰𝗲 σ ² = Σ (x − x̄)² / n Elle mesure la dispersion des valeurs autour de la moyenne. 𝟯 . 𝗘 ́ 𝗰𝗮𝗿𝘁 - 𝘁𝘆𝗽𝗲 σ = √ [ Σ (x − x̄)² / n] Il indique à quel point les données s’éloignent en moyenne de la moyenne. 𝟰 . 𝗣𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲 ́ P(A) = nombre de cas favorables / nombre total de cas Elle mesure la...

📌 𝗟𝗼𝗶𝘀 𝗱𝗲 𝗽𝗿𝗼𝗯𝗮𝗯𝗶𝗹𝗶𝘁𝗲́ : 𝗯𝗶𝗲𝗻 𝗹𝗲𝘀 𝗰𝗵𝗼𝗶𝘀𝗶𝗿, 𝗰’𝗲𝘀𝘁 𝗺𝗶𝗲𝘂𝘅 𝗮𝗻𝗮𝗹𝘆𝘀𝗲𝗿 📊

Image
En statistique et en data science, beaucoup d’apprenants retiennent les formules des lois de probabilité. Mais la vraie question n’est pas seulement : 👉 𝗤𝘂𝗲𝗹𝗹𝗲 𝗲𝘀𝘁 𝗹𝗮 𝗳𝗼𝗿𝗺𝘂𝗹𝗲 ? La vraie question est surtout : 👉 𝗤𝘂𝗮𝗻𝗱 𝗲𝘁 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗳𝗮𝘂𝘁-𝗶𝗹 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗰𝗲𝘁𝘁𝗲 𝗹𝗼𝗶 ? Chaque loi de probabilité répond à un type particulier de phénomène. 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻𝘀 𝗱𝗶𝘀𝗰𝗿𝗲̀𝘁𝗲𝘀 🔹 Loi de Bernoulli : succès / échec sur un seul essai P(X = k) = p^k (1 − p)^(1 − k), k ∈ {0,1} 🔹 Loi binomiale : nombre de succès sur n essais indépendants P(X = k) = C(n,k) p^k (1 − p)^(n − k) 🔹 Loi de Poisson : comptage d’événements rares sur un intervalle P(X = k) = (e^(−λ) λ^k) / k! 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻𝘀 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗲𝘀 🔹 Loi normale (gaussienne) : données continues symétriques autour d’une moyenne f(x) = 1 / (σ√(2π)) · exp(−(x − μ)² / (2σ²)) 🔹 Loi exponentielle : temps d’attente entre événements f(x) = λe^(−λx), x ≥ 0 ...

📌 𝗡𝗮𝘁𝘂𝗿𝗲 𝗲𝘁 𝗰𝗵𝗮𝗺𝗽 𝗱𝗲 𝗹’𝗲́𝗰𝗼𝗻𝗼𝗺𝗶𝗲 : 𝗽𝗼𝘂𝗿𝗾𝘂𝗼𝗶 𝗹𝗲𝘀 𝗿𝗲𝘀𝘀𝗼𝘂𝗿𝗰𝗲𝘀 𝗿𝗮𝗿𝗲𝘀 𝗶𝗺𝗽𝗼𝘀𝗲𝗻𝘁 𝗱𝗲𝘀 𝗰𝗵𝗼𝗶𝘅 ? 📊

Image
L’ 𝗲 ́ 𝗰𝗼𝗻𝗼𝗺𝗶𝗲 est une science sociale qui étudie la manière dont les individus, les entreprises et les États utilisent des ressources limitées pour produire, échanger et consommer des biens et services. Son point de départ est simple : 👉 𝗹𝗲𝘀 𝗯𝗲𝘀𝗼𝗶𝗻𝘀 𝗵𝘂𝗺𝗮𝗶𝗻𝘀 𝘀𝗼𝗻𝘁 𝗶𝗹𝗹𝗶𝗺𝗶𝘁𝗲 ́ 𝘀 👉 𝗹𝗲𝘀 𝗿𝗲𝘀𝘀𝗼𝘂𝗿𝗰𝗲𝘀 𝘀𝗼𝗻𝘁 𝗿𝗮𝗿𝗲𝘀 👉 𝗹𝗲𝘀 𝗰𝗵𝗼𝗶𝘅 𝗱𝗲𝘃𝗶𝗲𝗻𝗻𝗲𝗻𝘁 𝗱𝗼𝗻𝗰 𝗶𝗻𝗲 ́ 𝘃𝗶𝘁𝗮𝗯𝗹𝗲𝘀 C’est précisément cette rareté qui donne naissance aux problèmes économiques. Par exemple, un agriculteur peut vouloir cultiver du riz, de la canne à sucre, de la banane ou du coton. Mais il ne peut pas tout faire en même temps si la terre, l’eau, le capital ou la main-d’œuvre sont limités. Il doit donc choisir. Et c’est là que l’économie intervient : elle aide à 𝗰𝗼𝗺𝗽𝗮𝗿𝗲𝗿 𝗹𝗲𝘀 𝗮𝗹𝘁𝗲𝗿𝗻𝗮𝘁𝗶𝘃𝗲𝘀 , à 𝗲 ́ 𝘃𝗮𝗹𝘂𝗲𝗿 𝗹𝗲𝘀 𝗰𝗼𝘂 ̂ 𝘁𝘀 et à 𝗽𝗿𝗲𝗻𝗱𝗿𝗲 𝗹𝗮 𝗺𝗲𝗶𝗹𝗹𝗲𝘂𝗿𝗲 𝗱𝗲 ́ 𝗰𝗶𝘀𝗶𝗼...

📌 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 : 𝐜𝐨𝐦𝐩𝐫𝐞𝐧𝐝𝐫𝐞 𝐥𝐚 𝐫𝐞́𝐠𝐮𝐥𝐚𝐫𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐 𝐞𝐧 𝐦𝐚𝐜𝐡𝐢𝐧𝐞 𝐥𝐞𝐚𝐫𝐧𝐢𝐧𝐠 📊🤖

Image
En apprentissage automatique, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une technique très utilisée lorsque le modèle linéaire classique devient instable. 👉 En termes simples, la 𝐑𝐢𝐝𝐠𝐞 𝐑𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 est une 𝐫𝐞́𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧 𝐥𝐢𝐧𝐞́𝐚𝐢𝐫𝐞 𝐚𝐯𝐞𝐜 𝐮𝐧𝐞 𝐩𝐞́𝐧𝐚𝐥𝐢𝐬𝐚𝐭𝐢𝐨𝐧 𝐋𝟐. Son objectif est de réduire la taille des coefficients afin de limiter le 𝐬𝐮𝐫𝐚𝐣𝐮𝐬𝐭𝐞𝐦𝐞𝐧𝐭 et de mieux gérer la 𝐦𝐮𝐥𝐭𝐢𝐜𝐨𝐥𝐢𝐧𝐞́𝐚𝐫𝐢𝐭𝐞́. Autrement dit, lorsque plusieurs variables explicatives sont fortement corrélées entre elles, les coefficients d’une régression linéaire classique peuvent devenir très instables. La régression Ridge vient alors imposer une forme de discipline au modèle. 📐 𝐋’𝐢𝐝𝐞́𝐞 𝐝𝐮 𝐜𝐫𝐢𝐭𝐞̀𝐫𝐞 𝐚̀ 𝐦𝐢𝐧𝐢𝐦𝐢𝐬𝐞𝐫 : β̂ridge = argmin { Σ(yi − Xiβ)² + λΣβj² } Dans cette expression : • 𝐒Σ(𝐲𝐢 − 𝐗𝐢β)² représente l’erreur du modèle, appelée somme des carrés des résidus. • 𝐋𝐚 𝐩𝐚𝐫𝐭𝐢𝐞 λΣβj² représente la pénalité L2 appliquée aux...