Articles

📊✨ 𝗟𝗘𝗦 𝟳 𝗙𝗢𝗥𝗠𝗨𝗟𝗘𝗦 𝗗𝗘 𝗦𝗧𝗔𝗧𝗜𝗦𝗧𝗜𝗤𝗨𝗘 𝗤𝗨𝗘 𝗧𝗢𝗨𝗧 𝗔𝗡𝗔𝗟𝗬𝗦𝗧𝗘 𝗗𝗘𝗩𝗥𝗔𝗜𝗧 𝗖𝗢𝗡𝗡𝗔𝗜̂𝗧𝗥𝗘

Image
Les statistiques reposent sur des formules simples mais puissantes. Les maîtriser permet d'analyser correctement les données et de produire des résultats fiables. ① 𝗠𝗼𝘆𝗲𝗻𝗻𝗲 (𝗠𝗲́𝘁𝗵𝗼𝗱𝗲 𝗱𝗶𝗿𝗲𝗰𝘁𝗲) Pour une distribution groupée : 𝒙̄ = (Σfᵢxᵢ) / (Σfᵢ) xᵢ : centre de classe fᵢ : fréquence --- ② 𝗠𝗼𝘆𝗲𝗻𝗻𝗲 (𝗠𝗲́𝘁𝗵𝗼𝗱𝗲 𝗱𝗲 𝗹𝗮 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 𝘀𝘂𝗽𝗽𝗼𝘀𝗲́𝗲) 𝒙̄ = a + (Σfᵢdᵢ)/(Σfᵢ) avec : dᵢ = xᵢ − a a : moyenne supposée --- ③ 𝗠𝗼𝘆𝗲𝗻𝗻𝗲 (𝗠𝗲́𝘁𝗵𝗼𝗱𝗲 𝗱𝗲𝘀 𝗲́𝗰𝗮𝗿𝘁𝘀 𝗿𝗲́𝗱𝘂𝗶𝘁𝘀) 𝒙̄ = a + [(Σfᵢuᵢ)/(Σfᵢ)] × h avec : uᵢ = (xᵢ − a)/h h : amplitude de classe --- ④ 𝗠𝗲́𝗱𝗶𝗮𝗻𝗲 Me = l + [(N/2 − cf)/f] × h où : l = borne inférieure de la classe médiane N = effectif total cf = fréquence cumulée précédente f = fréquence de la classe médiane h = amplitude de classe --- ⑤ 𝗠𝗼𝗱𝗲 Mo = l + [(f₁ − f₀)/(2f₁ − f₀ − f₂)] × h où : f₁ = fréquence de la classe modale f₀ = fréquence précédente f₂ = fréquence suivante --- ⑥ 𝗥𝗲𝗹𝗮𝘁𝗶𝗼𝗻 𝗲𝗺𝗽𝗶𝗿...

📊 𝗦𝗧𝗔𝗧𝗜𝗢𝗡𝗡𝗔𝗥𝗜𝗧𝗘́ : 𝗟𝗘 𝗣𝗔𝗦𝗦𝗔𝗚𝗘 𝗢𝗕𝗟𝗜𝗚𝗘́ 𝗔𝗩𝗔𝗡𝗧 𝗧𝗢𝗨𝗧𝗘 𝗣𝗥𝗘́𝗩𝗜𝗦𝗜𝗢𝗡

Image
Une série temporelle ne se modélise pas directement sans vérification préalable. Avant d’appliquer un modèle comme 𝗔𝗥𝗜𝗠𝗔, 𝗦𝗔𝗥𝗜𝗠𝗔, 𝗩𝗔𝗥 𝗼𝘂 𝗩𝗘𝗖𝗠, il faut d’abord savoir si la série est 𝘀𝘁𝗮𝘁𝗶𝗼𝗻𝗻𝗮𝗶𝗿𝗲. Une série est stationnaire lorsque : 𝗦𝗮 𝗺𝗼𝘆𝗲𝗻𝗻𝗲 𝗿𝗲𝘀𝘁𝗲 𝘀𝘁𝗮𝗯𝗹𝗲 dans le temps 𝗦𝗮 𝘃𝗮𝗿𝗶𝗮𝗻𝗰𝗲 𝗻𝗲 𝗰𝗵𝗮𝗻𝗴𝗲 𝗽𝗮𝘀 fortement 𝗦𝗼𝗻 𝗮𝘂𝘁𝗼𝗰𝗼𝗿𝗿𝗲́𝗹𝗮𝘁𝗶𝗼𝗻 𝗱𝗶𝗺𝗶𝗻𝘂𝗲 progressivement avec les retards Quand une série présente une tendance, une saisonnalité ou une variance instable, elle peut conduire à des conclusions fausses. Pour éviter cela, on utilise : 𝗟𝗲 𝗴𝗿𝗮𝗽𝗵𝗶𝗾𝘂𝗲 𝗱𝗲 𝗹𝗮 𝘀𝗲́𝗿𝗶𝗲 pour détecter les tendances 𝗟’𝗔𝗖𝗙 𝗲𝘁 𝗹𝗲 𝗣𝗔𝗖𝗙 pour analyser la dépendance temporelle 𝗟𝗲𝘀 𝘁𝗲𝘀𝘁𝘀 𝗔𝗗𝗙, 𝗣𝗣 𝗲𝘁 𝗞𝗣𝗦𝗦 pour confirmer statistiquement la stationnarité Si la série n’est pas stationnaire, plusieurs solutions existent : 𝗗𝗶𝗳𝗳𝗲́𝗿𝗲𝗻𝗰𝗶𝗮𝘁𝗶𝗼𝗻 pour réduire la tendance 𝗗𝗶𝗳𝗳𝗲́𝗿𝗲...

🚀 𝗥𝗔𝗡𝗗𝗢𝗠 𝗙𝗢𝗥𝗘𝗦𝗧 : 𝗟’𝗔𝗟𝗚𝗢𝗥𝗜𝗧𝗛𝗠𝗘 𝗤𝗨𝗜 𝗙𝗔𝗜𝗧 𝗣𝗔𝗥𝗟𝗘𝗥 𝗟𝗘𝗦 𝗔𝗥𝗕𝗥𝗘𝗦

Image
En Machine Learning, un seul modèle peut se tromper. Mais plusieurs modèles bien combinés peuvent devenir très puissants. C’est exactement le principe du Random Forest. Random Forest est une méthode d’apprentissage automatique qui construit plusieurs arbres de décision sur différents échantillons de données. Chaque arbre donne sa prédiction. Ensuite, le modèle prend une décision finale : vote majoritaire pour la classification moyenne des prédictions pour la régression Ce qui rend Random Forest très efficace, c’est sa capacité à : réduire le surapprentissage améliorer la précision des prédictions gérer beaucoup de variables résister au bruit et aux valeurs aberrantes identifier les variables les plus importantes Son secret repose sur deux idées simples : Bootstrap Sampling : créer plusieurs échantillons aléatoires à partir des données. Random Feature Selection : sélectionner aléatoirement certaines variables à chaque séparation de l’arbre. Résultat : les arbres sont différents...

📈 𝗥𝗘́𝗚𝗥𝗘𝗦𝗦𝗜𝗢𝗡 𝗣𝗢𝗟𝗬𝗡𝗢𝗠𝗜𝗔𝗟𝗘 : 𝗤𝗨𝗔𝗡𝗗 𝗨𝗡𝗘 𝗗𝗥𝗢𝗜𝗧𝗘 𝗡𝗘 𝗦𝗨𝗙𝗙𝗜𝗧 𝗣𝗟𝗨𝗦 !

Image
Toutes les relations entre deux variables ne sont pas linéaires. Parfois, les données suivent une courbe, présentent des points de retournement ou évoluent de manière beaucoup plus complexe qu'une simple droite. C'est précisément dans ces situations que la 𝗿𝗲́𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗽𝗼𝗹𝘆𝗻𝗼𝗺𝗶𝗮𝗹𝗲 devient un outil incontournable. Son principe est simple : Au lieu d'utiliser uniquement X, on ajoute des termes comme X², X³ ou X⁴ afin de permettre au modèle de mieux représenter la réalité. Pourquoi l'utiliser ? Modéliser des relations non linéaires. Améliorer la précision des prédictions. Capturer des phénomènes complexes. Obtenir un meilleur ajustement des données. Attention au choix du degré ! Degré faible ➜ le modèle manque d'information (sous-ajustement). Degré trop élevé ➜ le modèle apprend même le bruit des données (sur-ajustement). Le meilleur modèle est celui qui généralise bien, pas celui qui colle parfaitement aux données d'entraînement. Co...