Articles

𝑹é𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝑳𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 : 𝒍’𝒂𝒍𝒈𝒐𝒓𝒊𝒕𝒉𝒎𝒆 𝒒𝒖𝒊 𝒕𝒓𝒂𝒏𝒔𝒇𝒐𝒓𝒎𝒆 𝒍𝒆𝒔 𝒅𝒐𝒏𝒏é𝒆𝒔 𝒆𝒏 𝒅é𝒄𝒊𝒔𝒊𝒐𝒏𝒔

Image
En analyse statistique et en Machine Learning, certaines questions ne cherchent pas à prédire une valeur continue, mais plutôt à répondre par oui ou non, succès ou échec, client fidèle ou client perdu, malade ou non malade. C’est précisément là que la 𝒓é𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 devient incontournable. Contrairement à la régression linéaire qui prédit directement une valeur numérique, la régression logistique estime une 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕é comprise entre 0 et 1. Elle répond à une question simple : 𝑸𝒖𝒆𝒍𝒍𝒆 𝒆𝒔𝒕 𝒍𝒂 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕é 𝒒𝒖’𝒖𝒏 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖 𝒂𝒑𝒑𝒂𝒓𝒕𝒊𝒆𝒏𝒏𝒆 à 𝒍𝒂 𝒄𝒂𝒕é𝒈𝒐𝒓𝒊𝒆 1 ? Son principe repose sur trois grandes étapes : 𝟏. 𝑼𝒏 𝒎𝒐𝒅è𝒍𝒆 𝒍𝒊𝒏é𝒂𝒊𝒓𝒆 Les variables explicatives sont d’abord combinées sous forme linéaire : 𝒛 = 𝒘𝑿 + 𝒃 𝟐. 𝑼𝒏𝒆 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏 𝒔𝒊𝒈𝒎𝒐ï𝒅𝒆 Cette fonction transforme toute valeur réelle en une probabilité comprise entre 0 et 1. 𝟑. 𝑼𝒏𝒆 𝒓è𝒈𝒍𝒆 𝒅𝒆 𝒅é𝒄𝒊𝒔𝒊𝒐𝒏 Si la p...

📊 𝑭𝒂𝒎𝒊𝒍𝒍𝒆 𝒅𝒆𝒔 𝑨𝒍𝒈𝒐𝒓𝒊𝒕𝒉𝒎𝒆𝒔 𝒅𝒆 𝑴𝒂𝒄𝒉𝒊𝒏𝒆 𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒔’𝒚 𝒓𝒆𝒕𝒓𝒐𝒖𝒗𝒆𝒓 ?

Image
𝑭𝒂𝒎𝒊𝒍𝒍𝒆 𝒅𝒆𝒔 𝑨𝒍𝒈𝒐𝒓𝒊𝒕𝒉𝒎𝒆𝒔 𝒅𝒆 𝑴𝒂𝒄𝒉𝒊𝒏𝒆 𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈 : 𝒄𝒐𝒎𝒎𝒆𝒏𝒕 𝒔’𝒚 𝒓𝒆𝒕𝒓𝒐𝒖𝒗𝒆𝒓 ? Le Machine Learning ne se résume pas à un seul algorithme. C’est plutôt une grande famille de méthodes qui permettent aux machines d’apprendre à partir des données, selon le type de problème à résoudre. 𝟏. 𝑳’𝒂𝒑𝒑𝒓𝒆𝒏𝒕𝒊𝒔𝒔𝒂𝒈𝒆 𝒔𝒖𝒑𝒆𝒓𝒗𝒊𝒔𝒆́ Ici, les données contiennent déjà une réponse connue. L’objectif est d’apprendre une relation entre les variables explicatives et la variable cible. Pour prédire une valeur continue, on parle de régression : régression linéaire, Ridge, Lasso, Elastic Net, Random Forest Regressor, Gradient Boosting, etc. Pour prédire une catégorie, on parle de classification : régression logistique, SVM, KNN, Naïve Bayes, arbres de décision, Random Forest, XGBoost, LightGBM, CatBoost, etc. 𝟐. 𝑳’𝒂𝒑𝒑𝒓𝒆𝒏𝒕𝒊𝒔𝒔𝒂𝒈𝒆 𝒏𝒐𝒏 𝒔𝒖𝒑𝒆𝒓𝒗𝒊𝒔𝒆́ Ici, il n’y a pas de réponse prédéfinie. Le modèle cherche lui-même à déco...

𝑭𝒐𝒓𝒎𝒖𝒍𝒆𝒔 𝑺𝒕𝒂𝒕𝒊𝒔𝒕𝒊𝒒𝒖𝒆𝒔 : 𝒍𝒆𝒔 𝒃𝒂𝒔𝒆𝒔 𝒂̀ 𝒎𝒂𝒊̂𝒕𝒓𝒊𝒔𝒆𝒓 𝒑𝒐𝒖𝒓 𝒃𝒊𝒆𝒏 𝒂𝒏𝒂𝒍𝒚𝒔𝒆𝒓 𝒍𝒆𝒔 𝒅𝒐𝒏𝒏𝒆́𝒆𝒔

Image
En statistique, les formules ne sont pas seulement des calculs. Elles permettent de 𝒓𝒆́𝒔𝒖𝒎𝒆𝒓, 𝒄𝒐𝒎𝒑𝒂𝒓𝒆𝒓 et 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒆𝒓 les données avec précision. 𝟏. 𝑳𝒂 𝒎𝒐𝒚𝒆𝒏𝒏𝒆 Elle indique la valeur centrale d’un ensemble de données. 𝒙̄ = 𝚺𝒙 / 𝒏 Elle répond à la question : quelle est la valeur moyenne observée ? 𝟐. 𝑳𝒂 𝒎𝒆́𝒅𝒊𝒂𝒏𝒆 Elle représente la valeur située au milieu lorsque les données sont classées. Elle est très utile lorsque les données contiennent des valeurs extrêmes. 𝟑. 𝑳𝒂 𝒗𝒂𝒓𝒊𝒂𝒏𝒄𝒆 Elle mesure à quel point les observations s’éloignent de la moyenne. Plus la variance est élevée, plus les données sont dispersées. 𝟒. 𝑳’𝒆́𝒄𝒂𝒓𝒕-𝒕𝒚𝒑𝒆 C’est la racine carrée de la variance. Il permet de comprendre la dispersion des données dans la même unité que la variable étudiée. Un faible écart-type signifie que les valeurs sont proches de la moyenne. 𝟓. 𝑳𝒆 𝒔𝒄𝒐𝒓𝒆 𝒁 Le score Z indique la position d’une observation par rappor...