📊 𝑹𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 𝒗𝒔 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 : 𝒒𝒖𝒆𝒍𝒍𝒆 𝒅𝒊𝒇𝒇𝒆́𝒓𝒆𝒏𝒄𝒆 ? 📈

En analyse des données, en économétrie et en machine learning, deux modèles reviennent très souvent : la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 et la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆.

Ces deux méthodes sont très utiles, mais elles ne répondent pas au même type de problème.

La différence principale est simple :

 La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 prédit une valeur numérique continue.
 La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 prédit une probabilité ou une catégorie.

Autrement dit, la première répond souvent à la question :

𝑸𝒖𝒆𝒍𝒍𝒆 𝒗𝒂𝒍𝒆𝒖𝒓 𝒗𝒂-𝒕-𝒐𝒏 𝒐𝒃𝒕𝒆𝒏𝒊𝒓 ?

La seconde répond plutôt à la question :

𝑸𝒖𝒆𝒍 𝒆𝒔𝒕 𝒍𝒆 𝒓𝒊𝒔𝒒𝒖𝒆, 𝒍𝒂 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒐𝒖 𝒍𝒂 𝒄𝒍𝒂𝒔𝒔𝒆 𝒅’𝒂𝒑𝒑𝒂𝒓𝒕𝒆𝒏𝒂𝒏𝒄𝒆 ?

---

 𝑳𝒂 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆

La régression linéaire est utilisée lorsque la variable à expliquer est 𝒏𝒖𝒎𝒆́𝒓𝒊𝒒𝒖𝒆 𝒆𝒕 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒆.

Elle permet de prédire une valeur mesurable.

Exemples :

• prédire la taille d’une plante ;
• estimer le rendement agricole ;
• prévoir la température ;
• mesurer le niveau d’émission de CO₂ ;
• prévoir le chiffre d’affaires d’une entreprise.

Dans ce cas, le résultat peut être par exemple :

 𝑻𝒂𝒊𝒍𝒍𝒆 𝒑𝒓𝒆́𝒅𝒊𝒕𝒆 𝒅’𝒖𝒏𝒆 𝒑𝒍𝒂𝒏𝒕𝒆 = 𝟒𝟓 𝒄𝒎

Le modèle fournit donc directement une valeur.

---

 𝑳𝒂 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆

La régression logistique est utilisée lorsque la variable à expliquer est 𝒄𝒂𝒕𝒆́𝒈𝒐𝒓𝒊𝒆𝒍𝒍𝒆, généralement binaire.

Elle permet de prédire une probabilité, puis de classer l’observation dans une catégorie.

Exemples :

• plante malade ou saine ;
• graine germée ou non germée ;
• email spam ou non spam ;
• individu survivant ou non survivant ;
• client susceptible d’acheter ou non.

Dans ce cas, le résultat peut être par exemple :

 𝑷𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒅𝒆 𝒎𝒂𝒍𝒂𝒅𝒊𝒆 = 𝟎,𝟖𝟓

Si la probabilité est supérieure à un seuil choisi, souvent 𝟎,𝟓, l’observation est classée dans la catégorie correspondante.

Exemple :

 si 𝒑 > 𝟎,𝟓, la plante peut être classée comme 𝒎𝒂𝒍𝒂𝒅𝒆.

---

 𝑳𝒂 𝒅𝒊𝒇𝒇𝒆́𝒓𝒆𝒏𝒄𝒆 𝒄𝒍𝒆́ 𝒂̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓

La différence se situe principalement au niveau de la 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒅𝒆́𝒑𝒆𝒏𝒅𝒂𝒏𝒕𝒆.

 𝑹𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆
Variable dépendante : continue
Sortie du modèle : valeur numérique
Exemple : 25,6 cm, 12 tonnes, 30 °C

 𝑹𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆
Variable dépendante : catégorielle
Sortie du modèle : probabilité ou classe
Exemple : 0 ou 1, malade ou sain, oui ou non

---

 𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒊𝒏𝒕𝒆𝒓𝒑𝒓𝒆́𝒕𝒆𝒓 𝒍𝒆𝒔 𝒓𝒆́𝒔𝒖𝒍𝒕𝒂𝒕𝒔 ?

Avec la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆, l’interprétation est directe.

Le modèle prédit une valeur.

Exemple :

 𝒍𝒆 𝒓𝒆𝒏𝒅𝒆𝒎𝒆𝒏𝒕 𝒂𝒈𝒓𝒊𝒄𝒐𝒍𝒆 𝒑𝒓𝒆́𝒅𝒊𝒕 𝒆𝒔𝒕 𝒅𝒆 𝟑,𝟓 𝒕𝒐𝒏𝒏𝒆𝒔 𝒑𝒂𝒓 𝒉𝒆𝒄𝒕𝒂𝒓𝒆.

Avec la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆, l’interprétation se fait en termes de probabilité.

Exemple :

 𝒍𝒂 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ 𝒒𝒖’𝒖𝒏𝒆 𝒑𝒍𝒂𝒏𝒕𝒆 𝒔𝒐𝒊𝒕 𝒎𝒂𝒍𝒂𝒅𝒆 𝒆𝒔𝒕 𝒅𝒆 𝟖𝟓 %.

---

 𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒎𝒆𝒔𝒖𝒓𝒆𝒓 𝒍’𝒆𝒓𝒓𝒆𝒖𝒓 ?

Les deux modèles ne sont pas évalués avec les mêmes critères.

 Pour la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆, on utilise souvent des mesures basées sur les erreurs de prédiction, comme :

• 𝑴𝑺𝑬 ;
• 𝑹𝑴𝑺𝑬 ;
• 𝑴𝑨𝑬 ;
• 𝑹².

 Pour la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆, on utilise plutôt des mesures adaptées à la classification, comme :

• 𝑳𝒐𝒈 𝑳𝒐𝒔𝒔 ;
• 𝒎𝒂𝒕𝒓𝒊𝒄𝒆 𝒅𝒆 𝒄𝒐𝒏𝒇𝒖𝒔𝒊𝒐𝒏 ;
• 𝒂𝒄𝒄𝒖𝒓𝒂𝒄𝒚 ;
• 𝒓𝒂𝒑𝒑𝒆𝒍 ;
• 𝒑𝒓𝒆́𝒄𝒊𝒔𝒊𝒐𝒏 ;
• 𝒄𝒐𝒖𝒓𝒃𝒆 𝑹𝑶𝑪.

---

 𝑳𝒆𝒔 𝒉𝒚𝒑𝒐𝒕𝒉𝒆̀𝒔𝒆𝒔 𝒂̀ 𝒗𝒆́𝒓𝒊𝒇𝒊𝒆𝒓

Pour la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆, on vérifie notamment :

• la linéarité de la relation ;
• l’indépendance des observations ;
• l’homoscédasticité des erreurs ;
• la normalité des résidus ;
• l’absence de forte multicolinéarité.

Pour la 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆, on vérifie notamment :

• l’indépendance des observations ;
• l’absence de forte multicolinéarité ;
• la relation linéaire entre les variables explicatives et le 𝒍𝒐𝒈𝒊𝒕, c’est-à-dire les 𝒍𝒐𝒈-𝒐𝒅𝒅𝒔.

---

 𝑨𝒑𝒑𝒍𝒊𝒄𝒂𝒕𝒊𝒐𝒏𝒔 𝒄𝒐𝒖𝒓𝒂𝒏𝒕𝒆𝒔

La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 est adaptée pour :

• prédire le rendement agricole ;
• prévoir la pluviométrie ;
• estimer la biomasse ;
• analyser la croissance des plantes ;
• prévoir des ventes ou des revenus.

La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 est adaptée pour :

• détecter une maladie ;
• prédire la réussite d’une germination ;
• classer une infestation parasitaire ;
• prédire la survie d’une plante ;
• prévoir l’achat ou le non-achat d’un produit.

---

 𝑨̀ 𝒓𝒆𝒕𝒆𝒏𝒊𝒓

La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 sert à prédire une 𝒗𝒂𝒍𝒆𝒖𝒓 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒆.

La 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 sert à prédire une 𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕𝒆́ ou une 𝒄𝒂𝒕𝒆́𝒈𝒐𝒓𝒊𝒆.

Le bon choix du modèle dépend donc avant tout de la nature de la variable dépendante.

 𝑺𝒊 𝒀 𝒆𝒔𝒕 𝒏𝒖𝒎𝒆́𝒓𝒊𝒒𝒖𝒆 𝒆𝒕 𝒄𝒐𝒏𝒕𝒊𝒏𝒖𝒆 : 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆.
 𝑺𝒊 𝒀 𝒆𝒔𝒕 𝒄𝒂𝒕𝒆́𝒈𝒐𝒓𝒊𝒆𝒍𝒍𝒆 : 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆.

Si cette publication vous a été utile, pensez à 𝒍𝒊𝒌𝒆𝒓, 𝒄𝒐𝒎𝒎𝒆𝒏𝒕𝒆𝒓, 𝒑𝒂𝒓𝒕𝒂𝒈𝒆𝒓 et 𝒆𝒏𝒓𝒆𝒈𝒊𝒔𝒕𝒓𝒆𝒓 pour la relire plus tard.

Inscrivez-vous dès maintenant pour réserver votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 https://forms.gle/yZAZimRXbTFbUWZk6

#DataScience #Econometrie #RegressionLineaire #RegressionLogistique #MachineLearning #Statistiques #AnalyseDesDonnees #ModelisationStatistique

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝑹𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒊𝒏𝒆́𝒂𝒊𝒓𝒆 𝒗𝒔 𝒓𝒆́𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒒𝒖𝒆 : 𝒒𝒖𝒆𝒍𝒍𝒆 𝒅𝒊𝒇𝒇𝒆́𝒓𝒆𝒏𝒄𝒆 ? 📈

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

panel ARDL in STATA

comment exporter les résultats des estimations de STATA vers word, Excel...