๐Ÿ“Š ๐‘น๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† ๐’—๐’” ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’† : ๐’’๐’–๐’†๐’๐’๐’† ๐’…๐’Š๐’‡๐’‡๐’†́๐’“๐’†๐’๐’„๐’† ? ๐Ÿ“ˆ

En analyse des donnรฉes, en รฉconomรฉtrie et en machine learning, deux modรจles reviennent trรจs souvent : la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† et la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†.

Ces deux mรฉthodes sont trรจs utiles, mais elles ne rรฉpondent pas au mรชme type de problรจme.
La diffรฉrence principale est simple :
๐Ÿ‘‰ La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† prรฉdit une valeur numรฉrique continue.
๐Ÿ‘‰ La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’† prรฉdit une probabilitรฉ ou une catรฉgorie.
Autrement dit, la premiรจre rรฉpond souvent ร  la question :
๐‘ธ๐’–๐’†๐’๐’๐’† ๐’—๐’‚๐’๐’†๐’–๐’“ ๐’—๐’‚-๐’•-๐’๐’ ๐’๐’ƒ๐’•๐’†๐’๐’Š๐’“ ?
La seconde rรฉpond plutรดt ร  la question :
๐‘ธ๐’–๐’†๐’ ๐’†๐’”๐’• ๐’๐’† ๐’“๐’Š๐’”๐’’๐’–๐’†, ๐’๐’‚ ๐’‘๐’“๐’๐’ƒ๐’‚๐’ƒ๐’Š๐’๐’Š๐’•๐’†́ ๐’๐’– ๐’๐’‚ ๐’„๐’๐’‚๐’”๐’”๐’† ๐’…’๐’‚๐’‘๐’‘๐’‚๐’“๐’•๐’†๐’๐’‚๐’๐’„๐’† ?
---
๐Ÿ“Œ ๐‘ณ๐’‚ ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†
La rรฉgression linรฉaire est utilisรฉe lorsque la variable ร  expliquer est ๐’๐’–๐’Ž๐’†́๐’“๐’Š๐’’๐’–๐’† ๐’†๐’• ๐’„๐’๐’๐’•๐’Š๐’๐’–๐’†.
Elle permet de prรฉdire une valeur mesurable.
Exemples :
• prรฉdire la taille d’une plante ;
• estimer le rendement agricole ;
• prรฉvoir la tempรฉrature ;
• mesurer le niveau d’รฉmission de CO₂ ;
• prรฉvoir le chiffre d’affaires d’une entreprise.
Dans ce cas, le rรฉsultat peut รชtre par exemple :
๐Ÿ‘‰ ๐‘ป๐’‚๐’Š๐’๐’๐’† ๐’‘๐’“๐’†́๐’…๐’Š๐’•๐’† ๐’…’๐’–๐’๐’† ๐’‘๐’๐’‚๐’๐’•๐’† = ๐Ÿ’๐Ÿ“ ๐’„๐’Ž
Le modรจle fournit donc directement une valeur.
---
๐Ÿ“Œ ๐‘ณ๐’‚ ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†
La rรฉgression logistique est utilisรฉe lorsque la variable ร  expliquer est ๐’„๐’‚๐’•๐’†́๐’ˆ๐’๐’“๐’Š๐’†๐’๐’๐’†, gรฉnรฉralement binaire.
Elle permet de prรฉdire une probabilitรฉ, puis de classer l’observation dans une catรฉgorie.
Exemples :
• plante malade ou saine ;
• graine germรฉe ou non germรฉe ;
• email spam ou non spam ;
• individu survivant ou non survivant ;
• client susceptible d’acheter ou non.
Dans ce cas, le rรฉsultat peut รชtre par exemple :
๐Ÿ‘‰ ๐‘ท๐’“๐’๐’ƒ๐’‚๐’ƒ๐’Š๐’๐’Š๐’•๐’†́ ๐’…๐’† ๐’Ž๐’‚๐’๐’‚๐’…๐’Š๐’† = ๐ŸŽ,๐Ÿ–๐Ÿ“
Si la probabilitรฉ est supรฉrieure ร  un seuil choisi, souvent ๐ŸŽ,๐Ÿ“, l’observation est classรฉe dans la catรฉgorie correspondante.
Exemple :
๐Ÿ‘‰ si ๐’‘ > ๐ŸŽ,๐Ÿ“, la plante peut รชtre classรฉe comme ๐’Ž๐’‚๐’๐’‚๐’…๐’†.
---
๐Ÿ“Œ ๐‘ณ๐’‚ ๐’…๐’Š๐’‡๐’‡๐’†́๐’“๐’†๐’๐’„๐’† ๐’„๐’๐’†́ ๐’‚̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“
La diffรฉrence se situe principalement au niveau de la ๐’—๐’‚๐’“๐’Š๐’‚๐’ƒ๐’๐’† ๐’…๐’†́๐’‘๐’†๐’๐’…๐’‚๐’๐’•๐’†.
๐Ÿ”น ๐‘น๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†
Variable dรฉpendante : continue
Sortie du modรจle : valeur numรฉrique
Exemple : 25,6 cm, 12 tonnes, 30 °C
๐Ÿ”น ๐‘น๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†
Variable dรฉpendante : catรฉgorielle
Sortie du modรจle : probabilitรฉ ou classe
Exemple : 0 ou 1, malade ou sain, oui ou non
---
๐Ÿ“Œ ๐‘ช๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’Š๐’๐’•๐’†๐’“๐’‘๐’“๐’†́๐’•๐’†๐’“ ๐’๐’†๐’” ๐’“๐’†́๐’”๐’–๐’๐’•๐’‚๐’•๐’” ?
Avec la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†, l’interprรฉtation est directe.
Le modรจle prรฉdit une valeur.
Exemple :
๐Ÿ‘‰ ๐’๐’† ๐’“๐’†๐’๐’…๐’†๐’Ž๐’†๐’๐’• ๐’‚๐’ˆ๐’“๐’Š๐’„๐’๐’๐’† ๐’‘๐’“๐’†́๐’…๐’Š๐’• ๐’†๐’”๐’• ๐’…๐’† ๐Ÿ‘,๐Ÿ“ ๐’•๐’๐’๐’๐’†๐’” ๐’‘๐’‚๐’“ ๐’‰๐’†๐’„๐’•๐’‚๐’“๐’†.
Avec la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†, l’interprรฉtation se fait en termes de probabilitรฉ.
Exemple :
๐Ÿ‘‰ ๐’๐’‚ ๐’‘๐’“๐’๐’ƒ๐’‚๐’ƒ๐’Š๐’๐’Š๐’•๐’†́ ๐’’๐’–’๐’–๐’๐’† ๐’‘๐’๐’‚๐’๐’•๐’† ๐’”๐’๐’Š๐’• ๐’Ž๐’‚๐’๐’‚๐’…๐’† ๐’†๐’”๐’• ๐’…๐’† ๐Ÿ–๐Ÿ“ %.
---
๐Ÿ“Œ ๐‘ช๐’๐’Ž๐’Ž๐’†๐’๐’• ๐’Ž๐’†๐’”๐’–๐’“๐’†๐’“ ๐’’๐’†๐’“๐’“๐’†๐’–๐’“ ?
Les deux modรจles ne sont pas รฉvaluรฉs avec les mรชmes critรจres.
๐Ÿ”น Pour la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†, on utilise souvent des mesures basรฉes sur les erreurs de prรฉdiction, comme :
• ๐‘ด๐‘บ๐‘ฌ ;
• ๐‘น๐‘ด๐‘บ๐‘ฌ ;
• ๐‘ด๐‘จ๐‘ฌ ;
• ๐‘น².
๐Ÿ”น Pour la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†, on utilise plutรดt des mesures adaptรฉes ร  la classification, comme :
• ๐‘ณ๐’๐’ˆ ๐‘ณ๐’๐’”๐’” ;
• ๐’Ž๐’‚๐’•๐’“๐’Š๐’„๐’† ๐’…๐’† ๐’„๐’๐’๐’‡๐’–๐’”๐’Š๐’๐’ ;
• ๐’‚๐’„๐’„๐’–๐’“๐’‚๐’„๐’š ;
• ๐’“๐’‚๐’‘๐’‘๐’†๐’ ;
• ๐’‘๐’“๐’†́๐’„๐’Š๐’”๐’Š๐’๐’ ;
• ๐’„๐’๐’–๐’“๐’ƒ๐’† ๐‘น๐‘ถ๐‘ช.
---
๐Ÿ“Œ ๐‘ณ๐’†๐’” ๐’‰๐’š๐’‘๐’๐’•๐’‰๐’†̀๐’”๐’†๐’” ๐’‚̀ ๐’—๐’†́๐’“๐’Š๐’‡๐’Š๐’†๐’“
Pour la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†, on vรฉrifie notamment :
• la linรฉaritรฉ de la relation ;
• l’indรฉpendance des observations ;
• l’homoscรฉdasticitรฉ des erreurs ;
• la normalitรฉ des rรฉsidus ;
• l’absence de forte multicolinรฉaritรฉ.
Pour la ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†, on vรฉrifie notamment :
• l’indรฉpendance des observations ;
• l’absence de forte multicolinรฉaritรฉ ;
• la relation linรฉaire entre les variables explicatives et le ๐’๐’๐’ˆ๐’Š๐’•, c’est-ร -dire les ๐’๐’๐’ˆ-๐’๐’…๐’…๐’”.
---
๐Ÿ“Œ ๐‘จ๐’‘๐’‘๐’๐’Š๐’„๐’‚๐’•๐’Š๐’๐’๐’” ๐’„๐’๐’–๐’“๐’‚๐’๐’•๐’†๐’”
La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† est adaptรฉe pour :
• prรฉdire le rendement agricole ;
• prรฉvoir la pluviomรฉtrie ;
• estimer la biomasse ;
• analyser la croissance des plantes ;
• prรฉvoir des ventes ou des revenus.
La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’† est adaptรฉe pour :
• dรฉtecter une maladie ;
• prรฉdire la rรฉussite d’une germination ;
• classer une infestation parasitaire ;
• prรฉdire la survie d’une plante ;
• prรฉvoir l’achat ou le non-achat d’un produit.
---
✅ ๐‘จ̀ ๐’“๐’†๐’•๐’†๐’๐’Š๐’“
La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’† sert ร  prรฉdire une ๐’—๐’‚๐’๐’†๐’–๐’“ ๐’„๐’๐’๐’•๐’Š๐’๐’–๐’†.
La ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’† sert ร  prรฉdire une ๐’‘๐’“๐’๐’ƒ๐’‚๐’ƒ๐’Š๐’๐’Š๐’•๐’†́ ou une ๐’„๐’‚๐’•๐’†́๐’ˆ๐’๐’“๐’Š๐’†.
Le bon choix du modรจle dรฉpend donc avant tout de la nature de la variable dรฉpendante.
๐Ÿ‘‰ ๐‘บ๐’Š ๐’€ ๐’†๐’”๐’• ๐’๐’–๐’Ž๐’†́๐’“๐’Š๐’’๐’–๐’† ๐’†๐’• ๐’„๐’๐’๐’•๐’Š๐’๐’–๐’† : ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’Š๐’๐’†́๐’‚๐’Š๐’“๐’†.
๐Ÿ‘‰ ๐‘บ๐’Š ๐’€ ๐’†๐’”๐’• ๐’„๐’‚๐’•๐’†́๐’ˆ๐’๐’“๐’Š๐’†๐’๐’๐’† : ๐’“๐’†́๐’ˆ๐’“๐’†๐’”๐’”๐’Š๐’๐’ ๐’๐’๐’ˆ๐’Š๐’”๐’•๐’Š๐’’๐’–๐’†.
Si cette publication vous a รฉtรฉ utile, pensez ร  ๐’๐’Š๐’Œ๐’†๐’“, ๐’„๐’๐’Ž๐’Ž๐’†๐’๐’•๐’†๐’“, ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ et ๐’†๐’๐’“๐’†๐’ˆ๐’Š๐’”๐’•๐’“๐’†๐’“ pour la relire plus tard.
Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ https://forms.gle/yZAZimRXbTFbUWZk6


Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique