En analyse des donnรฉes, en รฉconomรฉtrie et en machine learning, deux modรจles reviennent trรจs souvent : la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐ et la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐.
Ces deux mรฉthodes sont trรจs utiles, mais elles ne rรฉpondent pas au mรชme type de problรจme.
La diffรฉrence principale est simple :

La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐ prรฉdit une valeur numรฉrique continue.

La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ prรฉdit une probabilitรฉ ou une catรฉgorie.
Autrement dit, la premiรจre rรฉpond souvent ร la question :
๐ธ๐๐๐๐๐ ๐๐๐๐๐๐ ๐๐-๐-๐๐ ๐๐๐๐๐๐๐ ?
La seconde rรฉpond plutรดt ร la question :
๐ธ๐๐๐ ๐๐๐ ๐๐ ๐๐๐๐๐๐, ๐๐ ๐๐๐๐๐๐๐๐๐๐๐́ ๐๐ ๐๐ ๐๐๐๐๐๐ ๐
’๐๐๐๐๐๐๐๐๐๐๐๐ ?

๐ณ๐ ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐
La rรฉgression linรฉaire est utilisรฉe lorsque la variable ร expliquer est ๐๐๐๐́๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐.
Elle permet de prรฉdire une valeur mesurable.
• prรฉdire la taille d’une plante ;
• estimer le rendement agricole ;
• prรฉvoir la tempรฉrature ;
• mesurer le niveau d’รฉmission de CO₂ ;
• prรฉvoir le chiffre d’affaires d’une entreprise.
Dans ce cas, le rรฉsultat peut รชtre par exemple :

๐ป๐๐๐๐๐ ๐๐๐́๐
๐๐๐ ๐
’๐๐๐ ๐๐๐๐๐๐ = ๐๐ ๐๐
Le modรจle fournit donc directement une valeur.

๐ณ๐ ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐
La rรฉgression logistique est utilisรฉe lorsque la variable ร expliquer est ๐๐๐๐́๐๐๐๐๐๐๐๐, gรฉnรฉralement binaire.
Elle permet de prรฉdire une probabilitรฉ, puis de classer l’observation dans une catรฉgorie.
• plante malade ou saine ;
• graine germรฉe ou non germรฉe ;
• email spam ou non spam ;
• individu survivant ou non survivant ;
• client susceptible d’acheter ou non.
Dans ce cas, le rรฉsultat peut รชtre par exemple :

๐ท๐๐๐๐๐๐๐๐๐๐́ ๐
๐ ๐๐๐๐๐
๐๐ = ๐,๐๐
Si la probabilitรฉ est supรฉrieure ร un seuil choisi, souvent ๐,๐, l’observation est classรฉe dans la catรฉgorie correspondante.

si ๐ > ๐,๐, la plante peut รชtre classรฉe comme ๐๐๐๐๐
๐.

๐ณ๐ ๐
๐๐๐๐́๐๐๐๐๐ ๐๐๐́ ๐̀ ๐๐๐๐๐๐๐
La diffรฉrence se situe principalement au niveau de la ๐๐๐๐๐๐๐๐ ๐
๐́๐๐๐๐
๐๐๐๐.

๐น๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐
Variable dรฉpendante : continue
Sortie du modรจle : valeur numรฉrique
Exemple : 25,6 cm, 12 tonnes, 30 °C

๐น๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐
Variable dรฉpendante : catรฉgorielle
Sortie du modรจle : probabilitรฉ ou classe
Exemple : 0 ou 1, malade ou sain, oui ou non

๐ช๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐́๐๐๐ ๐๐๐ ๐๐́๐๐๐๐๐๐๐ ?
Avec la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐, l’interprรฉtation est directe.
Le modรจle prรฉdit une valeur.

๐๐ ๐๐๐๐
๐๐๐๐๐ ๐๐๐๐๐๐๐๐ ๐๐๐́๐
๐๐ ๐๐๐ ๐
๐ ๐,๐ ๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐.
Avec la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐, l’interprรฉtation se fait en termes de probabilitรฉ.

๐๐ ๐๐๐๐๐๐๐๐๐๐๐́ ๐๐’๐๐๐ ๐๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐
๐ ๐๐๐ ๐
๐ ๐๐ %.

๐ช๐๐๐๐๐๐ ๐๐๐๐๐๐๐ ๐’๐๐๐๐๐๐ ?
Les deux modรจles ne sont pas รฉvaluรฉs avec les mรชmes critรจres.

Pour la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐, on utilise souvent des mesures basรฉes sur les erreurs de prรฉdiction, comme :
• ๐ด๐บ๐ฌ ;
• ๐น๐ด๐บ๐ฌ ;
• ๐ด๐จ๐ฌ ;
• ๐น².

Pour la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐, on utilise plutรดt des mesures adaptรฉes ร la classification, comme :
• ๐ณ๐๐ ๐ณ๐๐๐ ;
• ๐๐๐๐๐๐๐ ๐
๐ ๐๐๐๐๐๐๐๐๐ ;
• ๐๐๐๐๐๐๐๐ ;
• ๐๐๐๐๐๐ ;
• ๐๐๐́๐๐๐๐๐๐ ;
• ๐๐๐๐๐๐ ๐น๐ถ๐ช.

๐ณ๐๐ ๐๐๐๐๐๐๐̀๐๐๐ ๐̀ ๐๐́๐๐๐๐๐๐
Pour la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐, on vรฉrifie notamment :
• la linรฉaritรฉ de la relation ;
• l’indรฉpendance des observations ;
• l’homoscรฉdasticitรฉ des erreurs ;
• la normalitรฉ des rรฉsidus ;
• l’absence de forte multicolinรฉaritรฉ.
Pour la ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐, on vรฉrifie notamment :
• l’indรฉpendance des observations ;
• l’absence de forte multicolinรฉaritรฉ ;
• la relation linรฉaire entre les variables explicatives et le ๐๐๐๐๐, c’est-ร -dire les ๐๐๐-๐๐
๐
๐.

๐จ๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐
La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐ est adaptรฉe pour :
• prรฉdire le rendement agricole ;
• prรฉvoir la pluviomรฉtrie ;
• estimer la biomasse ;
• analyser la croissance des plantes ;
• prรฉvoir des ventes ou des revenus.
La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ est adaptรฉe pour :
• dรฉtecter une maladie ;
• prรฉdire la rรฉussite d’une germination ;
• classer une infestation parasitaire ;
• prรฉdire la survie d’une plante ;
• prรฉvoir l’achat ou le non-achat d’un produit.

๐จ̀ ๐๐๐๐๐๐๐
La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐ sert ร prรฉdire une ๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐.
La ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ sert ร prรฉdire une ๐๐๐๐๐๐๐๐๐๐๐́ ou une ๐๐๐๐́๐๐๐๐๐.
Le bon choix du modรจle dรฉpend donc avant tout de la nature de la variable dรฉpendante.

๐บ๐ ๐ ๐๐๐ ๐๐๐๐́๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐ : ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐́๐๐๐๐.

๐บ๐ ๐ ๐๐๐ ๐๐๐๐́๐๐๐๐๐๐๐๐ : ๐๐́๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐.
Si cette publication vous a รฉtรฉ utile, pensez ร ๐๐๐๐๐, ๐๐๐๐๐๐๐๐๐, ๐๐๐๐๐๐๐๐ et ๐๐๐๐๐๐๐๐๐๐๐ pour la relire plus tard.
Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร๐ฐ๐ผ๐ป๐ผ๐บรฉ๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐
https://forms.gle/yZAZimRXbTFbUWZk6
Commentaires
Enregistrer un commentaire