𝗣𝗟𝗦 : 𝓛𝓪 𝓡é𝓰𝓻𝓮𝓼𝓼𝓲𝓸𝓷 𝓠𝓾𝓲 𝓥𝓪 𝓑𝓸𝓸𝓼𝓽𝓮𝓻 𝓥𝓸𝓼 𝓐𝓷𝓪𝓵𝔂𝓼𝓮𝓼 𝓭𝓮 𝓓𝓸𝓷𝓷é𝓮𝓼 !
La 𝗿é𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗣𝗟𝗦 (𝗣𝗮𝗿𝘁𝗶𝗮𝗹 𝗟𝗲𝗮𝘀𝘁 𝗦𝗾𝘂𝗮𝗿𝗲𝘀) est une technique de modélisation des relations entre des prédicteurs et des variables cibles, particulièrement utile lorsque les prédicteurs sont fortement colinéaires ou plus nombreux que les observations. PLS extrait des composantes qui maximisent la covariance entre prédicteurs et réponses, ce qui la rend adaptée aux données de haute dimension et aux petits échantillons.
𝔸𝕧𝕒𝕟𝕥𝕒𝕘𝕖𝕤 :
- ✔️ 𝕲è𝖗𝖊 𝖑𝖆 𝖈𝖔𝖑𝖎𝖓é𝖆𝖗𝖎𝖙é: Traite
la multicolinéarité en extrayant des composantes orthogonales.
- ✔️ 𝕽é𝖉𝖚𝖎𝖙 𝖑𝖆 𝖉𝖎𝖒𝖊𝖓𝖘𝖎𝖔𝖓𝖓𝖆𝖑𝖎𝖙é:
Simplifie les données en les projetant dans un espace de moindre
dimension.
- ✔️ 𝕬𝖕𝖕𝖑𝖎𝖈𝖆𝖙𝖎𝖔𝖓𝖘 𝖛𝖆𝖗𝖎é𝖊𝖘: Utile en chimiométrie,
bio-informatique, finance et génomique.
- ✔️ 𝕬𝖒é𝖑𝖎𝖔𝖗𝖊 𝖑𝖆 𝖕𝖗é𝖈𝖎𝖘𝖎𝖔𝖓 𝖕𝖗é𝖉𝖎𝖈𝖙𝖎𝖛𝖊 : Concentre
l’analyse sur des composantes expliquant à la fois la variabilité des
prédicteurs et de la réponse.
𝕀𝕟𝕔𝕠𝕟𝕧é𝕟𝕚𝕖𝕟𝕥𝕤:
- ❌ 𝕴𝖓𝖙𝖊𝖗𝖕𝖗é𝖙𝖆𝖙𝖎𝖔𝖓 𝖉𝖎𝖋𝖋𝖎𝖈𝖎𝖑𝖊: Les
composantes sont des combinaisons linéaires des variables d’origine,
rendant leur interprétation moins intuitive.
- ❌ 𝕽𝖎𝖘𝖖𝖚𝖊 𝖉𝖊 𝖘𝖚𝖗𝖆𝖕𝖕𝖗𝖊𝖓𝖙𝖎𝖘𝖘𝖆𝖌𝖊:
Nécessite un réglage attentif du nombre de composantes pour éviter
l’overfitting.
- ❌ 𝕾𝖊𝖓𝖘𝖎𝖇𝖎𝖑𝖎𝖙é 𝖆𝖚𝖝 𝖍𝖞𝖕𝖔𝖙𝖍è𝖘𝖊𝖘:
Suppose une relation linéaire entre prédicteurs et réponses.
- ❌ 𝕾𝖊𝖓𝖘𝖎𝖇𝖎𝖑𝖎𝖙é à 𝖑’é𝖈𝖍𝖊𝖑𝖑𝖊:
Nécessite une standardisation adéquate des variables.
L’image
ci-dessous illustre le principe de base de la régression PLS : la projection
des prédicteurs et des réponses sur de nouvelles composantes maximisant leur
covariance. Les vecteurs rouges représentent les vecteurs de chargement dans
l’espace des entrées et des sorties.
La régression PLS est souvent utilisée comme alternative à la 𝗿é𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝘀𝘂𝗿 𝗰𝗼𝗺𝗽𝗼𝘀𝗮𝗻𝘁𝗲𝘀 𝗽𝗿𝗶𝗻𝗰𝗶𝗽𝗮𝗹𝗲𝘀 (𝗣𝗖𝗥). Bien que la PLS et la PCR réduisent toutes deux la dimensionnalité, leur approche diffère. La PCR maximise la variance au sein des prédicteurs sans tenir compte de la variable réponse, ce qui peut conduire à des composantes moins utiles pour la prédiction. À l’inverse, la PLS maximise directement la covariance entre les prédicteurs et les réponses, ce qui la rend plus efficace pour les tâches prédictives, particulièrement en présence d’une forte colinéarité ou d’un grand nombre de prédicteurs.
𝗘𝗻𝘃𝗶𝗲 𝗱’𝗲𝗻 𝗮𝗽𝗽𝗿𝗲𝗻𝗱𝗿𝗲 𝗱𝗮𝘃𝗮𝗻𝘁𝗮𝗴𝗲? Pour mieux apprendre l’utilisation des logiciel et modèles statistiques intégrant 𝗹’𝗜𝗔 𝗰𝗼𝗺𝗺𝗲 𝗼𝘂𝘁𝗶𝗹 𝗱𝗲 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝘃𝗶𝘁é, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨.
#database #data #pythonprogrammer
#datascienceeducation #rprogramminglanguage
Commentaires
Enregistrer un commentaire