๐๐ง๐๐ฅ๐ฒ๐ฌ๐ ๐๐ง ๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐๐ฌ ๐๐ซ๐ข๐ง๐๐ข๐ฉ๐๐ฅ๐๐ฌ (๐๐๐) : ๐๐ข๐ฆ๐ฉ๐ฅ๐ข๐๐ข๐๐ซ ๐ฅ๐ ๐๐จ๐ฆ๐ฉ๐ฅ๐๐ฑ๐ข๐ญ๐́ ๐๐๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ ๐๐ฎ’๐๐ฌ๐ญ-๐๐ ๐ช๐ฎ๐ ๐ฅ’๐๐๐ ?
L’Analyse en Composantes Principales (ACP) est une ๐ญ๐๐๐ก๐ง๐ข๐ช๐ฎ๐ ๐๐ ๐ซ๐́๐๐ฎ๐๐ญ๐ข๐จ๐ง ๐๐ ๐๐ข๐ฆ๐๐ง๐ฌ๐ข๐จ๐ง๐ง๐๐ฅ๐ข๐ญ๐́. Elle transforme un jeu de donnรฉes comportant de nombreuses variables en un ensemble plus petit de nouvelles variables (๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐๐ฌ ๐ฉ๐ซ๐ข๐ง๐๐ข๐ฉ๐๐ฅ๐๐ฌ) tout en conservant l’essentiel de l’information (๐ฅ๐ ๐ฏ๐๐ซ๐ข๐๐ง๐๐).
U๐ฃ ๐ก๐๐ ๐ ๐๐ฉ ๐ช๐ฃ ๐๐๐ง๐ฉ๐๐๐ de ce post avant d'aller plus loin nous feront Plaisir. En termes simples : • Donnรฉes initiales = beaucoup de variables corrรฉlรฉes.
• ACP = crรฉe de nouveaux axes (๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐๐ฌ ๐ฉ๐ซ๐ข๐ง๐๐ข๐ฉ๐๐ฅ๐๐ฌ) qui capturent un maximum d’information.
• Rรฉsultat = moins de variables, mais l’essentiel des variations est prรฉservรฉ.
๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฎ๐ญ๐ข๐ฅ๐ข๐ฌ๐๐ซ ๐ฅ’๐๐๐ ?
• Les donnรฉes multidimensionnelles sont difficiles ร analyser et ร visualiser.
• Beaucoup de variables sont corrรฉlรฉes (๐ซ๐๐๐จ๐ง๐๐๐ง๐๐).
• L’ACP rรฉduit la redondance tout en gardant les ๐ฌ๐๐ก๐́๐ฆ๐๐ฌ ๐๐ฌ๐ฌ๐๐ง๐ญ๐ข๐๐ฅ๐ฌ. Domaines d’application : ๐๐ฉ๐ฉ๐ซ๐๐ง๐ญ๐ข๐ฌ๐ฌ๐๐ ๐ ๐๐ฎ๐ญ๐จ๐ฆ๐๐ญ๐ข๐ช๐ฎ๐, ๐๐จ๐ฆ๐ฉ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ๐’๐ข๐ฆ๐๐ ๐๐ฌ, ๐ ๐́๐ง๐จ๐ฆ๐ข๐ช๐ฎ๐, ๐๐ข๐ง๐๐ง๐๐ (๐๐ง๐๐ฅ๐ฒ๐ฌ๐ ๐๐๐ฌ ๐ซ๐ข๐ฌ๐ช๐ฎ๐๐ฌ), ๐๐ ๐ซ๐ข๐๐ฎ๐ฅ๐ญ๐ฎ๐ซ๐ (๐ฉ๐ก๐́๐ง๐จ๐ญ๐ฒ๐ฉ๐๐ ๐, ๐ญ๐ซ๐๐ข๐ญ๐ฌ ๐๐๐ฌ ๐ฉ๐ฅ๐๐ง๐ญ๐๐ฌ). ๐’๐ข๐๐́๐ ๐๐ฅ๐́
• La ๐สณแต ๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐ ๐ฉ๐ซ๐ข๐ง๐๐ข๐ฉ๐๐ฅ๐ (๐๐๐) explique la plus grande variance possible.
• La ๐แต ๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐ (๐๐๐) explique la variance suivante, perpendiculairement ร CP1.
• On continue ainsi pour d’autres composantes. Exemple : au lieu de travailler avec 100 variables corrรฉlรฉes, 5 ร 10 composantes principales peuvent suffire pour expliquer la majoritรฉ de la variabilitรฉ. ๐๐ก๐จ๐ข๐ฑ ๐๐ฎ ๐ง๐จ๐ฆ๐๐ซ๐ ๐๐ ๐๐จ๐ฆ๐ฉ๐จ๐ฌ๐๐ง๐ญ๐๐ฌ Chaque ๐ฏ๐๐ฅ๐๐ฎ๐ซ ๐ฉ๐ซ๐จ๐ฉ๐ซ๐ correspond ร une variance expliquรฉe. On garde en gรฉnรฉral les premiรจres composantes qui expliquent 80–95 % de la variance totale (๐ฅ๐ “๐ฌ๐๐ซ๐๐ ๐ฉ๐ฅ๐จ๐ญ” aide ร dรฉcider). ๐๐ฑ๐๐ฆ๐ฉ๐ฅ๐ ๐ข๐ง๐ญ๐ฎ๐ข๐ญ๐ข๐ Si vous analysez la ๐ก๐๐ฎ๐ญ๐๐ฎ๐ซ et la ๐ฅ๐จ๐ง๐ ๐ฎ๐๐ฎ๐ซ ๐๐๐ฌ ๐๐๐ฎ๐ข๐ฅ๐ฅ๐๐ฌ d’une plante :
• Ces variables sont corrรฉlรฉes.
• L’ACP crรฉe un nouvel axe (๐๐๐) qui rรฉsume la ๐ญ๐๐ง๐๐๐ง๐๐ ๐๐ ๐๐ซ๐จ๐ข๐ฌ๐ฌ๐๐ง๐๐.
• Au lieu d’analyser chaque variable sรฉparรฉment, CP1 capture l’information principale.
๐๐ข๐ฌ๐ฎ๐๐ฅ๐ข๐ฌ๐๐ญ๐ข๐จ๐ง ๐ฉ๐จ๐ฌ๐ฌ๐ข๐๐ฅ๐
• ๐๐ฎ๐๐ ๐ ๐๐ ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ des CP → rรฉvรจle les regroupements.
• ๐๐ข๐ฉ๐ฅ๐จ๐ญ → montre les CP + contribution des variables d’origine.
• ๐๐๐ซ๐๐ ๐ฉ๐ฅ๐จ๐ญ → illustre la variance expliquรฉe par chaque CP.
๐ ๐จ๐ซ๐๐๐ฌ & ๐ฅ๐ข๐ฆ๐ข๐ญ๐๐ฌ ๐๐ฏ๐๐ง๐ญ๐๐ ๐๐ฌ :
• Rรฉduit la ๐๐ข๐ฆ๐๐ง๐ฌ๐ข๐จ๐ง๐ง๐๐ฅ๐ข๐ญ๐́.
• Supprime la ๐ฆ๐ฎ๐ฅ๐ญ๐ข๐๐จ๐ฅ๐ข๐ง๐́๐๐ซ๐ข๐ญ๐́.
• Facilite la ๐ฏ๐ข๐ฌ๐ฎ๐๐ฅ๐ข๐ฌ๐๐ญ๐ข๐จ๐ง.
• Accรฉlรจre les ๐๐ฅ๐ ๐จ๐ซ๐ข๐ญ๐ก๐ฆ๐๐ฌ ๐’๐๐/๐๐. ๐๐ข๐ฆ๐ข๐ญ๐๐ฌ :
• Les composantes sont des ๐๐จ๐ฆ๐๐ข๐ง๐๐ข๐ฌ๐จ๐ง๐ฌ ๐ฅ๐ข๐ง๐́๐๐ข๐ซ๐๐ฌ, pas les variables d’origine (moins interprรฉtables).
• Suppose la ๐ฅ๐ข๐ง๐́๐๐ซ๐ข๐ญ๐́.
• Sensible ร ๐ฅ’๐́๐๐ก๐๐ฅ๐ฅ๐ ๐๐๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ et aux ๐ฏ๐๐ฅ๐๐ฎ๐ซ๐ฌ ๐๐๐๐ซ๐ซ๐๐ง๐ญ๐๐ฌ.
๐๐ฉ๐ฉ๐ฅ๐ข๐๐๐ญ๐ข๐จ๐ง๐ฌ ๐๐จ๐ง๐๐ซ๐̀๐ญ๐๐ฌ
• ๐๐́๐ง๐จ๐ฆ๐ข๐ช๐ฎ๐ → rรฉduire des milliers de gรจnes en quelques facteurs principaux.
• ๐ ๐ข๐ง๐๐ง๐๐ → synthรฉtiser des corrรฉlations entre actions en facteurs de risque.
• ๐๐จ๐ฆ๐ฉ๐ซ๐๐ฌ๐ฌ๐ข๐จ๐ง ๐’๐ข๐ฆ๐๐ ๐๐ฌ → rรฉduire le nombre de pixels.
• ๐๐๐ข๐๐ง๐๐๐ฌ ๐ฏ๐́๐ ๐́๐ญ๐๐ฅ๐๐ฌ → rรฉsumer croissance, rendement ou nutriments en quelques composantes pour classer ou regrouper les variรฉtรฉs.
๐๐ง ๐ซ๐́๐ฌ๐ฎ๐ฆ๐́ : L’ACP est une mรฉthode puissante pour ๐ฌ๐ข๐ฆ๐ฉ๐ฅ๐ข๐๐ข๐๐ซ ๐ฅ๐๐ฌ ๐๐จ๐ง๐ง๐́๐๐ฌ ๐๐จ๐ฆ๐ฉ๐ฅ๐๐ฑ๐๐ฌ, ๐ซ๐́๐ฏ๐́๐ฅ๐๐ซ ๐ฅ๐๐ฌ ๐ฌ๐๐ก๐́๐ฆ๐๐ฌ ๐๐๐๐ก๐́๐ฌ et ๐๐๐๐́๐ฅ๐́๐ซ๐๐ซ ๐ฅ๐๐ฌ ๐๐ง๐๐ฅ๐ฒ๐ฌ๐๐ฌ dans de nombreux domaines.
Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร prendre part ร la prochaine session de notre formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ
#️⃣ #AnalyseDeDonnรฉes #Statistiques #MachineLearning #ACP #DataScience
Commentaires
Enregistrer un commentaire