๐€๐ง๐š๐ฅ๐ฒ๐ฌ๐ž ๐ž๐ง ๐‚๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž๐ฌ ๐๐ซ๐ข๐ง๐œ๐ข๐ฉ๐š๐ฅ๐ž๐ฌ (๐€๐‚๐) : ๐’๐ข๐ฆ๐ฉ๐ฅ๐ข๐Ÿ๐ข๐ž๐ซ ๐ฅ๐š ๐‚๐จ๐ฆ๐ฉ๐ฅ๐ž๐ฑ๐ข๐ญ๐ž́ ๐๐ž๐ฌ ๐ƒ๐จ๐ง๐ง๐ž́๐ž๐ฌ ๐๐ฎ’๐ž๐ฌ๐ญ-๐œ๐ž ๐ช๐ฎ๐ž ๐ฅ’๐€๐‚๐ ?

L’Analyse en Composantes Principales (ACP) est une ๐ญ๐ž๐œ๐ก๐ง๐ข๐ช๐ฎ๐ž ๐๐ž ๐ซ๐ž́๐๐ฎ๐œ๐ญ๐ข๐จ๐ง ๐๐ž ๐๐ข๐ฆ๐ž๐ง๐ฌ๐ข๐จ๐ง๐ง๐š๐ฅ๐ข๐ญ๐ž́. Elle transforme un jeu de donnรฉes comportant de nombreuses variables en un ensemble plus petit de nouvelles variables (๐œ๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž๐ฌ ๐ฉ๐ซ๐ข๐ง๐œ๐ข๐ฉ๐š๐ฅ๐ž๐ฌ) tout en conservant l’essentiel de l’information (๐ฅ๐š ๐ฏ๐š๐ซ๐ข๐š๐ง๐œ๐ž). 

U๐™ฃ ๐™ก๐™ž๐™ ๐™š ๐™š๐™ฉ ๐™ช๐™ฃ ๐™‹๐™–๐™ง๐™ฉ๐™–๐™œ๐™š de ce post avant d'aller plus loin nous feront Plaisir. En termes simples : • Donnรฉes initiales = beaucoup de variables corrรฉlรฉes.

 • ACP = crรฉe de nouveaux axes (๐œ๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž๐ฌ ๐ฉ๐ซ๐ข๐ง๐œ๐ข๐ฉ๐š๐ฅ๐ž๐ฌ) qui capturent un maximum d’information. 

• Rรฉsultat = moins de variables, mais l’essentiel des variations est prรฉservรฉ. 

๐๐จ๐ฎ๐ซ๐ช๐ฎ๐จ๐ข ๐ฎ๐ญ๐ข๐ฅ๐ข๐ฌ๐ž๐ซ ๐ฅ’๐€๐‚๐ ?

 • Les donnรฉes multidimensionnelles sont difficiles ร  analyser et ร  visualiser. 

• Beaucoup de variables sont corrรฉlรฉes (๐ซ๐ž๐๐จ๐ง๐๐š๐ง๐œ๐ž). 

• L’ACP rรฉduit la redondance tout en gardant les ๐ฌ๐œ๐ก๐ž́๐ฆ๐š๐ฌ ๐ž๐ฌ๐ฌ๐ž๐ง๐ญ๐ข๐ž๐ฅ๐ฌ. Domaines d’application : ๐š๐ฉ๐ฉ๐ซ๐ž๐ง๐ญ๐ข๐ฌ๐ฌ๐š๐ ๐ž ๐š๐ฎ๐ญ๐จ๐ฆ๐š๐ญ๐ข๐ช๐ฎ๐ž, ๐œ๐จ๐ฆ๐ฉ๐ซ๐ž๐ฌ๐ฌ๐ข๐จ๐ง ๐’๐ข๐ฆ๐š๐ ๐ž๐ฌ, ๐ ๐ž́๐ง๐จ๐ฆ๐ข๐ช๐ฎ๐ž, ๐Ÿ๐ข๐ง๐š๐ง๐œ๐ž (๐š๐ง๐š๐ฅ๐ฒ๐ฌ๐ž ๐๐ž๐ฌ ๐ซ๐ข๐ฌ๐ช๐ฎ๐ž๐ฌ), ๐š๐ ๐ซ๐ข๐œ๐ฎ๐ฅ๐ญ๐ฎ๐ซ๐ž (๐ฉ๐ก๐ž́๐ง๐จ๐ญ๐ฒ๐ฉ๐š๐ ๐ž, ๐ญ๐ซ๐š๐ข๐ญ๐ฌ ๐๐ž๐ฌ ๐ฉ๐ฅ๐š๐ง๐ญ๐ž๐ฌ). ๐‹’๐ข๐๐ž́๐ž ๐œ๐ฅ๐ž́ 

• La ๐Ÿสณแต‰ ๐œ๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž ๐ฉ๐ซ๐ข๐ง๐œ๐ข๐ฉ๐š๐ฅ๐ž (๐‚๐๐Ÿ) explique la plus grande variance possible. 

• La ๐Ÿแต‰ ๐œ๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž (๐‚๐๐Ÿ) explique la variance suivante, perpendiculairement ร  CP1. 

• On continue ainsi pour d’autres composantes. Exemple : au lieu de travailler avec 100 variables corrรฉlรฉes, 5 ร  10 composantes principales peuvent suffire pour expliquer la majoritรฉ de la variabilitรฉ. ๐‚๐ก๐จ๐ข๐ฑ ๐๐ฎ ๐ง๐จ๐ฆ๐›๐ซ๐ž ๐๐ž ๐œ๐จ๐ฆ๐ฉ๐จ๐ฌ๐š๐ง๐ญ๐ž๐ฌ Chaque ๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ ๐ฉ๐ซ๐จ๐ฉ๐ซ๐ž correspond ร  une variance expliquรฉe. On garde en gรฉnรฉral les premiรจres composantes qui expliquent 80–95 % de la variance totale (๐ฅ๐ž “๐ฌ๐œ๐ซ๐ž๐ž ๐ฉ๐ฅ๐จ๐ญ” aide ร  dรฉcider). ๐„๐ฑ๐ž๐ฆ๐ฉ๐ฅ๐ž ๐ข๐ง๐ญ๐ฎ๐ข๐ญ๐ข๐Ÿ Si vous analysez la ๐ก๐š๐ฎ๐ญ๐ž๐ฎ๐ซ et la ๐ฅ๐จ๐ง๐ ๐ฎ๐ž๐ฎ๐ซ ๐๐ž๐ฌ ๐Ÿ๐ž๐ฎ๐ข๐ฅ๐ฅ๐ž๐ฌ d’une plante : 

• Ces variables sont corrรฉlรฉes. 

• L’ACP crรฉe un nouvel axe (๐‚๐๐Ÿ) qui rรฉsume la ๐ญ๐ž๐ง๐๐š๐ง๐œ๐ž ๐๐ž ๐œ๐ซ๐จ๐ข๐ฌ๐ฌ๐š๐ง๐œ๐ž. 

• Au lieu d’analyser chaque variable sรฉparรฉment, CP1 capture l’information principale. 

๐•๐ข๐ฌ๐ฎ๐š๐ฅ๐ข๐ฌ๐š๐ญ๐ข๐จ๐ง ๐ฉ๐จ๐ฌ๐ฌ๐ข๐›๐ฅ๐ž 

• ๐๐ฎ๐š๐ ๐ž ๐๐ž ๐ฉ๐จ๐ข๐ง๐ญ๐ฌ des CP → rรฉvรจle les regroupements. 

• ๐๐ข๐ฉ๐ฅ๐จ๐ญ → montre les CP + contribution des variables d’origine. 

• ๐’๐œ๐ซ๐ž๐ž ๐ฉ๐ฅ๐จ๐ญ → illustre la variance expliquรฉe par chaque CP. 

๐…๐จ๐ซ๐œ๐ž๐ฌ & ๐ฅ๐ข๐ฆ๐ข๐ญ๐ž๐ฌ ๐€๐ฏ๐š๐ง๐ญ๐š๐ ๐ž๐ฌ : 

• Rรฉduit la ๐๐ข๐ฆ๐ž๐ง๐ฌ๐ข๐จ๐ง๐ง๐š๐ฅ๐ข๐ญ๐ž́. 

• Supprime la ๐ฆ๐ฎ๐ฅ๐ญ๐ข๐œ๐จ๐ฅ๐ข๐ง๐ž́๐š๐ซ๐ข๐ญ๐ž́. 

• Facilite la ๐ฏ๐ข๐ฌ๐ฎ๐š๐ฅ๐ข๐ฌ๐š๐ญ๐ข๐จ๐ง. 

• Accรฉlรจre les ๐š๐ฅ๐ ๐จ๐ซ๐ข๐ญ๐ก๐ฆ๐ž๐ฌ ๐’๐ˆ๐€/๐Œ๐‹. ๐‹๐ข๐ฆ๐ข๐ญ๐ž๐ฌ : 

• Les composantes sont des ๐œ๐จ๐ฆ๐›๐ข๐ง๐š๐ข๐ฌ๐จ๐ง๐ฌ ๐ฅ๐ข๐ง๐ž́๐š๐ข๐ซ๐ž๐ฌ, pas les variables d’origine (moins interprรฉtables). 

• Suppose la ๐ฅ๐ข๐ง๐ž́๐š๐ซ๐ข๐ญ๐ž́. 

• Sensible ร  ๐ฅ’๐ž́๐œ๐ก๐ž๐ฅ๐ฅ๐ž ๐๐ž๐ฌ ๐๐จ๐ง๐ง๐ž́๐ž๐ฌ et aux ๐ฏ๐š๐ฅ๐ž๐ฎ๐ซ๐ฌ ๐š๐›๐ž๐ซ๐ซ๐š๐ง๐ญ๐ž๐ฌ. 

๐€๐ฉ๐ฉ๐ฅ๐ข๐œ๐š๐ญ๐ข๐จ๐ง๐ฌ ๐œ๐จ๐ง๐œ๐ซ๐ž̀๐ญ๐ž๐ฌ 

• ๐†๐ž́๐ง๐จ๐ฆ๐ข๐ช๐ฎ๐ž → rรฉduire des milliers de gรจnes en quelques facteurs principaux. 

• ๐…๐ข๐ง๐š๐ง๐œ๐ž → synthรฉtiser des corrรฉlations entre actions en facteurs de risque. 

• ๐‚๐จ๐ฆ๐ฉ๐ซ๐ž๐ฌ๐ฌ๐ข๐จ๐ง ๐’๐ข๐ฆ๐š๐ ๐ž๐ฌ → rรฉduire le nombre de pixels. 

• ๐’๐œ๐ข๐ž๐ง๐œ๐ž๐ฌ ๐ฏ๐ž́๐ ๐ž́๐ญ๐š๐ฅ๐ž๐ฌ → rรฉsumer croissance, rendement ou nutriments en quelques composantes pour classer ou regrouper les variรฉtรฉs.


๐„๐ง ๐ซ๐ž́๐ฌ๐ฎ๐ฆ๐ž́ : L’ACP est une mรฉthode puissante pour ๐ฌ๐ข๐ฆ๐ฉ๐ฅ๐ข๐Ÿ๐ข๐ž๐ซ ๐ฅ๐ž๐ฌ ๐๐จ๐ง๐ง๐ž́๐ž๐ฌ ๐œ๐จ๐ฆ๐ฉ๐ฅ๐ž๐ฑ๐ž๐ฌ, ๐ซ๐ž́๐ฏ๐ž́๐ฅ๐ž๐ซ ๐ฅ๐ž๐ฌ ๐ฌ๐œ๐ก๐ž́๐ฆ๐š๐ฌ ๐œ๐š๐œ๐ก๐ž́๐ฌ et ๐š๐œ๐œ๐ž́๐ฅ๐ž́๐ซ๐ž๐ซ ๐ฅ๐ž๐ฌ ๐š๐ง๐š๐ฅ๐ฒ๐ฌ๐ž๐ฌ dans de nombreux domaines.


Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร  prendre part ร  la prochaine session de notre formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ขรฉ๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ 





#️⃣ #AnalyseDeDonnรฉes #Statistiques #MachineLearning #ACP #DataScience

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique