๐ฏ ๐จ๐๐๐๐๐๐ ๐๐ ๐ช๐๐๐๐๐๐๐๐๐๐ ๐ท๐๐๐๐๐๐๐๐๐๐ (๐จ๐ช๐ท) : ๐ท๐๐๐๐๐๐๐ ๐’๐๐๐ ๐๐๐๐๐๐๐๐๐ ?
๐๐ ๐บ๐๐๐๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐’๐จ๐ช๐ท
L’๐จ๐ช๐ท (Analyse en Composantes Principales) est une mรฉthode puissante qui permet de ๐๐๐๐๐๐๐๐๐๐ ๐
๐๐ ๐
๐๐๐๐́๐๐
๐๐๐๐๐๐๐๐๐ tout en conservant l’essentiel de l’information.
๐น ๐น๐́๐
๐๐๐๐๐๐ ๐
๐ ๐
๐๐๐๐๐๐๐๐
Si vous avez
beaucoup de variables (gรจnes, nutriments du sol, traits vรฉgรฉtaux, bandes
spectrales…), l’ACP les transforme en :
๐ท๐ช1, ๐ท๐ช2, ๐ท๐ช3…
(Composantes Principales)
๐ Moins de
variables
๐ Mรชme
information essentielle
๐น ๐ด๐๐๐ ๐๐
๐́๐๐๐
๐๐๐๐ ๐
๐
๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐́๐๐
L’ACP permet
de visualiser :
✔ Des groupes
✔ Des sรฉparations
✔ Des clusters
Exemples :
• Variรฉtรฉs de plantes
• Niveaux de fertigation
• Plantes saines vs stressรฉes
• Groupes ER+ vs ER−
Si les
groupes sont sรฉparรฉs sur PC1 vs PC2, cela signifie qu’ils diffรจrent
globalement.
๐น ๐บ๐๐๐๐๐๐๐๐๐๐ ๐
๐
๐๐ ๐๐๐
๐๐๐
๐๐๐๐
Beaucoup de variables sont corrรฉlรฉes
entre elles :
• Hauteur,
surface foliaire, biomasse
• Nitrate et conductivitรฉ (EC)
L’ACP
combine ces variables corrรฉlรฉes en quelques composantes synthรฉtiques,
รฉvitant la rรฉpรฉtition d’information.
๐น ๐ฐ๐
๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐ ๐๐๐ ๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐
Grรขce aux ๐ณ๐๐๐
๐๐๐๐ :
✔ Un loading รฉlevรฉ = forte contribution ร la composante
✔ Permet d’identifier les variables qui expliquent le
plus la variation
๐ « Quelle
variable explique rรฉellement la diffรฉrence ? »
๐น ๐ฝ๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐́๐
Impossible de visualiser 20
variables simultanรฉment.
Mais avec
l’ACP :
✔ Graphique PC1 vs PC2
✔ Graphique PC1 vs PC3
On observe
facilement :
• Tendances
• Regroupements
• Valeurs aberrantes
๐น ๐น๐́๐
๐๐๐๐๐๐ ๐
๐ ๐๐๐๐๐
Les
composantes secondaires contiennent souvent :
•
Variabilitรฉ alรฉatoire
• Erreurs de mesure
En gardant
uniquement les principales composantes, on amรฉliore la qualitรฉ de l’analyse.
๐น ๐จ๐๐́๐๐๐๐๐ ๐๐๐ ๐๐๐
๐̀๐๐๐ ๐
’๐๐๐๐๐๐๐๐๐๐๐๐๐
Avant le Machine Learning, l’ACP
permet de :
✔ Rรฉduire le surapprentissage
✔ Rรฉduire le temps d’entraรฎnement
✔ Stabiliser les modรจles
Particuliรจrement
utile si :
• Beaucoup
de variables
• Petit รฉchantillon
๐น ๐ซ๐́๐๐๐๐๐๐๐ ๐
’๐๐๐๐๐๐๐๐
Les points
รฉloignรฉs du nuage principal dans un graphique ACP sont souvent :
•
รchantillons atypiques
• Erreurs potentielles
• Variations biologiques extrรชmes
๐น ๐ช๐ ๐๐๐ ๐’๐จ๐ช๐ท ๐๐
๐๐๐๐ ๐๐๐
❌ L’ACP ne teste pas directement la significativitรฉ
(contrairement ร ANOVA ou t-test).
C’est une
mรฉthode ๐๐๐๐๐๐๐๐๐๐๐๐.
Ensuite, on
peut confirmer les rรฉsultats avec :
✔ ANOVA / MANOVA
✔ PERMANOVA
✔ Modรจles de classification
๐ก ๐ฌ๐ ๐๐́๐๐๐๐́
Si PC1 et
PC2 sรฉparent clairement les groupes, cela signifie que l’ACP capture une ๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐́๐๐๐๐ dans les
donnรฉes.
L’ACP est
donc un outil fondamental pour :
✔ Explorer
✔ Comprendre
✔ Simplifier
✔ Prรฉparer les analyses avancรฉes
________________________________________________________________________________
Si vous avez trouvรฉ cette publication
utile, n'hรฉsitez pas ร ๐๐ ๐๐๐๐๐ ๐๐
ร ๐๐ ๐๐๐๐๐๐๐๐
avec vos amis et collรจgues !
Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร prendre part ร la prochaine session de notre formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ https://forms.gle/yZAZimRXbTFbUWZk6
________________________________________
#ACP #AnalyseDeDonnรฉes
#StatistiquesAvancรฉes #DataScience #MachineLearning
.png)
Commentaires
Enregistrer un commentaire