๐ ๐๐๐จ๐ฆ๐ง๐๐ฅ๐๐ก๐ ๐๐๐́๐ฅ๐๐ฅ๐๐๐๐ค๐จ๐ : ๐๐ข๐ ๐ฃ๐ฅ๐๐ก๐๐ฅ๐ ๐๐๐ฆ ๐๐ฅ๐ข๐จ๐ฃ๐๐ฆ ๐ฆ๐๐ก๐ฆ ๐๐๐ซ๐๐ฅ ๐ ๐̀ ๐’๐๐ฉ๐๐ก๐๐
En ๐ ๐ฎ๐ฐ๐ต๐ถ๐ป๐ฒ ๐๐ฒ๐ฎ๐ฟ๐ป๐ถ๐ป๐ด, toutes les mรฉthodes de classification non supervisรฉe ne nรฉcessitent pas de dรฉfinir ร l’avance le nombre de groupes.
C’est
justement l’un des grands avantages du ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐ถ๐ป๐ด ๐ต๐ถ๐ฒ́๐ฟ๐ฎ๐ฟ๐ฐ๐ต๐ถ๐พ๐๐ฒ.
Contrairement
ร ๐-๐ ๐ฒ๐ฎ๐ป๐, oรน il faut choisir directement le nombre
de clusters, le clustering hiรฉrarchique construit une ๐๐๐ฟ๐๐ฐ๐๐๐ฟ๐ฒ ๐ฒ๐ป ๐ฎ๐ฟ๐ฏ๐ฟ๐ฒ, appelรฉe ๐ฑ๐ฒ๐ป๐ฑ๐ฟ๐ผ๐ด๐ฟ๐ฎ๐บ๐บ๐ฒ.
Ce
dendrogramme permet de visualiser comment les observations se regroupent
progressivement.
๐ Ensuite, il suffit de ๐ฐ๐ผ๐๐ฝ๐ฒ๐ฟ ๐น’๐ฎ๐ฟ๐ฏ๐ฟ๐ฒ ๐ฎ̀ ๐๐ป ๐ป๐ถ๐๐ฒ๐ฎ๐ ๐ฑ๐ผ๐ป๐ป๐ฒ́ pour obtenir le nombre de groupes souhaitรฉ.
๐น ๐๐ผ๐บ๐บ๐ฒ๐ป๐ ๐ณ๐ผ๐ป๐ฐ๐๐ถ๐ผ๐ป๐ป๐ฒ ๐น๐ฎ ๐บ๐ฒ́๐๐ต๐ผ๐ฑ๐ฒ ๐ฎ๐ด๐ด๐น๐ผ๐บ๐ฒ́๐ฟ๐ฎ๐๐ถ๐๐ฒ ?
La mรฉthode la
plus utilisรฉe est l’approche ๐ฏ๐ผ๐๐๐ผ๐บ-๐๐ฝ, c’est-ร -dire du bas vers le haut.
Le principe
est simple :
1️⃣ Chaque observation commence comme un
cluster sรฉparรฉ.
2️⃣ On calcule les
distances entre les clusters.
3️⃣ On fusionne les deux
clusters les plus proches.
4️⃣ On met ร jour les distances.
5️⃣ On rรฉpรจte le processus
jusqu’ร obtenir un seul grand cluster.
Le rรฉsultat
final est un ๐ฑ๐ฒ๐ป๐ฑ๐ฟ๐ผ๐ด๐ฟ๐ฎ๐บ๐บ๐ฒ, qui montre toute l’histoire des
regroupements.
๐ Une grande distance entre deux fusions
successives peut indiquer un ๐ป๐ผ๐บ๐ฏ๐ฟ๐ฒ ๐ป๐ฎ๐๐๐ฟ๐ฒ๐น ๐ฑ๐ฒ ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐.
๐น ๐๐ด๐ด๐น๐ผ๐บ๐ฒ́๐ฟ๐ฎ๐๐ถ๐ณ ๐๐ ๐๐ถ๐๐ถ๐๐ถ๐ณ
Il existe
deux grandes approches :
✅ ๐๐ด๐ด๐น๐ผ๐บ๐ฒ́๐ฟ๐ฎ๐๐ถ๐๐ฒ
On commence avec plusieurs petits groupes et on les fusionne progressivement.
C’est l’approche la plus utilisรฉe en pratique.
✅ ๐๐ถ๐๐ถ๐๐ถ๐๐ฒ
On commence avec un seul grand groupe, puis on le divise progressivement en
sous-groupes.
La premiรจre
approche construit les groupes ๐ฑ๐ ๐ฏ๐ฎ๐ ๐๐ฒ๐ฟ๐ ๐น๐ฒ ๐ต๐ฎ๐๐.
La seconde les construit ๐ฑ๐ ๐ต๐ฎ๐๐ ๐๐ฒ๐ฟ๐ ๐น๐ฒ ๐ฏ๐ฎ๐.
๐น ๐๐ฒ๐ ๐บ๐ฒ́๐๐ต๐ผ๐ฑ๐ฒ๐ ๐ฑ๐ฒ ๐น๐ถ๐ฎ๐ถ๐๐ผ๐ป ๐น๐ฒ๐ ๐ฝ๐น๐๐ ๐ฐ๐ผ๐๐ฟ๐ฎ๐ป๐๐ฒ๐
Le choix de
la distance entre clusters influence fortement les rรฉsultats.
๐ ๐ฆ๐ถ๐ป๐ด๐น๐ฒ ๐น๐ถ๐ป๐ธ๐ฎ๐ด๐ฒ
Utilise la plus petite distance entre deux points.
Utile pour dรฉtecter des formes allongรฉes, mais sensible aux valeurs extrรชmes.
๐ ๐๐ผ๐บ๐ฝ๐น๐ฒ๐๐ฒ ๐น๐ถ๐ป๐ธ๐ฎ๐ด๐ฒ
Utilise la plus grande distance entre deux points.
Produit souvent des groupes plus compacts.
๐ ๐๐๐ฒ๐ฟ๐ฎ๐ด๐ฒ ๐น๐ถ๐ป๐ธ๐ฎ๐ด๐ฒ
Utilise la distance moyenne entre les points des deux groupes.
C’est un bon compromis entre les deux premiรจres mรฉthodes.
๐ ๐ช๐ฎ๐ฟ๐ฑ
Cherche ร minimiser l’augmentation de la variance ร l’intรฉrieur des groupes.
C’est souvent un trรจs bon choix lorsque les donnรฉes sont numรฉriques et bien
standardisรฉes.
๐น ๐๐ผ๐ฟ๐บ๐๐น๐ฒ ๐ฑ๐ฒ ๐บ๐ถ๐๐ฒ ๐ฎ̀ ๐ท๐ผ๐๐ฟ ๐ฑ๐ฒ ๐๐ฎ๐ป๐ฐ๐ฒ-๐ช๐ถ๐น๐น๐ถ๐ฎ๐บ๐
Une formule
gรฉnรฉrale permet de mettre ร jour les distances aprรจs la fusion de deux clusters
:
d(Cแตข ∪ Cโฑผ, Cโ)
= ฮฑแตข dแตขโ + ฮฑโฑผ dโฑผโ + ฮฒ dแตขโฑผ + ฮณ |dแตขโ − dโฑผโ|
Les
paramรจtres ฮฑ, ฮฒ et ฮณ varient selon la mรฉthode de liaison
choisie.
Autrement
dit, la mรชme logique gรฉnรฉrale peut produire des comportements trรจs diffรฉrents
selon que l’on utilise single, complete, average
ou Ward.
๐น ๐ค๐๐ฎ๐ป๐ฑ ๐๐๐ถ๐น๐ถ๐๐ฒ๐ฟ ๐น๐ฒ ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐ถ๐ป๐ด ๐ต๐ถ๐ฒ́๐ฟ๐ฎ๐ฟ๐ฐ๐ต๐ถ๐พ๐๐ฒ ?
Cette mรฉthode
est trรจs utile lorsque :
✅ vous ne connaissez pas le nombre de
clusters ร l’avance ;
✅ vous voulez visualiser la structure des
donnรฉes ;
✅ la hiรฉrarchie entre les groupes est
importante ;
✅ vous travaillez sur des typologies, des
profils ou des classifications naturelles ;
✅ vous voulez mieux comprendre les
relations entre observations.
On la
retrouve par exemple en :
๐น segmentation client ;
๐น
biologie et classification des espรจces ;
๐น
analyse de profils ;
๐น
recherche mรฉdicale ;
๐น
analyse de territoires ;
๐น
traitement exploratoire des donnรฉes.
⚠️ ๐๐๐๐ฒ๐ป๐๐ถ๐ผ๐ป
Le clustering
hiรฉrarchique peut devenir coรปteux lorsque le nombre d’observations est trรจs
รฉlevรฉ.
Il est donc
conseillรฉ de :
✅ standardiser les variables avant l’analyse
;
✅ choisir une distance adaptรฉe ;
✅ tester plusieurs mรฉthodes de liaison ;
✅ interprรฉter le dendrogramme avec prudence
;
✅ valider les clusters obtenus avec des
indicateurs adaptรฉs.
✅ ๐̀ ๐ฟ๐ฒ๐๐ฒ๐ป๐ถ๐ฟ
Le ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐ถ๐ป๐ด ๐ต๐ถ๐ฒ́๐ฟ๐ฎ๐ฟ๐ฐ๐ต๐ถ๐พ๐๐ฒ est une mรฉthode puissante pour explorer
les donnรฉes, identifier des groupes naturels et visualiser les relations entre
observations.
Son grand
avantage est qu’il permet de comprendre la structure des donnรฉes ๐ฎ๐๐ฎ๐ป๐ ๐บ๐ฒ̂๐บ๐ฒ ๐ฑ๐ฒ ๐ฐ๐ต๐ผ๐ถ๐๐ถ๐ฟ ๐น๐ฒ ๐ป๐ผ๐บ๐ฏ๐ฟ๐ฒ ๐ณ๐ถ๐ป๐ฎ๐น ๐ฑ๐ฒ ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐.
En rรฉsumรฉ :
๐-๐ ๐ฒ๐ฎ๐ป๐ ๐ฟ๐ฒ๐ด๐ฟ๐ผ๐๐ฝ๐ฒ ๐ฟ๐ฎ๐ฝ๐ถ๐ฑ๐ฒ๐บ๐ฒ๐ป๐.
๐๐ฒ ๐ฐ๐น๐๐๐๐ฒ๐ฟ๐ถ๐ป๐ด ๐ต๐ถ๐ฒ́๐ฟ๐ฎ๐ฟ๐ฐ๐ต๐ถ๐พ๐๐ฒ ๐บ๐ผ๐ป๐๐ฟ๐ฒ ๐ฐ๐ผ๐บ๐บ๐ฒ๐ป๐ ๐น๐ฒ๐ ๐ด๐ฟ๐ผ๐๐ฝ๐ฒ๐ ๐๐ฒ ๐ณ๐ผ๐ฟ๐บ๐ฒ๐ป๐.
Si cette
publication vous a รฉtรฉ utile, pensez ร ๐น๐ถ๐ธ๐ฒ๐ฟ, ๐ฐ๐ผ๐บ๐บ๐ฒ๐ป๐๐ฒ๐ฟ et ๐ฝ๐ฎ๐ฟ๐๐ฎ๐ด๐ฒ๐ฟ avec vos amis, รฉtudiants et collรจgues.
Inscrivez-vous dรจs
maintenant pour rรฉserver votre place pour la prochaine session de notre
formation en ร๐ฐ๐ผ๐ป๐ผ๐บรฉ๐๐ฟ๐ถ๐ฒ ๐ฒ๐ ๐ง๐ฒ๐ฐ๐ต๐ป๐ถ๐พ๐๐ฒ๐ https://forms.gle/yZAZimRXbTFbUWZk6
#MachineLearning #DataScience #Clustering #HierarchicalClustering
#AnalyseDeDonnรฉes #Statistiques #IntelligenceArtificielle #Segmentation
#DataAnalytics #Python #BigData
.png)
Commentaires
Enregistrer un commentaire