๐Ÿ“Š ๐—–๐—Ÿ๐—จ๐—ฆ๐—ง๐—˜๐—ฅ๐—œ๐—ก๐—š ๐—›๐—œ๐—˜́๐—ฅ๐—”๐—ฅ๐—–๐—›๐—œ๐—ค๐—จ๐—˜ : ๐—–๐—ข๐— ๐—ฃ๐—ฅ๐—˜๐—ก๐——๐—ฅ๐—˜ ๐—Ÿ๐—˜๐—ฆ ๐—š๐—ฅ๐—ข๐—จ๐—ฃ๐—˜๐—ฆ ๐—ฆ๐—”๐—ก๐—ฆ ๐—™๐—œ๐—ซ๐—˜๐—ฅ ๐—ž ๐—”̀ ๐—Ÿ’๐—”๐—ฉ๐—”๐—ก๐—–๐—˜

En ๐— ๐—ฎ๐—ฐ๐—ต๐—ถ๐—ป๐—ฒ ๐—Ÿ๐—ฒ๐—ฎ๐—ฟ๐—ป๐—ถ๐—ป๐—ด, toutes les mรฉthodes de classification non supervisรฉe ne nรฉcessitent pas de dรฉfinir ร  l’avance le nombre de groupes.

C’est justement l’un des grands avantages du ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐—ถ๐—ป๐—ด ๐—ต๐—ถ๐—ฒ́๐—ฟ๐—ฎ๐—ฟ๐—ฐ๐—ต๐—ถ๐—พ๐˜‚๐—ฒ.

Contrairement ร  ๐—ž-๐— ๐—ฒ๐—ฎ๐—ป๐˜€, oรน il faut choisir directement le nombre de clusters, le clustering hiรฉrarchique construit une ๐˜€๐˜๐—ฟ๐˜‚๐—ฐ๐˜๐˜‚๐—ฟ๐—ฒ ๐—ฒ๐—ป ๐—ฎ๐—ฟ๐—ฏ๐—ฟ๐—ฒ, appelรฉe ๐—ฑ๐—ฒ๐—ป๐—ฑ๐—ฟ๐—ผ๐—ด๐—ฟ๐—ฎ๐—บ๐—บ๐—ฒ.

Ce dendrogramme permet de visualiser comment les observations se regroupent progressivement.

๐Ÿ‘‰ Ensuite, il suffit de ๐—ฐ๐—ผ๐˜‚๐—ฝ๐—ฒ๐—ฟ ๐—น๐—ฎ๐—ฟ๐—ฏ๐—ฟ๐—ฒ ๐—ฎ̀ ๐˜‚๐—ป ๐—ป๐—ถ๐˜ƒ๐—ฒ๐—ฎ๐˜‚ ๐—ฑ๐—ผ๐—ป๐—ป๐—ฒ́ pour obtenir le nombre de groupes souhaitรฉ.

๐Ÿ”น ๐—–๐—ผ๐—บ๐—บ๐—ฒ๐—ป๐˜ ๐—ณ๐—ผ๐—ป๐—ฐ๐˜๐—ถ๐—ผ๐—ป๐—ป๐—ฒ ๐—น๐—ฎ ๐—บ๐—ฒ́๐˜๐—ต๐—ผ๐—ฑ๐—ฒ ๐—ฎ๐—ด๐—ด๐—น๐—ผ๐—บ๐—ฒ́๐—ฟ๐—ฎ๐˜๐—ถ๐˜ƒ๐—ฒ ?

La mรฉthode la plus utilisรฉe est l’approche ๐—ฏ๐—ผ๐˜๐˜๐—ผ๐—บ-๐˜‚๐—ฝ, c’est-ร -dire du bas vers le haut.

Le principe est simple :

1 Chaque observation commence comme un cluster sรฉparรฉ.
2
On calcule les distances entre les clusters.
3
On fusionne les deux clusters les plus proches.
4
On met ร  jour les distances.
5
On rรฉpรจte le processus jusqu’ร  obtenir un seul grand cluster.

Le rรฉsultat final est un ๐—ฑ๐—ฒ๐—ป๐—ฑ๐—ฟ๐—ผ๐—ด๐—ฟ๐—ฎ๐—บ๐—บ๐—ฒ, qui montre toute l’histoire des regroupements.

๐Ÿ“Œ Une grande distance entre deux fusions successives peut indiquer un ๐—ป๐—ผ๐—บ๐—ฏ๐—ฟ๐—ฒ ๐—ป๐—ฎ๐˜๐˜‚๐—ฟ๐—ฒ๐—น ๐—ฑ๐—ฒ ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐˜€.

๐Ÿ”น ๐—”๐—ด๐—ด๐—น๐—ผ๐—บ๐—ฒ́๐—ฟ๐—ฎ๐˜๐—ถ๐—ณ ๐˜ƒ๐˜€ ๐——๐—ถ๐˜ƒ๐—ถ๐˜€๐—ถ๐—ณ

Il existe deux grandes approches :

๐—”๐—ด๐—ด๐—น๐—ผ๐—บ๐—ฒ́๐—ฟ๐—ฎ๐˜๐—ถ๐˜ƒ๐—ฒ
On commence avec plusieurs petits groupes et on les fusionne progressivement.
C’est l’approche la plus utilisรฉe en pratique.

๐——๐—ถ๐˜ƒ๐—ถ๐˜€๐—ถ๐˜ƒ๐—ฒ
On commence avec un seul grand groupe, puis on le divise progressivement en sous-groupes.

La premiรจre approche construit les groupes ๐—ฑ๐˜‚ ๐—ฏ๐—ฎ๐˜€ ๐˜ƒ๐—ฒ๐—ฟ๐˜€ ๐—น๐—ฒ ๐—ต๐—ฎ๐˜‚๐˜.
La seconde les construit
๐—ฑ๐˜‚ ๐—ต๐—ฎ๐˜‚๐˜ ๐˜ƒ๐—ฒ๐—ฟ๐˜€ ๐—น๐—ฒ ๐—ฏ๐—ฎ๐˜€.

๐Ÿ”น ๐—Ÿ๐—ฒ๐˜€ ๐—บ๐—ฒ́๐˜๐—ต๐—ผ๐—ฑ๐—ฒ๐˜€ ๐—ฑ๐—ฒ ๐—น๐—ถ๐—ฎ๐—ถ๐˜€๐—ผ๐—ป ๐—น๐—ฒ๐˜€ ๐—ฝ๐—น๐˜‚๐˜€ ๐—ฐ๐—ผ๐˜‚๐—ฟ๐—ฎ๐—ป๐˜๐—ฒ๐˜€

Le choix de la distance entre clusters influence fortement les rรฉsultats.

๐Ÿ“Œ ๐—ฆ๐—ถ๐—ป๐—ด๐—น๐—ฒ ๐—น๐—ถ๐—ป๐—ธ๐—ฎ๐—ด๐—ฒ
Utilise la plus petite distance entre deux points.
Utile pour dรฉtecter des formes allongรฉes, mais sensible aux valeurs extrรชmes.

๐Ÿ“Œ ๐—–๐—ผ๐—บ๐—ฝ๐—น๐—ฒ๐˜๐—ฒ ๐—น๐—ถ๐—ป๐—ธ๐—ฎ๐—ด๐—ฒ
Utilise la plus grande distance entre deux points.
Produit souvent des groupes plus compacts.

๐Ÿ“Œ ๐—”๐˜ƒ๐—ฒ๐—ฟ๐—ฎ๐—ด๐—ฒ ๐—น๐—ถ๐—ป๐—ธ๐—ฎ๐—ด๐—ฒ
Utilise la distance moyenne entre les points des deux groupes.
C’est un bon compromis entre les deux premiรจres mรฉthodes.

๐Ÿ“Œ ๐—ช๐—ฎ๐—ฟ๐—ฑ
Cherche ร  minimiser l’augmentation de la variance ร  l’intรฉrieur des groupes.
C’est souvent un trรจs bon choix lorsque les donnรฉes sont numรฉriques et bien standardisรฉes.

๐Ÿ”น ๐—™๐—ผ๐—ฟ๐—บ๐˜‚๐—น๐—ฒ ๐—ฑ๐—ฒ ๐—บ๐—ถ๐˜€๐—ฒ ๐—ฎ̀ ๐—ท๐—ผ๐˜‚๐—ฟ ๐—ฑ๐—ฒ ๐—Ÿ๐—ฎ๐—ป๐—ฐ๐—ฒ-๐—ช๐—ถ๐—น๐—น๐—ถ๐—ฎ๐—บ๐˜€

Une formule gรฉnรฉrale permet de mettre ร  jour les distances aprรจs la fusion de deux clusters :

d(Cแตข Cโฑผ, Cโ‚–) = ฮฑแตข dแตขโ‚– + ฮฑโฑผ dโฑผโ‚– + ฮฒ dแตขโฑผ + ฮณ |dแตขโ‚– − dโฑผโ‚–|

Les paramรจtres ฮฑ, ฮฒ et ฮณ varient selon la mรฉthode de liaison choisie.

Autrement dit, la mรชme logique gรฉnรฉrale peut produire des comportements trรจs diffรฉrents selon que l’on utilise single, complete, average ou Ward.

๐Ÿ”น ๐—ค๐˜‚๐—ฎ๐—ป๐—ฑ ๐˜‚๐˜๐—ถ๐—น๐—ถ๐˜€๐—ฒ๐—ฟ ๐—น๐—ฒ ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐—ถ๐—ป๐—ด ๐—ต๐—ถ๐—ฒ́๐—ฟ๐—ฎ๐—ฟ๐—ฐ๐—ต๐—ถ๐—พ๐˜‚๐—ฒ ?

Cette mรฉthode est trรจs utile lorsque :

vous ne connaissez pas le nombre de clusters ร  l’avance ;
vous voulez visualiser la structure des donnรฉes ;
la hiรฉrarchie entre les groupes est importante ;
vous travaillez sur des typologies, des profils ou des classifications naturelles ;
vous voulez mieux comprendre les relations entre observations.

On la retrouve par exemple en :

๐Ÿ”น segmentation client ;
๐Ÿ”น biologie et classification des espรจces ;
๐Ÿ”น analyse de profils ;
๐Ÿ”น recherche mรฉdicale ;
๐Ÿ”น analyse de territoires ;
๐Ÿ”น traitement exploratoire des donnรฉes.

๐—”๐˜๐˜๐—ฒ๐—ป๐˜๐—ถ๐—ผ๐—ป

Le clustering hiรฉrarchique peut devenir coรปteux lorsque le nombre d’observations est trรจs รฉlevรฉ.

Il est donc conseillรฉ de :

standardiser les variables avant l’analyse ;
choisir une distance adaptรฉe ;
tester plusieurs mรฉthodes de liaison ;
interprรฉter le dendrogramme avec prudence ;
valider les clusters obtenus avec des indicateurs adaptรฉs.

๐—”̀ ๐—ฟ๐—ฒ๐˜๐—ฒ๐—ป๐—ถ๐—ฟ

Le ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐—ถ๐—ป๐—ด ๐—ต๐—ถ๐—ฒ́๐—ฟ๐—ฎ๐—ฟ๐—ฐ๐—ต๐—ถ๐—พ๐˜‚๐—ฒ est une mรฉthode puissante pour explorer les donnรฉes, identifier des groupes naturels et visualiser les relations entre observations.

Son grand avantage est qu’il permet de comprendre la structure des donnรฉes ๐—ฎ๐˜ƒ๐—ฎ๐—ป๐˜ ๐—บ๐—ฒ̂๐—บ๐—ฒ ๐—ฑ๐—ฒ ๐—ฐ๐—ต๐—ผ๐—ถ๐˜€๐—ถ๐—ฟ ๐—น๐—ฒ ๐—ป๐—ผ๐—บ๐—ฏ๐—ฟ๐—ฒ ๐—ณ๐—ถ๐—ป๐—ฎ๐—น ๐—ฑ๐—ฒ ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐˜€.

En rรฉsumรฉ :
๐—ž-๐— ๐—ฒ๐—ฎ๐—ป๐˜€ ๐—ฟ๐—ฒ๐—ด๐—ฟ๐—ผ๐˜‚๐—ฝ๐—ฒ ๐—ฟ๐—ฎ๐—ฝ๐—ถ๐—ฑ๐—ฒ๐—บ๐—ฒ๐—ป๐˜.
๐—Ÿ๐—ฒ ๐—ฐ๐—น๐˜‚๐˜€๐˜๐—ฒ๐—ฟ๐—ถ๐—ป๐—ด ๐—ต๐—ถ๐—ฒ́๐—ฟ๐—ฎ๐—ฟ๐—ฐ๐—ต๐—ถ๐—พ๐˜‚๐—ฒ ๐—บ๐—ผ๐—ป๐˜๐—ฟ๐—ฒ ๐—ฐ๐—ผ๐—บ๐—บ๐—ฒ๐—ป๐˜ ๐—น๐—ฒ๐˜€ ๐—ด๐—ฟ๐—ผ๐˜‚๐—ฝ๐—ฒ๐˜€ ๐˜€๐—ฒ ๐—ณ๐—ผ๐—ฟ๐—บ๐—ฒ๐—ป๐˜.

Si cette publication vous a รฉtรฉ utile, pensez ร  ๐—น๐—ถ๐—ธ๐—ฒ๐—ฟ, ๐—ฐ๐—ผ๐—บ๐—บ๐—ฒ๐—ป๐˜๐—ฒ๐—ฟ et ๐—ฝ๐—ฎ๐—ฟ๐˜๐—ฎ๐—ด๐—ฒ๐—ฟ avec vos amis, รฉtudiants et collรจgues.

Inscrivez-vous dรจs maintenant pour rรฉserver votre place pour la prochaine session de notre formation en ร‰๐—ฐ๐—ผ๐—ป๐—ผ๐—บรฉ๐˜๐—ฟ๐—ถ๐—ฒ ๐—ฒ๐˜ ๐—ง๐—ฒ๐—ฐ๐—ต๐—ป๐—ถ๐—พ๐˜‚๐—ฒ๐˜€ https://forms.gle/yZAZimRXbTFbUWZk6



#MachineLearning #DataScience #Clustering #HierarchicalClustering #AnalyseDeDonnรฉes #Statistiques #IntelligenceArtificielle #Segmentation #DataAnalytics #Python #BigData

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique