📊 𝗖𝗟𝗨𝗦𝗧𝗘𝗥𝗜𝗡𝗚 𝗛𝗜𝗘́𝗥𝗔𝗥𝗖𝗛𝗜𝗤𝗨𝗘 : 𝗖𝗢𝗠𝗣𝗥𝗘𝗡𝗗𝗥𝗘 𝗟𝗘𝗦 𝗚𝗥𝗢𝗨𝗣𝗘𝗦 𝗦𝗔𝗡𝗦 𝗙𝗜𝗫𝗘𝗥 𝗞 𝗔̀ 𝗟’𝗔𝗩𝗔𝗡𝗖𝗘

En 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴, toutes les méthodes de classification non supervisée ne nécessitent pas de définir à l’avance le nombre de groupes.

C’est justement l’un des grands avantages du 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗵𝗶𝗲́𝗿𝗮𝗿𝗰𝗵𝗶𝗾𝘂𝗲.

Contrairement à 𝗞-𝗠𝗲𝗮𝗻𝘀, où il faut choisir directement le nombre de clusters, le clustering hiérarchique construit une 𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗲𝗻 𝗮𝗿𝗯𝗿𝗲, appelée 𝗱𝗲𝗻𝗱𝗿𝗼𝗴𝗿𝗮𝗺𝗺𝗲.

Ce dendrogramme permet de visualiser comment les observations se regroupent progressivement.

👉 Ensuite, il suffit de 𝗰𝗼𝘂𝗽𝗲𝗿 𝗹’𝗮𝗿𝗯𝗿𝗲 𝗮̀ 𝘂𝗻 𝗻𝗶𝘃𝗲𝗮𝘂 𝗱𝗼𝗻𝗻𝗲́ pour obtenir le nombre de groupes souhaité.

🔹 𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗳𝗼𝗻𝗰𝘁𝗶𝗼𝗻𝗻𝗲 𝗹𝗮 𝗺𝗲́𝘁𝗵𝗼𝗱𝗲 𝗮𝗴𝗴𝗹𝗼𝗺𝗲́𝗿𝗮𝘁𝗶𝘃𝗲 ?

La méthode la plus utilisée est l’approche 𝗯𝗼𝘁𝘁𝗼𝗺-𝘂𝗽, c’est-à-dire du bas vers le haut.

Le principe est simple :

1️⃣ Chaque observation commence comme un cluster séparé.
2️⃣ On calcule les distances entre les clusters.
3️⃣ On fusionne les deux clusters les plus proches.
4️⃣ On met à jour les distances.
5️⃣ On répète le processus jusqu’à obtenir un seul grand cluster.

Le résultat final est un 𝗱𝗲𝗻𝗱𝗿𝗼𝗴𝗿𝗮𝗺𝗺𝗲, qui montre toute l’histoire des regroupements.

📌 Une grande distance entre deux fusions successives peut indiquer un 𝗻𝗼𝗺𝗯𝗿𝗲 𝗻𝗮𝘁𝘂𝗿𝗲𝗹 𝗱𝗲 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝘀.

🔹 𝗔𝗴𝗴𝗹𝗼𝗺𝗲́𝗿𝗮𝘁𝗶𝗳 𝘃𝘀 𝗗𝗶𝘃𝗶𝘀𝗶𝗳

Il existe deux grandes approches :

✅ 𝗔𝗴𝗴𝗹𝗼𝗺𝗲́𝗿𝗮𝘁𝗶𝘃𝗲
On commence avec plusieurs petits groupes et on les fusionne progressivement.
C’est l’approche la plus utilisée en pratique.

✅ 𝗗𝗶𝘃𝗶𝘀𝗶𝘃𝗲
On commence avec un seul grand groupe, puis on le divise progressivement en sous-groupes.

La première approche construit les groupes 𝗱𝘂 𝗯𝗮𝘀 𝘃𝗲𝗿𝘀 𝗹𝗲 𝗵𝗮𝘂𝘁.
La seconde les construit 𝗱𝘂 𝗵𝗮𝘂𝘁 𝘃𝗲𝗿𝘀 𝗹𝗲 𝗯𝗮𝘀.

🔹 𝗟𝗲𝘀 𝗺𝗲́𝘁𝗵𝗼𝗱𝗲𝘀 𝗱𝗲 𝗹𝗶𝗮𝗶𝘀𝗼𝗻 𝗹𝗲𝘀 𝗽𝗹𝘂𝘀 𝗰𝗼𝘂𝗿𝗮𝗻𝘁𝗲𝘀

Le choix de la distance entre clusters influence fortement les résultats.

📌 𝗦𝗶𝗻𝗴𝗹𝗲 𝗹𝗶𝗻𝗸𝗮𝗴𝗲
Utilise la plus petite distance entre deux points.
Utile pour détecter des formes allongées, mais sensible aux valeurs extrêmes.

📌 𝗖𝗼𝗺𝗽𝗹𝗲𝘁𝗲 𝗹𝗶𝗻𝗸𝗮𝗴𝗲
Utilise la plus grande distance entre deux points.
Produit souvent des groupes plus compacts.

📌 𝗔𝘃𝗲𝗿𝗮𝗴𝗲 𝗹𝗶𝗻𝗸𝗮𝗴𝗲
Utilise la distance moyenne entre les points des deux groupes.
C’est un bon compromis entre les deux premières méthodes.

📌 𝗪𝗮𝗿𝗱
Cherche à minimiser l’augmentation de la variance à l’intérieur des groupes.
C’est souvent un très bon choix lorsque les données sont numériques et bien standardisées.

🔹 𝗙𝗼𝗿𝗺𝘂𝗹𝗲 𝗱𝗲 𝗺𝗶𝘀𝗲 𝗮̀ 𝗷𝗼𝘂𝗿 𝗱𝗲 𝗟𝗮𝗻𝗰𝗲-𝗪𝗶𝗹𝗹𝗶𝗮𝗺𝘀

Une formule générale permet de mettre à jour les distances après la fusion de deux clusters :

d(Cᵢ ∪ Cⱼ, Cₖ) = αᵢ dᵢₖ + αⱼ dⱼₖ + β dᵢⱼ + γ |dᵢₖ − dⱼₖ|

Les paramètres α, β et γ varient selon la méthode de liaison choisie.

Autrement dit, la même logique générale peut produire des comportements très différents selon que l’on utilise single, complete, average ou Ward.

🔹 𝗤𝘂𝗮𝗻𝗱 𝘂𝘁𝗶𝗹𝗶𝘀𝗲𝗿 𝗹𝗲 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗵𝗶𝗲́𝗿𝗮𝗿𝗰𝗵𝗶𝗾𝘂𝗲 ?

Cette méthode est très utile lorsque :

✅ vous ne connaissez pas le nombre de clusters à l’avance ;
✅ vous voulez visualiser la structure des données ;
✅ la hiérarchie entre les groupes est importante ;
✅ vous travaillez sur des typologies, des profils ou des classifications naturelles ;
✅ vous voulez mieux comprendre les relations entre observations.

On la retrouve par exemple en :

🔹 segmentation client ;
🔹 biologie et classification des espèces ;
🔹 analyse de profils ;
🔹 recherche médicale ;
🔹 analyse de territoires ;
🔹 traitement exploratoire des données.

⚠️ 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

Le clustering hiérarchique peut devenir coûteux lorsque le nombre d’observations est très élevé.

Il est donc conseillé de :

✅ standardiser les variables avant l’analyse ;
✅ choisir une distance adaptée ;
✅ tester plusieurs méthodes de liaison ;
✅ interpréter le dendrogramme avec prudence ;
✅ valider les clusters obtenus avec des indicateurs adaptés.

✅ 𝗔̀ 𝗿𝗲𝘁𝗲𝗻𝗶𝗿

Le 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗵𝗶𝗲́𝗿𝗮𝗿𝗰𝗵𝗶𝗾𝘂𝗲 est une méthode puissante pour explorer les données, identifier des groupes naturels et visualiser les relations entre observations.

Son grand avantage est qu’il permet de comprendre la structure des données 𝗮𝘃𝗮𝗻𝘁 𝗺𝗲̂𝗺𝗲 𝗱𝗲 𝗰𝗵𝗼𝗶𝘀𝗶𝗿 𝗹𝗲 𝗻𝗼𝗺𝗯𝗿𝗲 𝗳𝗶𝗻𝗮𝗹 𝗱𝗲 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝘀.

En résumé :
𝗞-𝗠𝗲𝗮𝗻𝘀 𝗿𝗲𝗴𝗿𝗼𝘂𝗽𝗲 𝗿𝗮𝗽𝗶𝗱𝗲𝗺𝗲𝗻𝘁.
𝗟𝗲 𝗰𝗹𝘂𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗵𝗶𝗲́𝗿𝗮𝗿𝗰𝗵𝗶𝗾𝘂𝗲 𝗺𝗼𝗻𝘁𝗿𝗲 𝗰𝗼𝗺𝗺𝗲𝗻𝘁 𝗹𝗲𝘀 𝗴𝗿𝗼𝘂𝗽𝗲𝘀 𝘀𝗲 𝗳𝗼𝗿𝗺𝗲𝗻𝘁.

Si cette publication vous a été utile, pensez à 𝗹𝗶𝗸𝗲𝗿, 𝗰𝗼𝗺𝗺𝗲𝗻𝘁𝗲𝗿 et 𝗽𝗮𝗿𝘁𝗮𝗴𝗲𝗿 avec vos amis, étudiants et collègues.

Inscrivez-vous dès maintenant pour réserver votre place pour la prochaine session de notre formation en É𝗰𝗼𝗻𝗼𝗺é𝘁𝗿𝗶𝗲 𝗲𝘁 𝗧𝗲𝗰𝗵𝗻𝗶𝗾𝘂𝗲𝘀 https://forms.gle/yZAZimRXbTFbUWZk6

#MachineLearning #DataScience #Clustering #HierarchicalClustering #AnalyseDeDonnées #Statistiques #IntelligenceArtificielle #Segmentation #DataAnalytics #Python #BigData

Rechercher dans ce blog

Statistical Models for Social Sciences

📊 𝗖𝗟𝗨𝗦𝗧𝗘𝗥𝗜𝗡𝗚 𝗛𝗜𝗘́𝗥𝗔𝗥𝗖𝗛𝗜𝗤𝗨𝗘 : 𝗖𝗢𝗠𝗣𝗥𝗘𝗡𝗗𝗥𝗘 𝗟𝗘𝗦 𝗚𝗥𝗢𝗨𝗣𝗘𝗦 𝗦𝗔𝗡𝗦 𝗙𝗜𝗫𝗘𝗥 𝗞 𝗔̀ 𝗟’𝗔𝗩𝗔𝗡𝗖𝗘

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique

comment exporter les résultats des estimations de STATA vers word, Excel...

panel ARDL in STATA