📈 𝓀-Nearest Neighbors (𝓀NN) : comprendre un algorithme clé du Machine Learning

🔹 𝓛𝓮 𝓴-Nearest Neighbors (𝓴NN) est un algorithme non paramétrique et basé sur les instances, utilisé aussi bien en classification qu’en régression.

👉 En classification, pour prédire la classe d’une nouvelle observation, le kNN identifie les 𝓴 observations les plus proches dans l’espace des variables et attribue la classe majoritaire parmi ces voisins.
👉 En régression, il calcule la moyenne (ou moyenne pondérée) des valeurs cibles des voisins.

𝓐𝓾𝓬𝓾𝓷 𝓪𝓹𝓹𝓻𝓮𝓷𝓽𝓲𝓼𝓼𝓪𝓰𝓮 𝓬𝓸𝓶𝓹𝓵𝓮𝔁𝓮 : le modèle ne “s’entraîne” pas, il compare directement les nouvelles données aux observations existantes.


🔍 𝓕𝓸𝓷𝓬𝓽𝓲𝓸𝓷𝓷𝓮𝓶𝓮𝓷𝓽 𝓭𝓾 𝓴NN (classification)

1 Choisir 𝓴 (nombre de voisins) et une mesure de distance (souvent euclidienne)
2
Pour une observation à prédire :

·         calculer la distance avec toutes les observations d’apprentissage

·         sélectionner les 𝓴 plus proches voisins

·         décider de la classe par :

o    𝓿𝓸𝓽𝓮 𝓾𝓷𝓲𝓯𝓸𝓻𝓶𝓮 (chaque voisin compte autant)

o    𝓿𝓸𝓽𝓮 𝓹𝓸𝓷𝓭𝓮́𝓻𝓮́ 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 (les plus proches comptent davantage)


📊 𝓘𝓷𝓽𝓮𝓻𝓹𝓻𝓮́𝓽𝓪𝓽𝓲𝓸𝓷 𝓭𝓮𝓼 𝓯𝓻𝓸𝓷𝓽𝓲𝓮̀𝓻𝓮𝓼 𝓭𝓮 𝓭𝓮́𝓬𝓲𝓼𝓲𝓸𝓷

·         Les zones colorées représentent les classes prédites

·         Les frontières montrent où la classe dominante change

👉 𝓛𝓪 𝓹𝓸𝓷𝓭𝓮́𝓻𝓪𝓽𝓲𝓸𝓷 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 donne plus d’importance aux voisins proches, ce qui permet de mieux capturer les structures locales.


🎯 𝓒𝓱𝓸𝓲𝔁 𝓭𝓮 𝓴 : 𝓲𝓷𝓽𝓾𝓲𝓽𝓲𝓸𝓷

·         𝓟𝓮𝓽𝓲𝓽 𝓴 (ex. 1) → très flexible, sur-apprentissage

·         𝓖𝓻𝓪𝓷𝓭 𝓴 → frontières plus lisses, sous-apprentissage

Bonne pratique : 𝓿𝓪𝓵𝓲𝓭𝓪𝓽𝓲𝓸𝓷 𝓬𝓻𝓸𝓲𝓼𝓮́𝓮 pour choisir le k optimal.


𝓘𝓶𝓹𝓸𝓻𝓽𝓪𝓷𝓬𝓮 𝓭𝓮 𝓵𝓪 𝓷𝓸𝓻𝓶𝓪𝓵𝓲𝓼𝓪𝓽𝓲𝓸𝓷

Le kNN repose sur les distances 👉
🔴 Sans standardisation, une variable à grande échelle domine les autres.

Toujours centrer et réduire (z-score ou min-max).


𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼 | 𝓛𝓲𝓶𝓲𝓽𝓮𝓼

𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼

·         Simple et intuitif

·         Multiclasse naturel

·         Efficace quand les frontières sont irrégulières

𝓛𝓲𝓶𝓲𝓽𝓮𝓼

·         Lent sur grands jeux de données

·         Sensible aux variables inutiles

·         Problème en haute dimension (malédiction de la dimension)


📌 𝓠𝓾𝓪𝓷𝓭 𝓾𝓽𝓲𝓵𝓲𝓼𝓮𝓻 𝓴NN ?

Données de taille moyenne
Variables numériques bien normalisées
Structures locales importantes
Excellent modèle de référence (baseline)


💬 Et vous ?
👉 Avez-vous déjà utilisé le kNN dans vos analyses ou projets de Machine Learning ?


📌 Si ce post vous a été utile, pensez à liker, commenter et partager
📊 Statistique • Machine Learning • Data Science


Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨

https://forms.gle/yZAZimRXbTFbUWZk6



#𝐊𝐍𝐍 #𝐌𝐚𝐜𝐡𝐢𝐧𝐞𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 #𝐃𝐚𝐭𝐚𝐒𝐜𝐢𝐞𝐧𝐜𝐞 #𝐒𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 #𝐀𝐥𝐠𝐨𝐫𝐢𝐭𝐡𝐦𝐞

 

Commentaires

Posts les plus consultés de ce blog

Économétrie des données de panel: de la théorie à la pratique