📈 𝓀-Nearest Neighbors (𝓀NN) : comprendre un algorithme clé du Machine Learning

🔹 𝓛𝓮 𝓴-Nearest Neighbors (𝓴NN) est un algorithme non paramétrique et basé sur les instances, utilisé aussi bien en classification qu’en régression.

👉 En classification, pour prédire la classe d’une nouvelle observation, le kNN identifie les 𝓴 observations les plus proches dans l’espace des variables et attribue la classe majoritaire parmi ces voisins.
👉 En régression, il calcule la moyenne (ou moyenne pondérée) des valeurs cibles des voisins.

✅ 𝓐𝓾𝓬𝓾𝓷 𝓪𝓹𝓹𝓻𝓮𝓷𝓽𝓲𝓼𝓼𝓪𝓰𝓮 𝓬𝓸𝓶𝓹𝓵𝓮𝔁𝓮 : le modèle ne “s’entraîne” pas, il compare directement les nouvelles données aux observations existantes.

🔍 𝓕𝓸𝓷𝓬𝓽𝓲𝓸𝓷𝓷𝓮𝓶𝓮𝓷𝓽 𝓭𝓾 𝓴NN (classification)

1️⃣ Choisir 𝓴 (nombre de voisins) et une mesure de distance (souvent euclidienne)
2️⃣ Pour une observation à prédire :

· calculer la distance avec toutes les observations d’apprentissage

· sélectionner les 𝓴 plus proches voisins

· décider de la classe par :

o 𝓿𝓸𝓽𝓮 𝓾𝓷𝓲𝓯𝓸𝓻𝓶𝓮 (chaque voisin compte autant)

o 𝓿𝓸𝓽𝓮 𝓹𝓸𝓷𝓭𝓮́𝓻𝓮́ 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 (les plus proches comptent davantage)

📊 𝓘𝓷𝓽𝓮𝓻𝓹𝓻𝓮́𝓽𝓪𝓽𝓲𝓸𝓷 𝓭𝓮𝓼 𝓯𝓻𝓸𝓷𝓽𝓲𝓮̀𝓻𝓮𝓼 𝓭𝓮 𝓭𝓮́𝓬𝓲𝓼𝓲𝓸𝓷

· Les zones colorées représentent les classes prédites

· Les frontières montrent où la classe dominante change

👉 𝓛𝓪 𝓹𝓸𝓷𝓭𝓮́𝓻𝓪𝓽𝓲𝓸𝓷 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 donne plus d’importance aux voisins proches, ce qui permet de mieux capturer les structures locales.

🎯 𝓒𝓱𝓸𝓲𝔁 𝓭𝓮 𝓴 : 𝓲𝓷𝓽𝓾𝓲𝓽𝓲𝓸𝓷

· 𝓟𝓮𝓽𝓲𝓽 𝓴 (ex. 1) → très flexible, sur-apprentissage

· 𝓖𝓻𝓪𝓷𝓭 𝓴 → frontières plus lisses, sous-apprentissage

✔️ Bonne pratique : 𝓿𝓪𝓵𝓲𝓭𝓪𝓽𝓲𝓸𝓷 𝓬𝓻𝓸𝓲𝓼𝓮́𝓮 pour choisir le k optimal.

⚠️ 𝓘𝓶𝓹𝓸𝓻𝓽𝓪𝓷𝓬𝓮 𝓭𝓮 𝓵𝓪 𝓷𝓸𝓻𝓶𝓪𝓵𝓲𝓼𝓪𝓽𝓲𝓸𝓷

Le kNN repose sur les distances 👉
🔴 Sans standardisation, une variable à grande échelle domine les autres.

✅ Toujours centrer et réduire (z-score ou min-max).

➕ 𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼 | ➖ 𝓛𝓲𝓶𝓲𝓽𝓮𝓼

✅ 𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼

· Simple et intuitif

· Multiclasse naturel

· Efficace quand les frontières sont irrégulières

❌ 𝓛𝓲𝓶𝓲𝓽𝓮𝓼

· Lent sur grands jeux de données

· Sensible aux variables inutiles

· Problème en haute dimension (malédiction de la dimension)

📌 𝓠𝓾𝓪𝓷𝓭 𝓾𝓽𝓲𝓵𝓲𝓼𝓮𝓻 𝓴NN ?

✔️ Données de taille moyenne
✔️ Variables numériques bien normalisées
✔️ Structures locales importantes
✔️ Excellent modèle de référence (baseline)

💬 Et vous ?
👉 Avez-vous déjà utilisé le kNN dans vos analyses ou projets de Machine Learning ?

📌 Si ce post vous a été utile, pensez à liker, commenter et partager
📊 Statistique • Machine Learning • Data Science

Pour mieux apprendre l’utilisation des logiciel et modèles statistiques, nous vous invitons à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨

https://forms.gle/yZAZimRXbTFbUWZk6

#𝐊𝐍𝐍 #𝐌𝐚𝐜𝐡𝐢𝐧𝐞𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 #𝐃𝐚𝐭𝐚𝐒𝐜𝐢𝐞𝐧𝐜𝐞 #𝐒𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 #𝐀𝐥𝐠𝐨𝐫𝐢𝐭𝐡𝐦𝐞

Rechercher dans ce blog

Statistical Models for Social Sciences