📈 𝓀-Nearest Neighbors (𝓀NN) : comprendre un algorithme clé du Machine Learning
🔹 𝓛𝓮 𝓴-Nearest Neighbors (𝓴NN) est un algorithme non paramétrique et basé sur les instances, utilisé aussi bien en classification qu’en régression.
👉 En classification,
pour prédire la classe d’une nouvelle observation, le kNN identifie les 𝓴 observations les plus proches dans l’espace des variables et
attribue la classe majoritaire
parmi ces voisins.
👉 En régression, il calcule
la moyenne (ou moyenne pondérée)
des valeurs cibles des voisins.
✅ 𝓐𝓾𝓬𝓾𝓷 𝓪𝓹𝓹𝓻𝓮𝓷𝓽𝓲𝓼𝓼𝓪𝓰𝓮 𝓬𝓸𝓶𝓹𝓵𝓮𝔁𝓮 : le modèle ne “s’entraîne” pas, il
compare directement les
nouvelles données aux observations existantes.
🔍 𝓕𝓸𝓷𝓬𝓽𝓲𝓸𝓷𝓷𝓮𝓶𝓮𝓷𝓽 𝓭𝓾 𝓴NN (classification)
1️⃣ Choisir 𝓴 (nombre de voisins) et une mesure de distance (souvent euclidienne)
2️⃣ Pour une
observation à prédire :
·
calculer
la distance avec toutes les observations d’apprentissage
·
sélectionner
les 𝓴 plus proches voisins
·
décider
de la classe par :
o
𝓿𝓸𝓽𝓮 𝓾𝓷𝓲𝓯𝓸𝓻𝓶𝓮 (chaque voisin compte autant)
o
𝓿𝓸𝓽𝓮 𝓹𝓸𝓷𝓭𝓮́𝓻𝓮́ 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 (les plus proches comptent
davantage)
📊 𝓘𝓷𝓽𝓮𝓻𝓹𝓻𝓮́𝓽𝓪𝓽𝓲𝓸𝓷 𝓭𝓮𝓼 𝓯𝓻𝓸𝓷𝓽𝓲𝓮̀𝓻𝓮𝓼 𝓭𝓮 𝓭𝓮́𝓬𝓲𝓼𝓲𝓸𝓷
·
Les
zones colorées représentent les classes
prédites
·
Les
frontières montrent où la classe
dominante change
👉 𝓛𝓪 𝓹𝓸𝓷𝓭𝓮́𝓻𝓪𝓽𝓲𝓸𝓷 𝓹𝓪𝓻 𝓵𝓪 𝓭𝓲𝓼𝓽𝓪𝓷𝓬𝓮 donne plus d’importance aux voisins
proches, ce qui permet de mieux capturer
les structures locales.
🎯 𝓒𝓱𝓸𝓲𝔁 𝓭𝓮 𝓴 : 𝓲𝓷𝓽𝓾𝓲𝓽𝓲𝓸𝓷
·
𝓟𝓮𝓽𝓲𝓽 𝓴 (ex. 1) → très flexible, sur-apprentissage
·
𝓖𝓻𝓪𝓷𝓭 𝓴 → frontières plus lisses, sous-apprentissage
✔️ Bonne pratique : 𝓿𝓪𝓵𝓲𝓭𝓪𝓽𝓲𝓸𝓷 𝓬𝓻𝓸𝓲𝓼𝓮́𝓮 pour choisir le k optimal.
⚠️ 𝓘𝓶𝓹𝓸𝓻𝓽𝓪𝓷𝓬𝓮 𝓭𝓮 𝓵𝓪 𝓷𝓸𝓻𝓶𝓪𝓵𝓲𝓼𝓪𝓽𝓲𝓸𝓷
Le kNN repose sur les distances 👉
🔴 Sans standardisation, une variable à grande échelle domine les autres.
✅ Toujours centrer et réduire (z-score ou min-max).
➕ 𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼 | ➖ 𝓛𝓲𝓶𝓲𝓽𝓮𝓼
✅ 𝓐𝓿𝓪𝓷𝓽𝓪𝓰𝓮𝓼
·
Simple et intuitif
·
Multiclasse naturel
·
Efficace
quand les frontières sont irrégulières
❌ 𝓛𝓲𝓶𝓲𝓽𝓮𝓼
·
Lent
sur grands jeux de données
·
Sensible aux variables inutiles
·
Problème
en haute dimension (malédiction de la dimension)
📌 𝓠𝓾𝓪𝓷𝓭 𝓾𝓽𝓲𝓵𝓲𝓼𝓮𝓻 𝓴NN ?
✔️ Données de taille moyenne
✔️ Variables numériques bien normalisées
✔️ Structures locales importantes
✔️ Excellent modèle de référence (baseline)
💬 Et vous ?
👉 Avez-vous déjà utilisé le kNN
dans vos analyses ou projets de Machine Learning ?
📌 Si ce post vous
a été utile, pensez à liker, commenter et partager
📊 Statistique • Machine Learning •
Data Science
Pour mieux apprendre l’utilisation des logiciel et
modèles statistiques, nous vous invitons à prendre part à la prochaine session
de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨
https://forms.gle/yZAZimRXbTFbUWZk6
#𝐊𝐍𝐍 #𝐌𝐚𝐜𝐡𝐢𝐧𝐞𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 #𝐃𝐚𝐭𝐚𝐒𝐜𝐢𝐞𝐧𝐜𝐞 #𝐒𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 #𝐀𝐥𝐠𝐨𝐫𝐢𝐭𝐡𝐦𝐞
.png)
Commentaires
Enregistrer un commentaire