𝓛'𝓘𝓶𝓹𝓾𝓽𝓪𝓽𝓲𝓸𝓷 𝓭𝓮𝓼 𝓓𝓸𝓷𝓷é𝓮𝓼 𝓜𝓪𝓷𝓺𝓾𝓪𝓷𝓽𝓮𝓼 𝓪𝓿𝓮𝓬 𝓵𝓮 𝓟𝓻𝓮𝓭𝓲𝓬𝓽𝓲𝓿𝓮 𝓜𝓮𝓪𝓷 𝓜𝓪𝓽𝓬𝓱𝓲𝓷𝓰 (𝓟𝓜𝓜)
Lorsqu'on
traite des 𝗱𝗼𝗻𝗻é𝗲𝘀 𝗺𝗮𝗻𝗾𝘂𝗮𝗻𝘁𝗲𝘀, il est
essentiel de 𝗽𝗿é𝘀𝗲𝗿𝘃𝗲𝗿 𝗹𝗮 𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗲𝘁 𝗹𝗮 𝘃𝗮𝗿𝗶𝗮𝗯𝗶𝗹𝗶𝘁é 𝘀𝗼𝘂𝘀-𝗷𝗮𝗰𝗲𝗻𝘁𝗲 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻é𝗲𝘀, en
particulier pour les relations non linéaires. Le 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝘃𝗲 𝗠𝗲𝗮𝗻 𝗠𝗮𝘁𝗰𝗵𝗶𝗻𝗴 (𝗣𝗠𝗠) est une
méthode robuste d’imputation qui excelle dans la conservation des
caractéristiques originales des données, ce qui le rend particulièrement adapté
aux 𝗱𝗼𝗻𝗻é𝗲𝘀 𝗻𝗼𝗻 𝗹𝗶𝗻é𝗮𝗶𝗿𝗲𝘀.
L’image
jointe illustre la différence entre les 𝘃𝗮𝗹𝗲𝘂𝗿𝘀 𝗼𝗯𝘀𝗲𝗿𝘃é𝗲𝘀 (𝗲𝗻 𝘃𝗲𝗿𝘁) et les 𝘃𝗮𝗹𝗲𝘂𝗿𝘀 𝗶𝗺𝗽𝘂𝘁é𝗲𝘀 (𝗲𝗻 𝗿𝗼𝘂𝗴𝗲), ainsi que
la 𝗹𝗶𝗴𝗻𝗲 𝗱𝗲 𝗿é𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 utilisée
pour le m𝗮𝘁𝗰𝗵𝗶𝗻𝗴.
Contrairement aux méthodes d’imputation plus simples, le PMM 𝗻𝗲 𝗿𝗲𝗺𝗽𝗹𝗮𝗰𝗲 𝗽𝗮𝘀 𝗱𝗶𝗿𝗲𝗰𝘁𝗲𝗺𝗲𝗻𝘁 𝗹𝗲𝘀 𝘃𝗮𝗹𝗲𝘂𝗿𝘀 𝗺𝗮𝗻𝗾𝘂𝗮𝗻𝘁𝗲𝘀 par des
prédictions exactes issues de la régression. Il sélectionne plutôt les 𝘃𝗮𝗹𝗲𝘂𝗿𝘀 𝗼𝗯𝘀𝗲𝗿𝘃é𝗲𝘀 𝗹𝗲𝘀 𝗽𝗹𝘂𝘀 𝗽𝗿𝗼𝗰𝗵𝗲𝘀 𝗱𝗲𝘀 𝗽𝗿é𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀,
garantissant ainsi une 𝘃𝗮𝗿𝗶𝗮𝗯𝗶𝗹𝗶𝘁é 𝗻𝗮𝘁𝘂𝗿𝗲𝗹𝗹𝗲 et une meilleure
cohérence avec la structure non linéaire des données.
🔹 𝔸𝕧𝕒𝕟𝕥𝕒𝕘𝕖𝕤 ℂ𝕝é𝕤 𝕕𝕦 ℙ𝕄𝕄 𝕡𝕠𝕦𝕣 𝕝𝕖𝕤 𝔻𝕠𝕟𝕟é𝕖𝕤 ℕ𝕠𝕟 𝕃𝕚𝕟é𝕒𝕚𝕣𝕖𝕤:
✔ 𝕻𝖗é𝖘𝖊𝖗𝖛𝖊 𝖑𝖆 𝖁𝖆𝖗𝖎𝖆𝖇𝖎𝖑𝖎𝖙é : En
sélectionnant des valeurs réellement observées, le PMM é𝘃𝗶𝘁𝗲 𝗹𝗲 𝘀𝘂𝗿-𝗹𝗶𝘀𝘀𝗮𝗴𝗲 et garantit
que les valeurs imputées reflètent la 𝘃𝗮𝗿𝗶𝗮𝗯𝗶𝗹𝗶𝘁é 𝗻𝗮𝘁𝘂𝗿𝗲𝗹𝗹𝗲 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻é𝗲𝘀.
✔ 𝕲è𝖗𝖊 𝖑𝖊𝖘 𝕽𝖊𝖑𝖆𝖙𝖎𝖔𝖓𝖘 𝕹𝖔𝖓 𝕷𝖎𝖓é𝖆𝖎𝖗𝖊𝖘: Bien que la
𝗿é𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗴𝘂𝗶𝗱𝗲 𝗹𝗲 𝗺𝗮𝘁𝗰𝗵𝗶𝗻𝗴, les
valeurs imputées respectent la 𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗻𝗼𝗻 𝗹𝗶𝗻é𝗮𝗶𝗿𝗲 𝗼𝗿𝗶𝗴𝗶𝗻𝗮𝗹𝗲, comme
illustré dans le graphique.
✔ 𝕽é𝖉𝖚𝖎𝖙 𝖑𝖊𝖘 𝕭𝖎𝖆𝖎𝖘:
Contrairement aux méthodes déterministes reposant sur des modèles linéaires, le
PMM é𝘃𝗶𝘁𝗲 𝗹𝗲𝘀 𝗯𝗶𝗮𝗶𝘀 𝗱’𝗶𝗺𝗽𝘂𝘁𝗮𝘁𝗶𝗼𝗻 et garantit
des résultats plus réalistes.
𝓙𝓸𝓪𝓬𝓱𝓲𝓶 𝓢𝓬𝓱𝓸𝓻𝓴
📌 𝗘𝗻𝘃𝗶𝗲 𝗱’𝗲𝗻 𝗮𝗽𝗽𝗿𝗲𝗻𝗱𝗿𝗲 𝗱𝗮𝘃𝗮𝗻𝘁𝗮𝗴𝗲? N'hésitez surtout pas à nous
contacter ou à prendre part à la prochaine session de notre formation en 𝙀𝙘𝙤𝙣𝙤𝙢é𝙩𝙧𝙞𝙚 𝙚𝙩 𝙏𝙚𝙘𝙝𝙣𝙞𝙦𝙪𝙚𝙨 𝙌𝙪𝙖𝙣𝙩𝙞𝙩𝙖𝙩𝙞𝙫𝙚𝙨
#DataStructure #BigData
#DataScientists #DataVisualization #MachineLearning
Commentaires
Enregistrer un commentaire