๐‘ซ๐’๐’๐’รฉ๐’†๐’” ๐’Ž๐’‚๐’๐’’๐’–๐’‚๐’๐’•๐’†๐’” : ๐’…รฉ๐’„๐’๐’–๐’—๐’“๐’†๐’› ๐’’๐’Š๐’Ž๐’‘๐’–๐’•๐’‚๐’•๐’Š๐’๐’ ๐‘ต๐‘ต๐‘บ, ๐’–๐’๐’† ๐’‚๐’๐’•๐’†๐’“๐’๐’‚๐’•๐’Š๐’—๐’† ๐’‘๐’–๐’Š๐’”๐’”๐’‚๐’๐’•๐’†

Les donnรฉes manquantes constituent un problรจme frรฉquent dans presque tous les jeux de donnรฉes, et peuvent fausser sรฉrieusement les rรฉsultats statistiques si elles ne sont pas traitรฉes correctement.

Une solution largement utilisรฉe est l’imputation des donnรฉes manquantes, qui consiste ร  estimer et remplacer les valeurs manquantes par des valeurs plausibles, plutรดt que de supprimer les observations incomplรจtes.

Il existe de nombreuses mรฉthodes d’imputation, et il est souvent difficile de choisir la plus adaptรฉe ร  un jeu de donnรฉes donnรฉ.
Une mรฉthode que j’ai rรฉcemment dรฉcouverte et qui prรฉsente des rรฉsultats trรจs prometteurs est l’imputation NNS (Nonlinear Nonparametric Statistics).

L’imputation NNS repose sur une rรฉgression non linรฉaire et non paramรฉtrique. Elle estime les valeurs manquantes en identifiant des relations locales optimales dans les donnรฉes, sans supposer de linรฉaritรฉ ni d’homoscรฉdasticitรฉ.
๐Ÿ‘‰ Elle s’adapte donc trรจs bien aux structures complexes, aux tendances non linรฉaires et aux variances hรฉtรฉrogรจnes.

L’illustration associรฉe montre deux applications de l’imputation NNS :

·         ร€ gauche, un jeu de donnรฉes non linรฉaire avec 15 % de valeurs manquantes

·         ร€ droite, un jeu de donnรฉes hรฉtรฉroscรฉdastique avec 30 % de valeurs manquantes

Dans les deux cas, les valeurs imputรฉes (en magenta) suivent de trรจs prรจs la structure des donnรฉes observรฉes (en noir), ce qui montre que la mรฉthode parvient ร  reconstruire les dynamiques sous-jacentes, mรชme dans des contextes difficiles.

๐Ÿ‘‰ L’imputation NNS est disponible dans R via le package NNS, ce qui la rend facile ร  appliquer sur des donnรฉes rรฉelles.
Un grand merci ร  Fred Viole pour le dรฉveloppement de ce package remarquable.

ร€ ce jour, il existe peu de travaux comparant l’imputation NNS ร  des mรฉthodes plus รฉtablies comme le Predictive Mean Matching ou l’imputation par forรชts alรฉatoires.
๐Ÿ‘‰ Avez-vous dรฉjร  utilisรฉ l’imputation NNS ?
๐Ÿ‘‰ Comment se compare-t-elle, selon vous, aux autres approches ?

Si vous avez trouvรฉ cette publication utile, n'hรฉsitez pas ร  ๐’๐’‚ ๐’๐’Š๐’Œ๐’†๐’“ ๐’†๐’• ร  ๐’๐’‚ ๐’‘๐’‚๐’“๐’•๐’‚๐’ˆ๐’†๐’“ avec vos amis et collรจgues !

Pour mieux apprendre l’utilisation des logiciel et modรจles statistiques, nous vous invitons ร  prendre part ร  la prochaine session de notre formation en ๐™€๐™˜๐™ค๐™ฃ๐™ค๐™ขรฉ๐™ฉ๐™ง๐™ž๐™š ๐™š๐™ฉ ๐™๐™š๐™˜๐™๐™ฃ๐™ž๐™ฆ๐™ช๐™š๐™จ ๐™Œ๐™ช๐™–๐™ฃ๐™ฉ๐™ž๐™ฉ๐™–๐™ฉ๐™ž๐™ซ๐™š๐™จ

https://forms.gle/yZAZimRXbTFbUWZk6



 #๐ƒ๐š๐ญ๐š๐’๐œ๐ข๐ž๐ง๐œ๐ž #๐’๐ญ๐š๐ญ๐ข๐ฌ๐ญ๐ข๐ช๐ฎ๐ž๐ฌ #๐‘๐๐ซ๐จ๐ ๐ซ๐š๐ฆ๐ฆ๐ข๐ง๐  #๐ƒ๐จ๐ง๐งรฉ๐ž๐ฌ๐Œ๐š๐ง๐ช๐ฎ๐š๐ง๐ญ๐ž๐ฌ #๐Œ๐š๐œ๐ก๐ข๐ง๐ž๐‹๐ž๐š๐ซ๐ง๐ข๐ง๐ 

 

Commentaires

Posts les plus consultรฉs de ce blog

ร‰conomรฉtrie des donnรฉes de panel: de la thรฉorie ร  la pratique