๐ซ๐๐๐รฉ๐๐ ๐๐๐๐๐๐๐๐๐๐ : ๐ รฉ๐๐๐๐๐๐๐ ๐’๐๐๐๐๐๐๐๐๐๐ ๐ต๐ต๐บ, ๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐
Les donnรฉes manquantes constituent un problรจme frรฉquent dans presque tous les jeux de donnรฉes, et peuvent fausser sรฉrieusement les rรฉsultats statistiques si elles ne sont pas traitรฉes correctement.
Une solution largement utilisรฉe est l’imputation
des donnรฉes manquantes, qui consiste ร estimer et remplacer les valeurs manquantes par des valeurs
plausibles, plutรดt que de supprimer les observations incomplรจtes.
Il
existe de nombreuses mรฉthodes d’imputation,
et il est souvent difficile de choisir la
plus adaptรฉe ร un jeu de donnรฉes donnรฉ.
Une mรฉthode que j’ai rรฉcemment dรฉcouverte et qui prรฉsente des rรฉsultats trรจs prometteurs est l’imputation NNS (Nonlinear Nonparametric
Statistics).
L’imputation NNS repose sur une rรฉgression non linรฉaire et non paramรฉtrique.
Elle estime les valeurs manquantes en identifiant
des relations locales optimales dans les donnรฉes, sans supposer de linรฉaritรฉ ni d’homoscรฉdasticitรฉ.
๐ Elle s’adapte donc trรจs bien aux
structures complexes, aux tendances
non linรฉaires et aux variances
hรฉtรฉrogรจnes.
L’illustration associรฉe montre deux
applications de l’imputation NNS :
·
ร gauche, un jeu de donnรฉes non linรฉaire avec 15 % de valeurs manquantes
·
ร droite, un jeu de donnรฉes hรฉtรฉroscรฉdastique avec 30 % de valeurs manquantes
Dans les deux cas, les valeurs
imputรฉes (en magenta) suivent de trรจs prรจs la structure des donnรฉes observรฉes (en noir), ce qui
montre que la mรฉthode parvient ร
reconstruire les dynamiques sous-jacentes, mรชme dans des contextes
difficiles.
๐ L’imputation NNS
est disponible dans R via le package NNS, ce qui la rend facile ร appliquer sur des donnรฉes rรฉelles.
Un grand merci ร Fred Viole pour
le dรฉveloppement de ce package remarquable.
ร ce jour, il existe peu de
travaux comparant l’imputation NNS ร des mรฉthodes plus รฉtablies comme
le Predictive Mean Matching ou l’imputation par forรชts alรฉatoires.
๐ Avez-vous dรฉjร utilisรฉ
l’imputation NNS ?
๐ Comment se compare-t-elle, selon
vous, aux autres approches ?
Si vous avez trouvรฉ cette publication
utile, n'hรฉsitez pas ร ๐๐ ๐๐๐๐๐ ๐๐ ร ๐๐ ๐๐๐๐๐๐๐๐ avec vos amis et collรจgues !
Pour mieux apprendre l’utilisation des logiciel et
modรจles statistiques, nous vous invitons ร prendre part ร la prochaine session
de notre formation en ๐๐๐ค๐ฃ๐ค๐ขรฉ๐ฉ๐ง๐๐ ๐๐ฉ ๐๐๐๐๐ฃ๐๐ฆ๐ช๐๐จ ๐๐ช๐๐ฃ๐ฉ๐๐ฉ๐๐ฉ๐๐ซ๐๐จ
https://forms.gle/yZAZimRXbTFbUWZk6
#๐๐๐ญ๐๐๐๐ข๐๐ง๐๐
#๐๐ญ๐๐ญ๐ข๐ฌ๐ญ๐ข๐ช๐ฎ๐๐ฌ
#๐๐๐ซ๐จ๐ ๐ซ๐๐ฆ๐ฆ๐ข๐ง๐
#๐๐จ๐ง๐งรฉ๐๐ฌ๐๐๐ง๐ช๐ฎ๐๐ง๐ญ๐๐ฌ
#๐๐๐๐ก๐ข๐ง๐๐๐๐๐ซ๐ง๐ข๐ง๐
.png)
Commentaires
Enregistrer un commentaire