La valeur manquante de l'imputation en python à l'aide de KNN

J'ai un jeu de données qui ressemble à ceci

1908    January 5.0 -1.4
1908    February    7.3 1.9
1908    March   6.2 0.3
1908    April   NaN   2.1
1908    May NaN   7.7
1908    June    17.7    8.7
1908    July    NaN   11.0
1908    August  17.5    9.7
1908    September   16.3    8.4
1908    October 14.6    8.0
1908    November    9.6 3.4
1908    December    5.8 NaN
1909    January 5.0 0.1
1909    February    5.5 -0.3
1909    March   5.6 -0.3
1909    April   12.2    3.3
1909    May 14.7    4.8
1909    June    15.0    7.5
1909    July    17.3    10.8
1909    August  18.8    10.7

Je veux remplacer le NaNs à l'aide de KNN que la méthode. J'ai regardé sklearns Imputer classe, mais il ne supporte que la moyenne, la médiane et le mode d'imputation. Il y a une demande de fonctionnalité ici mais je ne pense pas que des thats été mises en œuvre dès maintenant. Toutes les idées sur la façon de remplacer le NaNs à partir de les deux dernières colonnes à l'aide de KNN?

Modifier:
Depuis que j'ai besoin d'exécuter des codes sur un autre environnement, je n'ai pas le luxe de l'installation des packages. sklearn, les pandas, numpy et d'autres packages standard sont les seuls que je peux utiliser.

Sklearn semble être très proche de la libération de cette: github.com/scikit-learn/scikit-learn/pull/9212

OriginalL'auteur Clock Slave | 2017-07-26

14

fancyimpute paquet prend en charge ce type d'imputation, à l'aide de l'API suivantes:
```
from fancyimpute import KNN    
# X is the complete data matrix
# X_incomplete has the same values as X except a subset have been replace with NaN

# Use 3 nearest rows which have a feature to fill in each row's missing features
X_filled_knn = KNN(k=3).complete(X_incomplete)
```
Voici les imputations pris en charge par ce package:

•SimpleFill: Remplace les entrées manquantes avec la moyenne ou la médiane de chaque
la colonne.

•KNN: voisin le plus Proche imputations laquelle le poids des échantillons à l'aide de la
la différence moyenne au carré sur les caractéristiques de deux lignes ont
les données observées.

•SoftImpute: Matrice d'achèvement par un processus itératif seuillage doux de SVD
décompositions. Inspiré par le softImpute forfait pour la R, qui est
basé sur Spectrale de Régularisation des Algorithmes pour l'Apprentissage de la Grande
Incomplet des Matrices par Mazumder et. al.

•IterativeSVD: Matrice d'achèvement par un processus itératif de rang bas SVD
la décomposition. Devrait être similaire à SVDimpute de valeur Manquante
les méthodes d'estimation pour les puces à ADN par Troyanskaya et. al.

•SOURIS: la remise à plat de l'Imputation Multiple par Enchaînés Équations.

•MatrixFactorization: Direct de la factorisation de la matrice incomplète
en bas rang de U et de V, avec une L1 rareté de pénalité sur les éléments de
U et une L2 de pénalité sur les éléments de V. Résolu par descente de gradient.

•NuclearNormMinimization: Simple mise en œuvre d'Exact de la Matrice
Achèvement par Optimisation Convexe par Emmanuel Candes et Benjamin
Recht à l'aide de cvxpy. Trop lent pour les grandes matrices.

•BiScaler: Itératif d'estimation de la ligne/colonne et standard
les écarts d'obtenir doublement normalisée de la matrice. Pas de garantie de convergence
mais fonctionne bien dans la pratique. Prises à partir de la Matrice d'Achèvement et de Bas Rang
SVD Rapide via l'Alternance des moindres Carrés.

Des excuses. Mon mauvais. L'environnement dans lequel ce code doit être utilisé n'a pas fancyImpute. Il prend en charge les paquets standard comme-numpy, les pandas, sklearn. Modifier la question.
Ensuite, vous pouvez regarder le code de fancyImpute et de mettre en œuvre vous-même pour votre cas.

OriginalL'auteur Miriam Farber
2

Ce pull request à sklearn ajoute KNN de soutien. Vous pouvez obtenir le code de il - https://github.com/scikit-learn/scikit-learn/pull/9212

OriginalL'auteur Omri

Vous devez vous connecter pour publier un commentaire.