sklearn erreur ValueError: Entrée contient NaN, infinity ou une valeur trop grande pour dtype('float64')

Je suis en utilisant sklearn et ayant un problème avec l'affinité de propagation. J'ai construit une matrice d'entrée et je reçois l'erreur suivante.

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

J'ai couru

np.isnan(mat.any()) #and gets False
np.isfinite(mat.all()) #and gets True

J'ai essayé d'utiliser

mat[np.isfinite(mat) == True] = 0

pour éliminer l'infini de valeurs, mais cela ne fonctionne pas non plus.
Que puis-je faire pour se débarrasser de l'infini de valeurs dans ma matrice, de sorte que je peux utiliser l'affinité algorithme de propagation?

Je suis à l'aide de l'anaconda et python 2.7.9.

Je vais voter pour fermer cette, comme l'auteur le dit lui-même que ses données n'était pas valide et si tout indiquait-il, il n'a pas de valider -- l'équivalent des données à une faute de frappe, qui est un de clôture de la raison.
J'ai eu ce même problème avec mon jeu de données. En fin de compte: données d'erreur, pas un scikit learn bug. La plupart des réponses ci-dessous sont utiles, mais trompeuses. Vérifier vérifier vérifier vos données, assurez-vous que lors de la conversion à float64 il est à la fois fini et pas nan. Le message d'erreur est apt - ce n'est presque certainement la question pour quelqu'un qui se trouve ici.
Pour l'enregistrement et +1 pour @Owen, vérifiez votre saisie de données et assurez-vous que vous n'avez aucune valeur manquante dans une ligne ou une grille. Vous pouvez utiliser le Imputer la classe pour éviter ce problème.

InformationsquelleAutor Ethan Waldie | 2015-07-09

76

Ce qui pourrait se produire à l'intérieur de scikit, et cela dépend de ce que vous faites. Je vous recommande la lecture de la documentation pour les fonctions que vous êtes en utilisant. Vous utilisez peut-être un qui dépend par exemple sur votre matrice étant définie positive et ne remplissant pas ce critère.

MODIFIER: Comment ai-je pu rater ça:
```
np.isnan(mat.any()) #and gets False
np.isfinite(mat.all()) #and gets True
```
est évidemment faux. Le droit serait:
```
np.any(np.isnan(mat))
```
et
```
np.all(np.isfinite(mat))
```
Vous voulez vérifier si tout de l'élément est de NaN, et pas de savoir si la valeur de retour de la any fonction est un nombre...
- La documentation ne mentionne rien au sujet de cette erreur que j'ai besoin d'un moyen de se débarrasser de l'infinité de valeurs de mon tableau nupy
- Comme je l'ai dit: Ils sont peut-être pas dans votre tableau d'entrée. Elles pourraient se produire dans les mathématiques qui se passe entre l'entrée et magique de sortie. Le point est que tout cela mathématiques dépend de certaines conditions pour l'entrée. Vous devez lire attentivement les docs pour savoir si votre entrée satisifies ces conditions.
- pourriez-vous m'indiquer l'emplacement de ce document où ils spécifient les exigences de la matrice d'entrée? Je n'arrive pas à trouver les "docs" vous faites allusion. Merci 🙂
InformationsquelleAutor Marcus Müller
24

J'ai eu le même message d'erreur lors de l'utilisation de sklearn avec pandas. Ma solution est de réinitialiser l'index de ma dataframe df avant l'exécution de tout sklearn code:
```
df = df.reset_index()
```
J'ai rencontré ce problème plusieurs fois, lorsque j'ai enlevé certaines entrées dans mon df, comme
```
df = df[df.label=='desired_one']
```
- Cela a résolu mon erreur. génial!
- Je vous aime!!! C'est un exemple rare de me trouver la solution en dépit de ne pas savoir ce qui est la cause de l'erreur!
- En faisant le df.reset_index (), il va ajouter de la "index" comme une colonne dans le résultat de df. Qui peut ne pas être utile pour tous les scénarios. Si le df.reset_index(drop=True) couru alors qu'il va jeter la même erreur.
InformationsquelleAutor Jun Wang
11

Les Dimensions de mon tableau d'entrée ont été faussées, comme mon entrée csv a des espaces vides.
- Pour les pandas, j'ai simplement utilisé dropna pandas.pydata.org/pandas-docs/stable/generated/...
InformationsquelleAutor Ethan Waldie

C'est la case sur laquelle il tombe en panne:

https://github.com/scikit-learn/scikit-learn/blob/0.17.X/sklearn/utils/validation.py#L51

Qui dit

def _assert_all_finite(X):
    """Like assert_all_finite, but only for ndarray."""
    X = np.asanyarray(X)
    # First try an O(n) time, O(1) space solution for the common case that
    # everything is finite; fall back to O(n) space np.isfinite to prevent
    # false positives from overflow in sum method.
    if (X.dtype.char in np.typecodes['AllFloat'] and not np.isfinite(X.sum())
            and not np.isfinite(X).all()):
        raise ValueError("Input contains NaN, infinity"
                         " or a value too large for %r." % X.dtype)

Donc, assurez-vous que vous avez non des valeurs NaN dans votre entrée. Et toutes ces valeurs sont en fait des valeurs flottantes. Aucune des valeurs doit être Inf soit.

InformationsquelleAutor tuxdna

6

C'est ma fonction (basé sur cette) pour nettoyer l'ensemble de données de la nan, Inf, et les cellules manquantes (pour biaisée ensembles de données):
```
import pandas as pd

def clean_dataset(df):
    assert isinstance(df, pd.DataFrame), "df needs to be a pd.DataFrame"
    df.dropna(inplace=True)
    indices_to_keep = ~df.isin([np.nan, np.inf, -np.inf]).any(1)
    return df[indices_to_keep].astype(np.float64)
```
- Pourquoi avez-vous déposer le nan deux fois? Première fois avec dropna puis une deuxième fois lors de la suppression d'inf.
InformationsquelleAutor Boern

Avec cette version de python 3:

/opt/anaconda3/bin/python --version
Python 3.6.0 :: Anaconda 4.3.0 (64-bit)

En regardant les détails de l'erreur, j'ai trouvé les lignes de codes l'origine de l'échec:

/opt/anaconda3/lib/python3.6/site-packages/sklearn/utils/validation.py in _assert_all_finite(X)
     56             and not np.isfinite(X).all()):
     57         raise ValueError("Input contains NaN, infinity"
---> 58                          " or a value too large for %r." % X.dtype)
     59 
     60 

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

À partir de cela, j'ai été en mesure d'extraire la bonne façon de tester ce qui se passait avec mes données en utilisant le même test qui échoue donnée par le message d'erreur: np.isfinite(X)

Puis, avec un rapide et sale de la boucle, j'ai pu constater que mes données comprend en effet nans:

print(p[:,0].shape)
index = 0
for i in p[:,0]:
    if not np.isfinite(i):
        print(index, i)
    index +=1

(367340,)
4454 nan
6940 nan
10868 nan
12753 nan
14855 nan
15678 nan
24954 nan
30251 nan
31108 nan
51455 nan
59055 nan
...

Maintenant tout ce que j'ai à faire est de supprimer les valeurs de ces indices.

InformationsquelleAutor Raphvanns

3

J'ai eu l'erreur après avoir essayé de sélectionner un sous-ensemble de lignes:
```
df = df.reindex(index=my_index)
```
S'avère que my_index contenait des valeurs qui n'étaient pas contenues dans df.index, de sorte que le réindexer la fonction inséré quelques nouvelles lignes et de les remplir avec de nan.

InformationsquelleAutor Elias Strehle
2

J'ai eu la même erreur, et dans mon cas, X et y ont été dataframes j'ai donc dû les convertir pour des matrices d'abord:
```
X = X.as_matrix().astype(np.float)
y = y.as_matrix().astype(np.float)
```
- cette solution fonctionne parfaitement pour moi! Merci
InformationsquelleAutor tekumara
1

j'ai eu le même message d'erreur. il a travaillé avec df.fillna(-99999, inplace=True) avant de procéder à tout remplacement, substitution, etc
- C'est un sale correctif. Il ya une raison pourquoi votre tableau contient nan valeurs; vous devriez le trouver.
- les données pourraient contenir nan, ce qui donne un moyen de les remplacer par des données avec des valeurs qu'il/elle trouve acceptable
InformationsquelleAutor Cohen
0

Dans mon cas, le problème est que beaucoup de scikit retour des fonctions de numpy tableaux, qui sont dépourvues de pandas index. Donc il y avait un indice de discordance lorsque j'ai utilisé ces tableaux numpy pour construire de nouvelles DataFrames et puis j'ai essayé de les mélanger avec les données d'origine.

InformationsquelleAutor luca

essayer

mat.sum()

Si la somme de vos données est l'infini (plus que le max float valeur qui est 3.402823 e+38), vous obtiendrez cette erreur.

voir le _assert_all_finite fonction dans validation.py à partir de la scikit code source:

if is_float and np.isfinite(X.sum()):
    pass
elif is_float:
    msg_err = "Input contains {} or a value too large for {!r}."
    if (allow_nan and np.isinf(X).any() or
            not allow_nan and not np.isfinite(X).all()):
        type_err = 'infinity' if allow_nan else 'NaN, infinity'
        # print(X.sum())
        raise ValueError(msg_err.format(type_err, X.dtype))

InformationsquelleAutor Rick Hill

Vous devez vous connecter pour publier un commentaire.