Quelle est la différence entre NaN et Aucun?

Je suis la lecture de deux colonnes d'un fichier csv à l'aide de pandas readcsv() puis en attribuant les valeurs d'un dictionnaire. Les colonnes contiennent des chaînes de chiffres et de lettres. Il y a parfois des cas où une cellule est vide. À mon avis, la valeur de lire ce dictionnaire entrée doit être None mais au lieu nan est attribué. Sûrement None est plus descriptive d'une cellule vide, car il a une valeur null, alors que nan juste dit que la valeur lue n'est pas un nombre.

Est ma compréhension correcte, quelle EST la différence entre None et nan? Pourquoi est - nan attribué au lieu de None?

Aussi, mon dictionnaire de vérifier toutes les cellules vides a été à l'aide de numpy.isnan():

for k, v in my_dict.iteritems():
    if np.isnan(v):

Mais cela me donne un message d'erreur indiquant que je ne peux pas utiliser cette case pour v. Je suppose que c'est parce qu'un integer ou float variable, pas une chaîne de caractères est destiné à être utilisé. Si cela est vrai, comment puis-je vérifier v pour une "cellule vide"/nan cas?

Le texte qwerty n'est pas un nombre.
Je sais, donc sûrement None serait une meilleure description de la valeur d'une cellule vide.
ma réponse est décrit que

InformationsquelleAutor user1083734 | 2013-07-08

78

NaN est utilisé comme un espace réservé pour données manquantes constante dans les pandas, la cohérence est bonne. J'ai l'habitude de lire/traduire NaN comme "manquant". Également voir le "le travail avec des données manquantes' section dans les docs.

Wes écrit dans les docs le choix de la NA-représentation":

Après des années d'utilisation de la production [NaN] a prouvé, au moins à mon avis, pour être la meilleure décision compte tenu de l'état des affaires dans NumPy et Python en général. La valeur NaN (not-A-Number) est utilisé partout que le NA de valeur, et il y a des fonctions de l'API isnull et notnull qui peut être utilisé partout dans la dtypes pour détecter NA valeurs.

...

Ainsi, j'ai choisi la Pythonic “praticité beats pureté” approche et négociés entier NA possibilité pour une approche beaucoup plus simple d'utiliser une valeur particulière dans le flotteur et les tableaux d'objets pour désigner NA, et de promouvoir entier tableaux de flottants lorsque le NAs doit être mis en place.

Remarque: le "je t'ai eu" que l'entier de la Série contenant les données manquantes sont sortie de flotte.

À mon avis la principale raison de l'utilisation de NaN (plus Rien), c'est qu'il peut être stocké avec numpy est float64 dtype, plutôt que le moins efficace de l'objet dtype, voir NA type de promotions.
```
#  without forcing dtype it changes None to NaN!
s_bad = pd.Series([1, None], dtype=object)
s_good = pd.Series([1, np.nan])

In [13]: s_bad.dtype
Out[13]: dtype('O')

In [14]: s_good.dtype
Out[14]: dtype('float64')
```
Jeff commentaires (ci-dessous) sur ce:

np.nan permet vectorisé opérations; sa d'une valeur flottante, tandis que None, par définition, les forces de type d'objet, qui, fondamentalement, désactive toutes efficacité dans numpy.

Donc répéter 3 fois rapide: object==mauvais, float==bonne

Disant que, de nombreuses opérations peuvent continuer de fonctionner aussi bien avec Aucun vs NaN (mais peut-être ne sont pas pris en charge c'est à dire qu'ils peuvent parfois donner des résultats surprenants):
```
In [15]: s_bad.sum()
Out[15]: 1

In [16]: s_good.sum()
Out[16]: 1.0
```
Pour répondre à la deuxième question:

Vous devriez être en utilisant mp.isnull et mp.notnull pour tester l'effet des données manquantes (NaN).
- juste en ajoutant 2c ici....np.nan permet vectorisé opérations; sa d'une valeur flottante, tandis que None, par définition, les forces de object type, et, fondamentalement, désactive toutes efficacité dans numpy, afin de répéter 3 fois rapide: object==bad, float==good
- voir aussi: stackoverflow.com/a/19866269/1240268
InformationsquelleAutor Andy Hayden
15

NaN peut être utilisé comme une valeur numérique sur des opérations mathématiques, tandis que None ne peut pas (ou au moins ne devrait pas).

NaN est une valeur numérique, tel que défini dans La norme IEEE 754 norme à virgule flottante.
None est un Python interne de tipe (NoneType) et serait plus comme "inexistant" ou "vide" que "numériquement non valide" dans ce contexte.

Le "symptôme" de qui est que, si vous effectuez, disons, d'une moyenne ou d'une somme sur un tableau contenant NaN, même un seul, vous obtenez NaN... en

Dans l'autre main, vous ne pouvez pas effectuer des opérations mathématiques à l'aide de None comme opérande.

Ainsi, selon le cas, vous pouvez utiliser None comme un moyen de dire à votre algorithme ne pas considérer invalide ou inexistant valeurs sur les calculs. Que signifierait l'algorithme de test de chaque valeur pour voir si c'est None.

Numpy a certaines fonctions afin d'éviter des valeurs NaN contaminer vos résultats, tels que nansum et nan_to_num par exemple.
- Je suis d'accord avec vous que personne ne devrait être utilisé que pour les non-existant entrées, alors pourquoi ne df=pd.readcsv('file.csv') me donner NaN valeurs pour les cellules vides et pas None? Pour autant que je suis au courant, pd.DataFrames ne sont pas exclusifs pour les nombres.
- Eh bien, c'est probablement un choix de conception. Je suppose que DataFrames et de la Série ont un dtype, de sorte que les valeurs non valides de dtype=float doit être représenté par des valeurs numériques, qui NaN est et None n'est pas (None est de NoneType).
- Aussi, beaucoup de Pandas méthodes ont un na argument, qui vous permettent de décider de la valeur que vous allez utiliser pour remplacer non-valeurs disponibles
- Ok, merci. Je ne suis donc pas en train de lire les chiffres dans mon DataFrame, mais les chaînes de chiffres et de lettres. Quelle sorte de vérifier dois-je utiliser pour détecter des cellules vides? Un chèque comme; si dtype==float: ??
- Peut-être l'affichage d'un échantillon de vos données au format CSV, pourrait l'aider. J'imagine que, si il y a des cordes, puis dtype serait chaîne de caractères pour l'ensemble de la colonne (de la Série). Mais peut-être pas si toutes les lignes ont le même nombre de colonnes, vous vous retrouvez avec des données manquantes. Je pense que vous aurez à vérifier.
- Peut-être que cela aiderait pandas.pydata.org/pandas-docs/dev/generated/...
- les pandas choisit objet que l'dtype pour les colonnes avec des chaînes de caractères (voir la note ici). Sinon, il doit stocker la taille du plus grand élément pour chaque élément (en général, vous ne savez pas chaque chaîne de caractères est un/de la même longueur).
InformationsquelleAutor heltonbiker
2

La fonction isnan() vérifie pour voir si quelque chose est "Pas Un Nombre" et sera de retour si oui ou non une variable est un nombre, par exemple isnan(2) serait return false

Le conditionnel myVar is not None retourne si oui ou non la variable est définie

Votre tableau numpy utilise isnan() parce qu'il est destiné à être un tableau de nombres et il initialise tous les éléments de la matrice de NaN ces éléments sont considérés comme "vides"
- Je pense que isnan(2) serait de retour False, depuis le 2 n'est pas un NaN.
- Aussi, numpy.empty ne pas initialiser les valeurs de NaN. Il n'a tout simplement pas initialiser les valeurs à tous.
- idk ce que je pensais
- La bonne case pour None-ness est myVar is not None, pas myVar != None.
- Notez que np.isnan() n'est pas mis en œuvre pour les variables de chaîne de caractères, donc si vous passez une chaîne de caractères qu'elle va se planter. Mieux utiliser pd.isnull qui fonctionne avec des chaînes.
InformationsquelleAutor Stephan
-3

NaN stants pour PAS un nombre.

None peut être un obstacle pour tout.

InformationsquelleAutor diegoaguilar

Vous devez vous connecter pour publier un commentaire.