Comment obtenir un décompte des données manquantes / NaN par colonne dans 'pandas'?

Dans R je peux rapidement voir un nombre de données manquantes à l'aide de la summary de commande, mais l'équivalent pandas DataFrame méthode, describe ne signalent pas ces valeurs.

Je cueille, je peux faire quelque chose comme

len(mydata.index) - mydata.count()

pour calculer le nombre de valeurs manquantes pour chaque colonne, mais je me demande si il y a une meilleure idiome (ou si mon approche est la même droite).

source d'informationauteur orome

Les deux describe et info indiquer le nombre de non-valeurs manquantes.

In [1]: df = DataFrame(np.random.randn(10,2))

In [2]: df.iloc[3:6,0] = np.nan

In [3]: df
Out[3]: 
          0         1
0 -0.560342  1.862640
1 -1.237742  0.596384
2  0.603539 -1.561594
3       NaN  3.018954
4       NaN -0.046759
5       NaN  0.480158
6  0.113200 -0.911159
7  0.990895  0.612990
8  0.668534 -0.701769
9 -0.607247 -0.489427

[10 rows x 2 columns]

In [4]: df.describe()
Out[4]: 
              0          1
count  7.000000  10.000000
mean  -0.004166   0.286042
std    0.818586   1.363422
min   -1.237742  -1.561594
25%   -0.583795  -0.648684
50%    0.113200   0.216699
75%    0.636036   0.608839
max    0.990895   3.018954

[8 rows x 2 columns]


In [5]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 0 to 9
Data columns (total 2 columns):
0    7 non-null float64
1    10 non-null float64
dtypes: float64(2)

Pour obtenir le nombre de disparus, votre soln est correct

In [20]: len(df.index)-df.count()
Out[20]: 
0    3
1    0
dtype: int64

Que vous pourriez faire cela aussi

In [23]: df.isnull().sum()
Out[23]: 
0    3
1    0
dtype: int64

3

Comme un petit plus, pour obtenir le pourcentage manquant par DataFrame colonne, combinant @Jeff et @utilisateurs de réponses ci-dessus vous permet de vous:
```
df.isnull().sum()/len(df)*100
```
3

Ce n'est pas tout à fait un résumé complet, mais il vous donnera une idée rapide de votre colonne de données au niveau de l'
```
def getPctMissing(series):
    num = series.isnull().sum()
    den = series.count()
    return 100*(num/den)
```
0

Je ne peux pas faire de commentaires pour l'instant, mais pour ajouter à la réponse de Jeff, mais
si vous n'avez pas de soins de colonnes qui avait Nan et vous voulais juste vérifier globale
il suffit d'ajouter une seconde .somme() pour obtenir une valeur unique.
```
result = df.isnull().sum().sum()
result > 0
```
une Série n'aura besoin que d'un .sum() et un Panneau() aurait besoin de trois

Vous devez vous connecter pour publier un commentaire.