Comment obtenir le numéro de la plus fréquente de la valeur dans une colonne?

J'ai un bloc de données et je voudrais savoir combien de fois une colonne donnée a la plus fréquente de la valeur.

J'essaie de le faire de la manière suivante:

items_counts = df['item'].value_counts()
max_item = items_counts.max()

Comme un résultat que j'obtiens:

ValueError: cannot convert float NaN to integer

Comme je le comprends, avec la première ligne, je reçois de la série dans laquelle les valeurs de la colonne sont utilisés comme clé et la fréquence de ces valeurs sont utilisées en tant que valeurs. Donc, j'ai juste besoin de trouver la plus grande valeur de la série et, en raison de certaines raisons, il ne fonctionne pas. Quelqu'un sait comment ce problème peut être résolu?

Sont là na's dans votre colonne? Si oui, vous devriez vous débarrasser d'eux avec dropna ou fillna.

InformationsquelleAutor Roman | 2013-02-28

48

Il semble que vous pouvez avoir certaines valeurs null dans la colonne. Vous pouvez les déposer avec df = df.dropna(subset=['item']). Puis df['item'].value_counts().max() devrait vous donner le max qui compte, et df['item'].value_counts().idxmax() devrait vous donner la plus fréquente de la valeur.
- Et... puis-je faire en sorte que NA est considéré comme une valeur? I. e. Je suis heureux de revenir NA si qui est la plus commune de la valeur.
- utilisation .fillna() au lieu de .dropna()
- Si je veux trouver la deuxième valeur maximale, comment le faire?
- utilisation df['item'].value_counts().nlargest(n=2).iloc[[2]]
InformationsquelleAutor beardc
12

De continuer à @jonathanrocher réponse que vous pourriez utiliser mode dans les pandas DataFrame. Il va donner une plus fréquent des valeurs (un ou deux) à travers les lignes ou les colonnes:
```
import pandas as pd
import numpy as np
df = pd.DataFrame({"a": [1,2,2,4,2], "b": [np.nan, np.nan, np.nan, 3, 3]})

In [2]: df.mode()
Out[2]: 
   a    b
0  2  3.0
```
InformationsquelleAutor Anton Protopopov
11

Vous pouvez également envisager l'utilisation de scipy est mode fonction qui ignore NaN. Une solution à l'aide, il pourrait ressembler à:
```
from scipy.stats import mode
from numpy import nan
df = DataFrame({"a": [1,2,2,4,2], "b": [nan, nan, nan, 3, 3]})
print mode(df)
```
La sortie devrait ressembler
```
(array([[ 2.,  3.]]), array([[ 3.,  2.]]))
```
ce qui signifie que les valeurs les plus courantes sont 2 pour la première colonnes et 3 pour la deuxième, avec des fréquences 3 et 2 respectivement.

InformationsquelleAutor jonathanrocher
1

Il suffit de prendre la première ligne de votre items_counts série:
```
top = items_counts.head(1)  # or items_counts.iloc[[0]]
value, count = top.index[0], top.iat[0]
```
Cela fonctionne parce que mp.De la série.value_counts a sort=True par défaut et est donc déjà commandé en compte, plus les compter en premier. L'extraction d'une valeur d'un index par lieu a O(1) de la complexité, tout en mp.De la série.idxmax a O(n) la complexité où n est le nombre de catégories.

Précisant sort=False est encore possible, et puis idxmax est recommandé:
```
items_counts = df['item'].value_counts(sort=False)
top = items_counts.loc[[items_counts.idxmax()]]
value, count = top.index[0], top.iat[0]
```
Avis dans ce cas, vous n'avez pas besoin d'appeler max et idxmax séparément, il suffit d'extraire l'index via idxmax et d'alimentation de la loc étiquette en fonction de l'indexeur.

InformationsquelleAutor jpp
0

Ajouter cette ligne de code pour trouver les plus fréquentes de la valeur
```
df["item"].value_counts().nlargest(n=1).values[0]
```
InformationsquelleAutor user9114146

Vous devez vous connecter pour publier un commentaire.