python pandas pivot_table de fréquence de comptage dans une colonne

Je suis encore nouveau pour Python pandas pivot_table et voudrais poser une façon de compter les fréquences de valeurs dans une colonne, qui est également liée à une autre colonne d'identité. Le DataFrame ressemble à la suivante.

import pandas as pd
df = pd.DataFrame({'Account_number':[1,1,2,2,2,3,3],
                   'Product':['A', 'A', 'A', 'B', 'B','A', 'B']
                  })

Pour la sortie, je voudrais obtenir quelque chose comme ce qui suit:

                Product
                A      B
Account_number           
      1         2      0
      2         1      2
      3         1      1

Jusqu'à présent, j'ai essayé ce code:

df.pivot_table(rows = 'Account_number', cols= 'Product', aggfunc='count')

Ce code me donne les deux mêmes choses. Qu'est-ce que les problèmes avec le code ci-dessus? Une partie de la raison pour laquelle je pose cette question, c'est que ce DataFrame est juste un exemple. Les données réelles que je suis en train de travailler sur a des dizaines de milliers de account_numbers. Merci pour votre aide à l'avance!

essayez aggfunc=len
Toutes les réponses sur cette page ne fonctionne pas pour les DataFrames avec plus de 3 colonnes. Le idiomatiques solution est d'utiliser aggfunc='size'. Voir ma réponse ci-dessous pour plus de détails

OriginalL'auteur midtownguru | 2014-03-14

pandas python

18

Vous devez spécifier le aggfunc comme len:
```
In [11]: df.pivot_table(index='Account_number', columns='Product', 
                        aggfunc=len, fill_value=0)
Out[11]:
Product         A  B
Account_number
1               2  0
2               1  2
3               1  1
```
Il ressemble à compter, est à compter les occurrences de chaque colonne (Account_number et Product), il n'est pas clair pour moi si c'est un bug...

Je ne pense pas que c'est un bug, mais je souhaiterais le comportement afin d'être plus cohérent, voir: df.pivot_table(rows='Account_number', cols='Product', aggfunc=sum, fill_value=0)
Je pense que ça pourrait être un bug (vous ne vous attendez pas les colonnes à inclure dans l'agrégation, en fait, ils n'ont pas de sens avec la somme!)

OriginalL'auteur Andy Hayden
17

Dans la nouvelle version de Pandas, une légère modification est nécessaire. J'ai dû passer un peu de temps à essayer de comprendre si voulais juste ajouter qu'ici, de sorte que quelqu'un peut utiliser directement cette.
```
df.pivot_table(index='Account_number', columns='Product', aggfunc=len,
               fill_value=0)
```
OriginalL'auteur PagMax

Solution: Utilisation aggfunc='size'

À l'aide de aggfunc=len ou aggfunc='count' comme toutes les autres réponses sur cette page ne fonctionne pas pour les DataFrames avec plus de trois colonnes. Par défaut, les pandas vont appliquer ce aggfunc pour toutes les colonnes ne trouve pas dans index ou columns paramètres.

Par exemple, si nous avions plus de deux colonnes dans notre DataFrame définie comme ceci:

df = pd.DataFrame({'Account_number':[1, 1, 2 ,2 ,2 ,3 ,3], 
                   'Product':['A', 'A', 'A', 'B', 'B','A', 'B'], 
                   'Price': [10] * 7,
                   'Quantity': [100] * 7})

De sortie:

   Account_number Product  Price  Quantity
0               1       A     10       100
1               1       A     10       100
2               2       A     10       100
3               2       B     10       100
4               2       B     10       100
5               3       A     10       100
6               3       B     10       100

Si vous appliquez les solutions actuelles pour ce DataFrame, vous obtenez le résultat suivant:

df.pivot_table(index='Account_number',
               columns='Product',
               aggfunc=len,
               fill_value=0)

De sortie:

                  Price    Quantity   
Product            A  B        A  B
Account_number                     
1                  2  0        2  0
2                  1  2        1  2
3                  1  1        1  1

Solution

Au lieu de cela, utiliser aggfunc='size'. Depuis size renvoie toujours la même valeur pour chaque colonne, les pandas ne pas l'appeler sur chaque colonne et seulement une fois.

df.pivot_table(index='Account_number', 
               columns='Product',
               aggfunc='size',
               fill_value=0)

De sortie:

Product         A  B
Account_number      
1               2  0
2               1  2
3               1  1

OriginalL'auteur Ted Petrou

1

Vous pouvez utiliser count
df.pivot_table(index='Account_number', columns='Product', aggfunc='count')

OriginalL'auteur Rui Wang

Vous devez vous connecter pour publier un commentaire.