Lignes en double dans les pandas DF

J'ai un DF dans les Pandas, qui ressemble à:

Letters Numbers
A       1
A       3
A       2
A       1
B       1
B       2
B       3
C       2
C       2

Je suis à la recherche pour compter le nombre de lignes similaires et enregistrer le résultat dans une troisième colonne. Par exemple, la sortie, je suis à la recherche de:

Letters Numbers Events
A       1       2
A       2       1
A       3       1
B       1       1
B       2       1
B       3       1
C       2       2

Un exemple de ce que je cherche à faire est de ici. La meilleure idée que j'ai trouvé est d'utiliser count_values()mais je pense que c'est juste pour une colonne. Une autre idée est d'utiliser double()de toute façon je ne veux pas construire n'importe foren boucle. Je suis à peu près certain qu'un Pythonic alternative à une boucle for existe.

source d'informationauteur Guforu

Vous pouvez grouper ces deux colonnes, puis de calculer la taille des groupes:

In [16]: df.groupby(['Letters', 'Numbers']).size()
Out[16]: 
Letters  Numbers
A        1          2
         2          1
         3          1
B        1          1
         2          1
         3          1
C        2          2
dtype: int64

Pour obtenir un DataFrame comme dans votre exemple de sortie, vous pouvez réinitialiser l'index avec reset_index.

Vous pouvez utiliser une combinaison de groupbytransform et puis drop_duplicates

In [84]:

df['Events'] = df.groupby('Letters')['Numbers'].transform(pd.Series.value_counts)
df.drop_duplicates()
Out[84]:
  Letters  Numbers  Events
0       A        1       2
1       A        3       1
2       A        2       1
4       B        1       1
5       B        2       1
6       B        3       1
7       C        2       2

Vous devez vous connecter pour publier un commentaire.