Grouper avec les fonctions définies par l'utilisateur Pandas

Je comprends que le passage d'une fonction comme une clé de groupe appelle la fonction une fois par l'indice de valeur avec les valeurs de retour d'être utilisés comme noms de groupe. Ce que je n'arrive pas à comprendre est comment appeler la fonction sur les valeurs de la colonne.

Donc je ne peux faire ceci:

people = DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'], index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
    if len(x) > 3:
        return 'Group1'
    else:
        return 'Group2'

people.groupby(GroupFunc).sum()

Cette divise les données en deux groupes, dont l'un a des valeurs de l'indice de longueur 3 ou moins, et l'autre avec une longueur de trois ou plus. Mais comment puis-je passer l'une des valeurs de la colonne? Ainsi par exemple, si la colonne d de la valeur pour chaque point d'indice est supérieur à 1. Je me rends compte que je pouvais juste faire ce qui suit:

people.groupby(people.a > 1).sum()

Mais je veux savoir comment faire cela dans une fonction définie par l'utilisateur pour référence future.

Quelque chose comme:

def GroupColFunc(x):
if x > 1:
    return 'Group1'
else:
    return 'Group2'

Mais comment dois-je appeler?
J'ai essayé

people.groupby(GroupColFunc(people.a))

et des variantes similaires, mais cela ne fonctionne pas.

Comment puis-je passer la colonne des valeurs de la fonction?
Comment pourrais-je passer plusieurs valeurs de la colonne par exemple pour le groupe que les personnes.a > gens.b par exemple?

source d'informationauteur Woody Pride

pandas python

De groupe par a > 1, vous pouvez définir votre fonction comme:

>>> def GroupColFunc(df, ind, col):
...     if df[col].loc[ind] > 1:
...         return 'Group1'
...     else:
...         return 'Group2'
...

Un puis l'appeler comme

>>> people.groupby(lambda x: GroupColFunc(people, x, 'a')).sum()
               a         b         c         d        e
Group2 -2.384614 -0.762208  3.359299 -1.574938 -2.65963

Ou vous pouvez le faire uniquement avec la fonction anonyme:

>>> people.groupby(lambda x: 'Group1' if people['b'].loc[x] > people['a'].loc[x] else 'Group2').sum()
               a         b         c         d         e
Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191

Comme dit dans la documentationvous pouvez également grouper par le passage de la Série en offrant un label -> nom du groupe de la cartographie:

>>> mapping = np.where(people['b'] > people['a'], 'Group1', 'Group2')
>>> mapping
Joe       Group2
Steve     Group1
Wes       Group2
Jim       Group1
Travis    Group1
dtype: string48
>>> people.groupby(mapping).sum()
               a         b         c         d         e
Group1 -3.280319 -0.007196  1.525356  0.324154 -1.002439
Group2  0.895705 -0.755012  1.833943 -1.899092 -1.657191

Vous devez vous connecter pour publier un commentaire.