Python - rolling fonctions pour GroupBy objet

J'ai un moment de la série de l'objet grouped du type <pandas.core.groupby.SeriesGroupBy object at 0x03F1A9F0>. grouped.sum() donne le résultat souhaité, mais je ne peux pas obtenir rolling_sum de travailler avec le groupby objet. Est-il possible d'appliquer des rolling fonctions de groupby objets? Par exemple:

x = range(0, 6)
id = ['a', 'a', 'a', 'b', 'b', 'b']
df = DataFrame(zip(id, x), columns = ['id', 'x'])
df.groupby('id').sum()
id    x
a    3
b   12

Cependant, je voudrais avoir quelque chose comme:

Comment exactement ce que vous attendez de roulement de la fonction de travail sur les objets groupés (je veux dire écrire les mathématiques que vous voulez faire dans symboles)?
Désolé, j'aurais dû être plus clair.
Si vous voulez faire un cumsum sur chacun des groupes et puis cousez le tout dans un seul bloc de données?
Oui, idéalement cumsum et tout de roulement de la fonction(moyenne, somme, mst).

InformationsquelleAutor | 2012-12-21

Remarque: identifiés par @kekert, la suite de pandas modèle a été désapprouvée. Voir les solutions actuelles dans les réponses ci-dessous.

In [16]: df.groupby('id')['x'].apply(pd.rolling_mean, 2, min_periods=1)
Out[16]: 
0    0.0
1    0.5
2    1.5
3    3.0
4    3.5
5    4.5

In [17]: df.groupby('id')['x'].cumsum()
Out[17]: 
0     0
1     1
2     3
3     3
4     7
5    12

pd.rolling_mean est maintenant obsolète pour la Série et sera supprimé, utilisez df.groupby('id')['x'].rolling(2).mean() au lieu

InformationsquelleAutor Garrett

72

Pour les Googlers qui viennent sur cette vieille question:

En matière de @kekert commentaire de @Garrett, en réponse à l'utilisation de la nouvelle
```
df.groupby('id')['x'].rolling(2).mean()
```
plutôt que le désormais obsolète
```
df.groupby('id')['x'].apply(pd.rolling_mean, 2, min_periods=1)
```
curieusement, il semble que le nouveau .roulant().moyenne() approche renvoie un multi-indexé de la série, indexée par la group_by colonne abord, puis l'index. Alors que, l'ancienne approche serait tout simplement le retour d'une série indexé singulièrement par le df de l'indice, ce qui rend peut-être moins de sens, mais il est très commode pour l'ajout de la série dans une nouvelle colonne dans l'original dataframe.

Donc je pense que j'ai trouvé une solution qui utilise les nouveaux véhicules() la méthode et la marche de la même façon:
```
df.groupby('id')['x'].rolling(2).mean().reset_index(0,drop=True)
```
qui devrait vous donner la série
```
0    0.0
1    0.5
2    1.5
3    3.0
4    3.5
5    4.5
```
laquelle vous pouvez ajouter une colonne:
```
df['x'] = df.groupby('id')['x'].rolling(2).mean().reset_index(0,drop=True)
```
- Je pense que vous pouvez utiliser .transform plutôt que reset_index?
- En fait, cela ne fonctionne pas si vous êtes regroupement de plusieurs colonnes. Déposer le premier argument (niveaux) résout ce qu'elle supprime tous les niveaux par défaut. De sorte que la ligne devient df['x'] = df.groupby('id')['x'].rolling(2).mean().reset_index(drop=True)
- Comme un autre affolant la nuance, l'utilisation groupby(..., sort=False) si votre groupe de variable n'est pas déjà triées. Je devenais vraiment bizarre résultats lors de l'ajout de ce roulement dire que une nouvelle colonne, car l'ordre ne correspond pas à l'original de la df.
- Des informations très utiles. a) Ils doivent ajouter à leur pandas livre de cuisine b) Pouvez-vous soulever quelques pandas bugs sur le changement de fonctionnalité? Ils doivent tenir compte des répercussions mieux avant qu'ils dénigrent.
InformationsquelleAutor Kevin Wang

Voici une autre manière qui généralise bien et utilise des pandas l'expansion de méthode.

Il est très efficace et fonctionne aussi parfaitement pour les roulant fenêtre de calculs avec des fenêtres fixes, comme pour les séries chronologiques.

# Import pandas library
import pandas as pd

# Prepare columns
x = range(0, 6)
id = ['a', 'a', 'a', 'b', 'b', 'b']

# Create dataframe from columns above
df = pd.DataFrame({'id':id, 'x':x})

# Calculate rolling sum with infinite window size (i.e. all rows in group) using "expanding"
df['rolling_sum'] = df.groupby('id')['x'].transform(lambda x: x.expanding().sum())

# Output as desired by original poster
print(df)
  id  x  rolling_sum
0  a  0            0
1  a  1            1
2  a  2            3
3  b  3            3
4  b  4            7
5  b  5           12

InformationsquelleAutor Sean McCarthy

2

Je ne suis pas sûr de la mécanique, mais cela fonctionne. Remarque, la valeur retournée est juste un ndarray. Je pense que vous pourriez appliquer cumulatifs ou "roulement" en fonction de cette manière et il devrait avoir le même résultat.

Je l'ai testé avec cumprod, cummax et cummin et ils ont tous retourné une ndarray. Je pense que les pandas est assez intelligent pour savoir que ces fonctions renvoient une série et donc la fonction est appliquée comme une transformation plutôt que d'une agrégation.
```
In [35]: df.groupby('id')['x'].cumsum()
Out[35]:
0     0
1     1
2     3
3     3
4     7
5    12
```
Edit: j'ai trouvé curieux que cette syntaxe renvoie une Série:
```
In [54]: df.groupby('id')['x'].transform('cumsum')
Out[54]:
0     0
1     1
2     3
3     3
4     7
5    12
Name: x
```
InformationsquelleAutor Zelazny7

Vous devez vous connecter pour publier un commentaire.