Comment puis-je Groupe Par Mois à partir d'un champ de Date à l'aide de Python/Pandas

J'ai un Data-frame df qui est comme suit:

| date      | Revenue |
|----------- | ---------|
| 6/2/2017  | 100     |
| 5/23/2017 | 200     |
| 5/20/2017 | 300     |
| 6/22/2017 | 400     |
| 6/21/2017 | 500     |

J'ai besoin de regrouper les données ci-dessus par mois pour obtenir en sortie:

| date | SUM(Revenue) |
|------ | --------------|
| May  | 500          |
| June | 1000         |

J'ai essayé ce code mais il ne fonctionne pas:

df.groupby(month('date')).agg({'Revenue': 'sum'})

Je veux seulement utiliser des Pandas ou des Numpy et pas de bibliothèques supplémentaires

df.groupby(pd.Grouper(key='Date',freq='M')).agg({'Revenue':'sum'}), ce qui suppose le type de données de la colonne de la date datetime

InformationsquelleAutor Symphony | 2017-07-04

23

essayez ceci:
```
In [6]: df['date'] = pd.to_datetime(df['date'])

In [7]: df
Out[7]: 
        date  Revenue
0 2017-06-02      100
1 2017-05-23      200
2 2017-05-20      300
3 2017-06-22      400
4 2017-06-21      500



In [59]: df.groupby(df['date'].dt.strftime('%B'))['Revenue'].sum().sort_values()
Out[59]: 
date
May      500
June    1000
```
- jusqu'vote parce que c'est la seule réponse qui formats les date colonne correctement
- Pour info cela donne u une chaîne de caractères de la colonne pour la date qui n'est pas aussi performant ni utile (comme de véritables resamplimg / temps de regroupement)
- cela peut-il être triés par date ascendante sage (Peut-500 et puis juin -1000) ?
- vérifier la mise à jour de réponse.
- ce que u veux dire par df. comment faire pour importer df??
- df est le nom de la DateFrame.Pour exemple df = pd.read_csv('fichier.csv')
InformationsquelleAutor shivsn

Essayer un groupby à l'aide d'une pandas Loches:

df = pd.DataFrame({'date':['6/2/2017','5/23/2017','5/20/2017','6/22/2017','6/21/2017'],'Revenue':[100,200,300,400,500]})
df.date = pd.to_datetime(df.date)
dg = df.groupby(pd.Grouper(key='date', freq='1M')).sum() # groupby each 1 month
dg.index = dg.index.strftime('%B')

     Revenue
 May    500
June    1000

Merci, ça fonctionne!
Grand - heureux d'entendre ça!

InformationsquelleAutor qbzenker

2

Pour DataFrame avec de nombreuses lignes, à l'aide strftime prend plus de temps. Si la colonne de date a déjà dtype de datetime64[ns] (vous pouvez utiliser pd.to_datetime() à convertir, ou spécifier parse_dates lors de l'import csv, etc.), on peut accéder directement datetime propriété pour groupby étiquettes (Méthode 3). L'accélération est importante.
```
import numpy as np
import pandas as pd

T = pd.date_range(pd.Timestamp(0), pd.Timestamp.now()).to_frame(index=False)
T = pd.concat([T for i in range(1,10)])
T['revenue'] = pd.Series(np.random.randint(1000, size=T.shape[0]))
T.columns.values[0] = 'date'

print(T.shape) #(159336, 2)
print(T.dtypes) #date: datetime64[ns], revenue: int32
```
Méthode 1: strftime
```
%timeit -n 10 -r 7 T.groupby(T['date'].dt.strftime('%B'))['revenue'].sum()
```
1.47 s ± 10.1 ms par boucle (moyenne ± std. dev. de 7 points, 10 boucles de chaque)

Méthode 2: Mérou
```
%timeit -n 10 -r 7 T.groupby(pd.Grouper(key='date', freq='1M')).sum()
#NOTE Manually map months as integer {01..12} to strings
```
De 56,9 ms ± 2.88 ms par boucle (moyenne ± std. dev. de 7 points, 10 boucles de chaque)

Méthode 3: datetime propriétés
```
%timeit -n 10 -r 7 T.groupby(T['date'].dt.month)['revenue'].sum()
#NOTE Manually map months as integer {01..12} to strings
```
34 ms ± 3.34 ms par boucle (moyenne ± std. dev. de 7 points, 10 boucles de chaque)
- Notez que si vous disposez de données de plus de 1 an, les méthodes 1 et 3 regroupent entre eux alors que la méthode 2 ne fonctionne pas. Aussi, le résultat de la méthode 1 est triée par ordre alphabétique.
InformationsquelleAutor yongtw123

Vous devez vous connecter pour publier un commentaire.

Méthode 1: strftime

Méthode 2: Mérou

Méthode 3: datetime propriétés