Comment scinder une pandas dataframe ou d'une série par jour (éventuellement à l'aide d'un itérateur)

J'ai une longue série de temps, par exemple.

import pandas as pd
index=pd.date_range(start='2012-11-05', end='2012-11-10', freq='1S').tz_localize('Europe/Berlin')
df=pd.DataFrame(range(len(index)), index=index, columns=['Number'])

Maintenant, je veux extraire tous les sous-DataFrames pour chaque jour, pour obtenir la sortie suivante:

df_2012-11-05: data frame with all data referring to day 2012-11-05
df_2012-11-06: etc.
df_2012-11-07
df_2012-11-08
df_2012-11-09
df_2012-11-10

Quel est le moyen le plus efficace pour ce faire, en évitant de vérifier si l'index.date==give_date, qui est très lente. Aussi, l'utilisateur ne connaît pas un prieuré de la plage de jours dans le cadre.

Tout soupçon faire cela avec un itérateur?

Ma solution actuelle est, mais il n'est pas aussi élégante et dispose de deux questions définies ci-dessous:

time_zone='Europe/Berlin'
# find all days
a=np.unique(df.index.date) # this can take a lot of time
a.sort()
results=[]
for i in range(len(a)-1):
    day_now=pd.Timestamp(a[i]).tz_localize(time_zone)
    day_next=pd.Timestamp(a[i+1]).tz_localize(time_zone)
    results.append(df[day_now:day_next]) # how to select if I do not want day_next included?

# last day
results.append(df[day_next:])

Cette approche présente les problèmes suivants:

a=np.unique(df.index.date) peut prendre beaucoup de temps
df[day_now:day_next] comprend day_next, mais j'ai besoin de l'exclure dans la gamme

InformationsquelleAutor Mannaggia | 2014-02-06

12

Peut-être groupby?
```
DFList = []
for group in df.groupby(df.index.day):
    DFList.append(group[1])
```
Devrait vous donner une liste de trames de données où chaque bloc de données est un jour de données.

Ou en une seule ligne:
```
DFList = [group[1] for group in df.groupby(df.index.day)]
```
Gotta love python!
- mieux groupe par df.index.date ensuite, nous sommes sûrs de vraiment choisir un autre jour, à l'aide de l'index.jour 2 Déc 2001 et le 2 janvier 2002 serait le même jour. Malheureusement, en utilisant la date à laquelle le calcul prend visiblement plus de temps. Je pense que ce qui est manquant dans les pandas est une sélection rapide par différents temps/date de catégories, ce qui pourrait nécessaires pour construire un prieuré de l'index, comme c'est fait dans les bases de données
- ok, df.groupby([df.index.année,df.index.mois,df.index.journée]) en fait 90% plus rapidement, tout en veillant à distinguer correctement les jours
- Je l'adore! Très compact.
InformationsquelleAutor Woody Pride
10

Si vous voulez grouper par date (AKA: année+mois+jour), puis utilisez df.index.date:
```
result = [group[1] for group in df.groupby(df.index.date)]
```
Comme df.index.day utilisera le jour du mois (c'est à dire: de 1 à 31) pour le groupement, ce qui pourrait entraîner un comportement indésirable si l'entrée dataframe dates de s'étendre à plusieurs mois.
- Ce doit être la accepté de répondre, le regroupement par jours est généralement pas ce que vous voulez.
InformationsquelleAutor Peque

Vous devez vous connecter pour publier un commentaire.