Calculer la moyenne de toutes les x lignes dans une table et créer une nouvelle table

J'ai une longue table de données (~200 lignes par 50 colonnes) et j'ai besoin de créer un code qui peut calculer la moyenne des valeurs de tous les deux lignes et pour chaque colonne dans la table avec la finale de la sortie d'une nouvelle table des valeurs moyennes. C'est évidemment fou de le faire dans Excel! J'utilise python3 et je suis au courant de certaines des questions similaires:ici, ici et ici. Mais aucun de ces aides que j'ai besoin d'un code élégant pour travailler avec plusieurs colonnes et produit organisé une table de données. Par la façon dont mon original datatable a été importé à l'aide de pandas et est définie comme un dataframe, mais ne pouvait pas trouver un moyen facile de le faire dans les pandas. L'aide est très apprécié.

Un exemple de la table (version courte) est:

a   b   c   d
2   50  25  26
4   11  38  44
6   33  16  25
8   37  27  25
10  28  48  32
12  47  35  45
14  8   16  7
16  12  16  30
18  22  39  29
20  9   15  47

Moyenne attendue de la table:

a    b     c     d
3   30.5  31.5  35
7   35    21.5  25
11  37.5  41.5  38.5
15  10    16    18.5
19  15.5  27    38

InformationsquelleAutor Gnu | 2016-04-23

21

Vous pouvez créer une artificielle groupe à l'aide de df.index//2 (ou @DSM a souligné, à l'aide de np.arange(len(df))//2 - de sorte qu'il fonctionne pour tous les indices) et ensuite utiliser groupby:
```
df.groupby(np.arange(len(df))//2).mean()
Out[13]: 
      a     b     c     d
0   3.0  30.5  31.5  35.0
1   7.0  35.0  21.5  25.0
2  11.0  37.5  41.5  38.5
3  15.0  10.0  16.0  18.5
4  19.0  15.5  27.0  38.0
```
- J'ai trouvé quelque chose de proche [here](stackoverflow.com/questions/36810595/calculate-average-of-every-x-rows-in-a-table-and-create-new-table), MAIS votre réponse si très élégant et compact. Merci beaucoup! Vient de sortir d'intérêt que fait la première barre oblique signifie dans le df.index//2?
- Vous êtes les bienvenus. C'est pour la division entière de sorte que les deux 2//2 et 3//2 rendement de 1, 4//2 et 5//2 rendement 2... (et de mettre dans le même groupe).
- De se! Merci beaucoup!
- Il pourrait être préférable de groupe sur np.arange(len(df))//2 au lieu de cela, dans le cas où l'indice n'est pas simplement 0,1,2.. etc.
- Vous avez raison, permettez-moi de le modifier. Merci.
- Et un peu plus rapide est df.groupby(np.arange(len(df.index))//2).mean() 😉
InformationsquelleAutor ayhan

NumPythonic façon serait d'extraire les éléments d'un tableau NumPy avec df.values, puis remodeler à un 3D tableau avec 2 éléments le long de axis=1 et 4 le long de axis=2 et d'effectuer la réduction moyenne le long de axis=1 et enfin revenir à un dataframe, comme le

pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))

Comme il s'avère, vous pouvez introduire NumPy est très efficace outil : np.einsum pour ce faire average-reduction comme une combinaison de sum-reduction et scaling-down, comme le

pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)

Veuillez noter que les approches proposées supposent que le nombre de lignes est divisible par 2.

Aussi comme noté par @DSM, afin de préserver les noms de colonne, vous devez ajouter columns=df.columns lors de la conversion de retour à Dataframe, c'est à dire -

pd.DataFrame(...,columns=df.columns)

Exemple d'exécution -

>>> df
    0   1   2   3
0   2  50  25  26
1   4  11  38  44
2   6  33  16  25
3   8  37  27  25
4  10  28  48  32
5  12  47  35  45
6  14   8  16   7
7  16  12  16  30
8  18  22  39  29
9  20   9  15  47
>>> pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))
    0     1     2     3
0   3  30.5  31.5  35.0
1   7  35.0  21.5  25.0
2  11  37.5  41.5  38.5
3  15  10.0  16.0  18.5
4  19  15.5  27.0  38.0
>>> pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)
    0     1     2     3
0   3  30.5  31.5  35.0
1   7  35.0  21.5  25.0
2  11  37.5  41.5  38.5
3  15  10.0  16.0  18.5
4  19  15.5  27.0  38.0

Exécution des tests -

Dans cette section, nous allons tester tous les trois approches présentées jusqu'à présent pour résoudre le problème de la performance, y compris @ayhan de la solution avec groupby.

In [24]: A = np.random.randint(0,9,(200,50))

In [25]: df = pd.DataFrame(A)

In [26]: %timeit df.groupby(df.index//2).mean() # @ayhan's solution
1000 loops, best of 3: 1.61 ms per loop

In [27]: %timeit pd.DataFrame(df.values.reshape(-1,2,df.shape[1]).mean(1))
1000 loops, best of 3: 317 µs per loop

In [28]: %timeit pd.DataFrame(np.einsum('ijk->ik',df.values.reshape(-1,2,df.shape[1]))/2.0)
1000 loops, best of 3: 266 µs per loop

Celui-ci est ~2x plus rapide que groupby. Nice.
Ouais j'ai remarqué ça, était sur le point de publier runtimes, mais alors la dernière pensée a été pour le laisser passer 🙂 la tienne est une nouvelle chose que j'ai apprise bien que, les pandas n'étant pas mon truc!
Notez que votre numpy approches perdre les noms de colonne. Vous pouvez ajouter columns=df.columns pour corriger cela.
Ouais, totalement raté! Merci! Ajoute que, dans une note.

InformationsquelleAutor Divakar

df.set_index(np.arange(len(df)) // 2).mean(level=0)

InformationsquelleAutor piRSquared

1

Vous pouvez aborder ce problème à l'aide de pd.rolling() pour créer une moyenne mobile et puis il suffit de saisir chaque deuxième élément à l'aide de iloc
```
df = df.rolling(2).mean() 
df = df.iloc[::2, :]
```
Noter que la première observation sera absent (c'est à dire les rolling commence en haut)

InformationsquelleAutor seeiespi

Vous devez vous connecter pour publier un commentaire.