Python Pandas reproduire les lignes dans dataframe

Si les données ressembler à:

Store,Dept,Date,Weekly_Sales,IsHoliday
1,1,2010-02-05,24924.5,FALSE
1,1,2010-02-12,46039.49,TRUE
1,1,2010-02-19,41595.55,FALSE
1,1,2010-02-26,19403.54,FALSE
1,1,2010-03-05,21827.9,FALSE
1,1,2010-03-12,21043.39,FALSE
1,1,2010-03-19,22136.64,FALSE
1,1,2010-03-26,26229.21,FALSE
1,1,2010-04-02,57258.43,FALSE

Et je veux dupliquer les lignes avec IsHoliday égale à TRUE, je peux le faire:

is_hol = df['IsHoliday'] == True
df_try = df[is_hol]
df=df.append(df_try*10)

Mais est-il une meilleure façon de faire ce que j'ai besoin de dupliquer des vacances de lignes par 5 fois, et je dois ajouter 5 fois si vous utilisez façon décrite ci-dessus.

InformationsquelleAutor wuha | 2014-06-04

Vous pouvez mettre df_try à l'intérieur d'une liste, puis faire ce que vous avez à l'esprit:

>>> df.append([df_try]*5,ignore_index=True)

    Store  Dept       Date  Weekly_Sales IsHoliday
0       1     1 2010-02-05      24924.50     False
1       1     1 2010-02-12      46039.49      True
2       1     1 2010-02-19      41595.55     False
3       1     1 2010-02-26      19403.54     False
4       1     1 2010-03-05      21827.90     False
5       1     1 2010-03-12      21043.39     False
6       1     1 2010-03-19      22136.64     False
7       1     1 2010-03-26      26229.21     False
8       1     1 2010-04-02      57258.43     False
9       1     1 2010-02-12      46039.49      True
10      1     1 2010-02-12      46039.49      True
11      1     1 2010-02-12      46039.49      True
12      1     1 2010-02-12      46039.49      True
13      1     1 2010-02-12      46039.49      True

J'ajouterais la ignore_index param sorte que le résultat final dataframe a un bon indice: df.append([df_try]*5, ignore_index=True)
Ouais, c'est une bonne idée.

InformationsquelleAutor Karl D.

Autre façon est utilisant la méthode concat() la fonction:

import pandas as pd

In [603]: df = pd.DataFrame({'col1':list("abc"),'col2':range(3)},index = range(3))

In [604]: df
Out[604]: 
  col1  col2
0    a     0
1    b     1
2    c     2

In [605]: pd.concat([df]*3, ignore_index=True) # Ignores the index
Out[605]: 
  col1  col2
0    a     0
1    b     1
2    c     2
3    a     0
4    b     1
5    c     2
6    a     0
7    b     1
8    c     2

In [606]: pd.concat([df]*3)
Out[606]: 
  col1  col2
0    a     0
1    b     1
2    c     2
0    a     0
1    b     1
2    c     2
0    a     0
1    b     1
2    c     2

InformationsquelleAutor Surya

16

C'est une vieille question, mais comme il vient encore au dessus de mes résultats dans Google, voici une autre façon.
```
import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':list("abc"),'col2':range(3)},index = range(3))
```
Dites que vous voulez reproduire les lignes où col1="b".
```
reps = [3 if val=="b" else 1 for val in df.col1]
df.loc[np.repeat(df.index.values, reps)]
```
Vous pouvez remplacer le 3 if val=="b" else 1 dans la liste de l'interprétation avec une autre fonction qui pourrait revenir 3 si val=="b" ou 4 si val=="c" et ainsi de suite, donc c'est assez flexible.
- À mon humble avis c'est le bon langage.
- Cela permettra également de reproduire les valeurs de l'indice ainsi, correct?
- C'est beau, merci.
- Je ne sais pas si je le fais mal, mais c'est très lent pour moi.
InformationsquelleAutor snooze_bear

df = df_try
for i in range(4):
   df = df.append(df_try)

# Here, we have df_try times 5

df = df.append(df)

# Here, we have df_try times 10

InformationsquelleAutor DavidK

À l'ajout et à la concaténation est généralement lente dans les Pandas donc je vous recommande juste de faire une nouvelle liste de lignes et les transformant en un dataframe (sauf en ajoutant une seule ligne ou la concaténation de quelques dataframes).

import pandas as pd

df = pd.DataFrame([
[1,1,'2010-02-05',24924.5,False],
[1,1,'2010-02-12',46039.49,True],
[1,1,'2010-02-19',41595.55,False],
[1,1,'2010-02-26',19403.54,False],
[1,1,'2010-03-05',21827.9,False],
[1,1,'2010-03-12',21043.39,False],
[1,1,'2010-03-19',22136.64,False],
[1,1,'2010-03-26',26229.21,False],
[1,1,'2010-04-02',57258.43,False]
], columns=['Store','Dept','Date','Weekly_Sales','IsHoliday'])

temp_df = []
for row in df.itertuples(index=False):
    if row.IsHoliday:
        temp_df.extend([list(row)]*5)
    else:
        temp_df.append(list(row))

df = pd.DataFrame(temp_df, columns=df.columns)

Pour l'enregistrement, il est probablement plus rapide de faire une jointure externe, mais le code est assez compliquée pour un petit gain.

InformationsquelleAutor grofte

Vous devez vous connecter pour publier un commentaire.