Tri des colonnes et la sélection des top n lignes dans chaque groupe de pandas dataframe

J'ai un dataframe comme ceci:

mainid  pidx    pidy   score
  1      a        b      2
  1      a        c      5
  1      c        a      7
  1      c        b      2
  1      a        e      8
  2      x        y      1
  2      y        z      3
  2      z        y      5
  2      x        w      12
  2      x        v      1
  2      y        x      6

Je veux groupby on column 'pidx' et puis sort score in descending order in each group je.e pour chaque pidx

et puis select head(2) je.e dans le top 2 de chaque groupe.

Le résultat que je cherche, c'est comme ceci:

mainid   pidx    pidy    score
  1        a      e        8
  1        a      c        5
  1        c      a        7
  1        c      b        2
  2        x      w        12
  2        x      y        1
  2        y      x        6
  2        y      z        3
  2        z      y        5

Ce que j'ai essayé était:

df.sort(['pidx','score'],ascending = False).groupby('pidx').head(2)

et cela semble fonctionner, mais je ne sais pas si c'est la bonne approche si l'on travaille sur un grand ensemble de données. Quelle autre meilleure méthode puis-je utiliser pour obtenir un tel résultat?

InformationsquelleAutor Shubham | 2017-01-24

pandas python

Il y a 2 solutions:

1.sort_values et d'agrégation tête:

df1 = df.sort_values('score',ascending = False).groupby('pidx').head(2)
print (df1)

    mainid pidx pidy  score
8        2    x    w     12
4        1    a    e      8
2        1    c    a      7
10       2    y    x      6
1        1    a    c      5
7        2    z    y      5
6        2    y    z      3
3        1    c    b      2
5        2    x    y      1

2.set_index et d'agrégation nlargest:

df = df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index() 
print (df)
  pidx  mainid pidy  score
0    a       1    e      8
1    a       1    c      5
2    c       1    a      7
3    c       1    b      2
4    x       2    w     12
5    x       2    y      1
6    y       2    x      6
7    y       2    z      3
8    z       2    y      5

Timings:

np.random.seed(123)
N = 1000000

L1 = list('abcdefghijklmnopqrstu')
L2 = list('efghijklmnopqrstuvwxyz')
df = pd.DataFrame({'mainid':np.random.randint(1000, size=N),
                   'pidx': np.random.randint(10000, size=N),
                   'pidy': np.random.choice(L2, N),
                   'score':np.random.randint(1000, size=N)})
#print (df)

def epat(df):
    grouped = df.groupby('pidx')
    new_df = pd.DataFrame([], columns = df.columns)
    for key, values in grouped:
        new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)
    return (new_df)

print (epat(df))

In [133]: %timeit (df.sort_values('score',ascending = False).groupby('pidx').head(2))
1 loop, best of 3: 309 ms per loop

In [134]: %timeit (df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index())
1 loop, best of 3: 7.11 s per loop

In [147]: %timeit (epat(df))
1 loop, best of 3: 22 s per loop

comme d'habitude, monsieur, dont l'un serait plus rapide,pour d'énormes dataframe 😛
Oui, je suis en train de faire le test, donnez-moi une seconde.
La première solution est plus rapide, veuillez vérifier les horaires. Mais il dépend de la taille des groupes aussi.
oui, encore le tri et le regroupement clairement la gagne ici.

InformationsquelleAutor jezrael

une solution simple serait:

grouped = DF.groupby('pidx')

new_df = pd.DataFrame([], columns = DF.columns)

for key, values in grouped:

    new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)

espère que cela aide!

InformationsquelleAutor epattaro

Vous devez vous connecter pour publier un commentaire.