Les Pandas dataframe obtenir la première ligne de chaque groupe

J'ai une pandas DataFrame comme suit.

df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7],
                'value'  : ["first","second","second","first",
                            "second","first","third","fourth",
                            "fifth","second","fifth","first",
                            "first","second","third","fourth","fifth"]})

Je veux du groupe par cette ["id","valeur"] et obtenir la première ligne de chaque groupe.

        id   value
0        1   first
1        1  second
2        1  second
3        2   first
4        2  second
5        3   first
6        3   third
7        3  fourth
8        3   fifth
9        4  second
10       4   fifth
11       5   first
12       6   first
13       6  second
14       6   third
15       7  fourth
16       7   fifth

Résultat attendu

    id   value
     1   first
     2   first
     3   first
     4  second
     5  first
     6  first
     7  fourth

J'ai essayé de suivre ce qui ne donne que la première ligne de la DataFrame. Toute aide concernant ce qui est apprécié.

In [25]: for index, row in df.iterrows():
   ....:     df2 = pd.DataFrame(df.groupby(['id','value']).reset_index().ix[0])

Je me rends compte de cette question est assez vieux, mais je vous suggère d'accepter la réponse de @vital_dml car le comportement de first() à l'égard de nans est très surprenant et quelque chose que je pense que la plupart des gens ne s'attendent pas.

InformationsquelleAutor Nilani Algiriyage | 2013-11-19

199
```
>>> df.groupby('id').first()
     value
id        
1    first
2    first
3    first
4   second
5    first
6    first
7   fourth
```
Si vous avez besoin d' id comme colonne:
```
>>> df.groupby('id').first().reset_index()
   id   value
0   1   first
1   2   first
2   3   first
3   4  second
4   5   first
5   6   first
6   7  fourth
```
Pour obtenir les n premiers enregistrements, vous pouvez utiliser de la tête():
```
>>> df.groupby('id').head(2).reset_index(drop=True)
    id   value
0    1   first
1    1  second
2    2   first
3    2  second
4    3   first
5    3   third
6    4  second
7    4   fifth
8    5   first
9    6   first
10   6  second
11   7  fourth
12   7   fifth
```
- Merci beaucoup! Bien travaillé 🙂 Il n'est pas possible d'obtenir la deuxième rangée de la même manière? Pouvez-vous expliquer cela?
- g = df.groupby(['session']). g.apa(lambda x: x.lci[0]) c'est aussi de travail, aucune idée de l'obtention de la deuxième valeur? 🙁
- supposons que, en comptant à partir du haut, vous voulez obtenir le numéro de ligne top_n, alors dx = df.groupby('id').tête(top_n).reset_index(drop=True) et supposons que, à compter à partir de la base, vous voulez obtenir le numéro de ligne bottom_n, alors dx = df.groupby('id').queue(bottom_n).reset_index(drop=True)
- Dans le cas où vous souhaitez les n dernières lignes, utilisez tail(n) (par défaut n=5) (réf.). À ne pas confondre avec last(), j'ai fait cette erreur.
- groupby('id',as_index=False) conserve également id comme une colonne
InformationsquelleAutor Roman Pekar
47

Cela vous donnera la deuxième ligne de chaque groupe (zéro indexés, nth(0) est la même que la première()):
```
df.groupby('id').nth(1) 
```
Documentation: http://pandas.pydata.org/pandas-docs/stable/groupby.html#taking-the-nth-row-of-each-group
- Si vous voulez multiples, comme les trois premières, par exemple, utiliser une séquence comme nth((0,1,2)) ou nth(range(3)).
- En quelque sorte quand je donne, il renvoie une erreur: TypeError: n needs to be an int or a list/set/tuple of ints
- êtes-vous à l'aide de Python 3? Si oui, range(3) ne retourne pas une liste, sauf si vous tapez list(range(3)).
InformationsquelleAutor wij

Je vous suggère d'utiliser .nth(0) plutôt que .first() si vous avez besoin pour obtenir la première ligne.

La différence entre eux est de savoir comment ils gèrent les NaNs, donc .nth(0) sera de retour sur la première ligne de groupe, peu importe quelles sont les valeurs de cette ligne, tandis que les .first() finira par retourner la première pas NaN valeur dans chaque colonne.

E. g. si votre jeu de données est :

df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4],
            'value'  : ["first","second","third", np.NaN,
                        "second","first","second","third",
                        "fourth","first","second"]})

>>> df.groupby('id').nth(0)
    value
id        
1    first
2    NaN
3    first
4    first

>>> df.groupby('id').first()
    value
id        
1    first
2    second
3    first
4    first

bon point. .head(1) semble également se comporter comme .nth(0), sauf pour l'indice

InformationsquelleAutor vital_dml

c'est peut-être ce que vous voulez

import pandas as pd
idx = pd.MultiIndex.from_product([['state1','state2'],   ['county1','county2','county3','county4']])
df = pd.DataFrame({'pop': [12,15,65,42,78,67,55,31]}, index=idx)

                pop
state1 county1   12
       county2   15
       county3   65
       county4   42
state2 county1   78
       county2   67
       county3   55
       county4   31

df.groupby(level=0, group_keys=False).apply(lambda x: x.sort_values('pop', ascending=False)).groupby(level=0).head(3)

> Out[29]: 
                pop
state1 county3   65
       county4   42
       county2   15
state2 county1   78
       county2   67
       county3   55

InformationsquelleAutor Siraj S.

Si vous avez uniquement besoin de la première ligne de chaque groupe, nous pouvons le faire avec drop_duplicates, un Avis à la fonction par défaut de la méthode keep='first'.

df.drop_duplicates('id')
Out[1027]: 
    id   value
0    1   first
3    2   first
5    3   first
9    4  second
11   5   first
12   6   first
15   7  fourth

InformationsquelleAutor YO and BEN_W

Vous devez vous connecter pour publier un commentaire.