Les Pandas somme par groupby, mais exclure certaines colonnes

Quel est le meilleur moyen de faire un groupe sur une Pandas dataframe, mais exclure certaines colonnes à partir de ce groupe? par exemple, j'ai le texte suivant dataframe:

Code   Country      Item_Code   Item    Ele_Code    Unit    Y1961    Y1962   Y1963
2      Afghanistan  15          Wheat   5312        Ha      10       20      30
2      Afghanistan  25          Maize   5312        Ha      10       20      30
4      Angola       15          Wheat   7312        Ha      30       40      50
4      Angola       25          Maize   7312        Ha      30       40      50

Je veux groupby la colonne Pays et Item_Code et seulement calculer la somme des lignes tombent sous les colonnes Y1961, Y1962 et Y1963. Le résultant dataframe devrait ressembler à ceci:

Code   Country      Item_Code   Item    Ele_Code    Unit    Y1961    Y1962   Y1963
2      Afghanistan  15          C3      5312        Ha      20       40       60
4      Angola       25          C4      7312        Ha      60       80      100

Je fais ceci:

df.groupby('Country').sum()

Toutefois cela s'ajoute les valeurs de la Item_Code colonne. Est-il possible que je peux spécifier les colonnes à inclure dans le sum() opération et ceux à exclure?

InformationsquelleAutor user308827 | 2015-09-23

91

Vous pouvez sélectionner les colonnes d'un groupby:
```
In [11]: df.groupby(['Country', 'Item_Code'])[["Y1961", "Y1962", "Y1963"]].sum()
Out[11]:
                       Y1961  Y1962  Y1963
Country     Item_Code
Afghanistan 15            10     20     30
            25            10     20     30
Angola      15            30     40     50
            25            30     40     50
```
Noter que la liste transmise doit être un sous-ensemble des colonnes sinon, vous allez voir un KeyError.
- Comment inclure nombre d'enregistrements pour chaque pays & code article comme un autre de la colonne?
- Vous pouvez créer un mannequin colonne avant le regroupement qui ne contient qu'1. ensuite somme somme ceux de la création d'un compte.
- Si vous voulez juste pour exclure une colonne ou deux, puis vous obtenez tous les noms de colonnes comme dans listColumns = list(df.columns) ensuite, vous enlevez les colonnes que vous ne voulez pas, listColumns.remove('Y1964') et enfin faire votre sommation: df.groupby(['Country', 'Item_Code'])[listColumns].sum()
- Merci beaucoup. Je peux obtenir à l'égard du groupe de travail, mais pas la sélection de la partie. La liste des colonnes, j'ai mis dans sont parmi les dataframe, mais il ne cesse de soulever ValueError: cannot reindex from a duplicate axis
- si vous avez plusieurs colonnes avec le même nom il va montrer cette erreur. Dans ce cas, vous devrez utiliser lci ou loc pour obtenir les colonnes que vous voulez, je pense que vous aurez à faire qu'avant à l'égard du groupe.
- Merci beaucoup, il travaille maintenant comme je l'ai sélectionné une petite dataframe avec gérable colonnes. Je ne savais pas que ça ne marcherait pas aussi longtemps que il ya des colonnes avec des noms identiques. Je pensais que tant que je ne sélectionnez pas de ces colonnes, il fera beau. Et je me demande si vous pouvez m'aider avec une question qui s'est posée pour moi dans ce processus: pourquoi ne df.groupby({columns1])[columns2].sum() retour d'un dataframe alors que df.groupby({columns1])[columns2].size() me donnera une série de données en sortie? Merci.
- Je n'ai pas de bonne réponse pour que l'on. Re la non-sélection, vous pouvez déposer un bug sur github.
- Merci, et par des "non-sélection" entendez-vous la première partie de mon commentaire? Je vais supprimer les noms de colonnes en double et essayer à nouveau et voir si c'est le problème. Quelle est la meilleure façon d'aller à ce sujet? Puis-je changer le nom de la colonne ou supprimer la colonne à l'aide de iloc que la spécification du nom ne fonctionne pas ici. Merci encore
- Je veux dire, vous pouvez découper les colonnes que vous souhaitez df.iloc[:, [0,1, 2, 3]].groupby(...), 0, 1, 2 sont les colonnes que vous souhaitez tranche. Renommage de sorte que vous n'avez pas de doublons est aussi une solution
- Merci Andy. J'ai utilisé votre code à nouveau aujourd'hui pour travailler sur un autre projet et il fonctionne comme un charme. Mais quand j'ai été jouer avec votre code, j'ai trouvé que df.groupby([A, B, C)[[D, E, F]].sum() semble donner le même résultat que df.groupby([A, B, C)[D, E, F].sum() . Pourriez-vous me dire pourquoi vous avez utilisé deux paires de crochets s'il vous plaît? Merci encore.
- est généralement nécessaire pour couper un sous-ensemble de colonnes, c'est le cas avec DataFrames MAIS il regarde comme cela n'est plus nécessaire avec un DataFrameGroupBy (vous pouvez maintenant utiliser).
- Merci! Je pensais que cela a probablement quelque chose à voir avec les colonnes de le trancher.
InformationsquelleAutor Andy Hayden
32

La agg de la fonction le fera pour vous. Passer les colonnes et la fonction comme dict avec colonne de sortie:
```
df.groupby(['Country', 'Item_Code']).agg({'Y1961': np.sum, 'Y1962': [np.sum, np.mean]})  # Added example for two output columns from a single input column
```
Cette affiche uniquement le groupe par des colonnes, et la totale déterminée colonnes. Dans cet exemple, j'ai inclus deux agg fonctions s'appliquent à la "Y1962'.

D'obtenir exactement ce que vous espériez voir, inclus les autres colonnes dans le groupe, et appliquer sommes à l'axe des variables dans le cadre:
```
df.groupby(['Code', 'Country', 'Item_Code', 'Item', 'Ele_Code', 'Unit']).agg({'Y1961': np.sum, 'Y1962': np.sum, 'Y1963': np.sum})
```
- merci, cela peut-il être généralisé? J'ai beaucoup de colonnes de la forme Y1961... j'ai donc générer une liste comme ceci: ans = ['Y' + str(x) pour x dans la gamme(1961, 2010 + 1, 1)]. Votre solution peut utiliser 'ans' à l'intérieur d'apa?
- J'aime vraiment cette idée. Le truc, c'est la construction de ce dict avec la valeur en cours de la numpy fonction somme. A l'inverse, si tout ce que vous voulez faire est la somme de toutes les colonnes restantes, votre origine-ish solution serait de travailler si toutes les colonnes sont inclus dans le groupe par la déclaration.
InformationsquelleAutor leroyJr
10

Si vous êtes à la recherche d'une plus généralisée de manière à s'appliquer à de nombreuses colonnes, ce que vous pouvez faire est de construire une liste de noms de colonnes et de le transmettre comme l'indice de l'regroupés dataframe. Dans votre cas, par exemple:
```
columns = ['Y'+str(i) for year in range(1967, 2011)]

df.groupby('Country')[columns].agg('sum')
```
InformationsquelleAutor Superstar

Vous devez vous connecter pour publier un commentaire.