Python Pandas - Suppression de Lignes à Partir d'Un DataFrame Basé sur un sous-ensemble Obtenu

Je suis en cours d'exécution Python 2.7 avec le Pandas 0.11.0 bibliothèque installée.

J'ai été la recherche autour d'un n'ai pas trouvé de réponse à cette question, alors j'espère que quelqu'un de plus expérimenté que moi a une solution.

Permet de dire mes données, en df1, se présente comme suit:

df1=

  zip  x  y  access
  123  1  1    4
  123  1  1    6
  133  1  2    3
  145  2  2    3
  167  3  1    1
  167  3  1    2

En utilisant, par exemple, df2 = df1[df1['zip'] == 123] et puis df2 = df2.join(df1[df1['zip'] == 133]) j'ai le sous-ensemble de données:

df2=

 zip  x  y  access
 123  1  1    4
 123  1  1    6
 133  1  2    3

Ce que je veux faire, c'est soit:

1) Supprimer les lignes de df1 qu'ils sont définis commencé avec df2

2) Après df2 a été créé, supprimer les lignes (différence?) de df1 qui df2 est composé de

Espère que tout cela fait sens. S'il vous plaît laissez-moi savoir si d'info plus est nécessaire.

EDIT:

Idéalement une troisième dataframe serait de créer qui ressemble à ceci:

df2=

 zip  x  y  access
 145  2  2    3
 167  3  1    1
 167  3  1    2

Qui est, tout de df1 pas dans df2. Merci!

Je ne suis pas sûr de ce que la sortie que vous voulez. Voulez-vous simplement à briser le dataframe en deux nouveaux dataframes, composée de lignes où le zip colonne est de 123 ou 133 et un composé du reste?
J'ai édité la question - ce que je cherche est en bas. Merci!

OriginalL'auteur DMML | 2013-05-23

pandas python

Deux options viennent à l'esprit. Tout d'abord, utilisez isin et d'un masque:

>>> df
   zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2
>>> keep = [123, 133]
>>> df_yes = df[df['zip'].isin(keep)]
>>> df_no = df[~df['zip'].isin(keep)]
>>> df_yes
   zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3
>>> df_no
   zip  x  y  access
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2

Deuxièmement, l'utilisation groupby:

>>> grouped = df.groupby(df['zip'].isin(keep))

et puis tout de

>>> grouped.get_group(True)
zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3
>>> grouped.get_group(False)
zip  x  y  access
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2
>>> [g for k,g in list(grouped)]
[   zip  x  y  access
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2,    zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3]
>>> dict(list(grouped))
{False:    zip  x  y  access
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2, True:    zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3}
>>> dict(list(grouped)).values()
[   zip  x  y  access
3  145  2  2       3
4  167  3  1       1
5  167  3  1       2,    zip  x  y  access
0  123  1  1       4
1  123  1  1       6
2  133  1  2       3]

Qui fait le plus de sens dépend du contexte, mais je pense que vous obtenez l'idée.

Merci beaucoup!

OriginalL'auteur DSM

Vous devez vous connecter pour publier un commentaire.