Sélectionnez les lignes contenant certaines valeurs de pandas dataframe

J'ai une pandas dataframe dont les entrées sont toutes les chaînes:

   A     B      C
1 apple  banana pear
2 pear   pear   apple
3 banana pear   pear
4 apple  apple  pear

etc. Je veux sélectionner toutes les lignes qui contiennent une chaîne de caractère, disons, "banane". Je ne sais pas quelle colonne il apparaîtra à chaque fois. Bien sûr, je peux écrire une boucle for et itérer sur toutes les lignes. Mais est-il plus facile ou plus rapide façon de le faire?

Vous pouvez aussi simplement faire df[df.values == 'banana']

InformationsquelleAutor rferdinand | 2016-07-04

pandas python

Avec NumPy, il pourrait être vectorisé pour rechercher autant de chaînes que vous voulez, comme le

def select_rows(df,search_strings):
    unq,IDs = np.unique(df,return_inverse=True)
    unqIDs = np.searchsorted(unq,search_strings)
    return df[((IDs.reshape(df.shape) == unqIDs[:,None,None]).any(-1)).all(0)]

Exemple d'exécution -

In [393]: df
Out[393]: 
        A       B      C
0   apple  banana   pear
1    pear    pear  apple
2  banana    pear   pear
3   apple   apple   pear

In [394]: select_rows(df,['apple','banana'])
Out[394]: 
       A       B     C
0  apple  banana  pear

In [395]: select_rows(df,['apple','pear'])
Out[395]: 
       A       B      C
0  apple  banana   pear
1   pear    pear  apple
3  apple   apple   pear

In [396]: select_rows(df,['apple','banana','pear'])
Out[396]: 
       A       B     C
0  apple  banana  pear

Effectivement, c'est plus facile à utiliser lors de la recherche pour plusieurs chaînes de caractères

InformationsquelleAutor Divakar

Pour la seule recherche de la valeur

df[df.values  == "banana"]

 df[df.isin(['banana'])]

Pour plusieurs termes de recherche:

  df[(df.values  == "banana")|(df.values  == "apple" ) ]

df[df.isin(['banana', "apple"])]

  #         A       B      C
  #  1   apple  banana    NaN
  #  2     NaN     NaN  apple
  #  3  banana     NaN    NaN
  #  4   apple   apple    NaN

De Divakar: les lignes avec les deux sont retournés.

select_rows(df,['apple','banana'])

 #         A       B     C
 #   0  apple  banana  pear

La dernière ligne, de fait, donne-moi un vide dataframe quand je l'ai essayer

InformationsquelleAutor Merlin

3

Vous pouvez créer un booléen masque à partir de la comparaison de l'ensemble de df à l'encontre de votre chaîne et de l'appel dropna passage de param how='all' à déplacer lignes où votre chaîne n'apparaît pas dans tous les cols:
```
In [59]:
df[df == 'banana'].dropna(how='all')

Out[59]:
        A       B    C
1     NaN  banana  NaN
3  banana     NaN  NaN
```
Pour tester plusieurs valeurs, vous pouvez utiliser plusieurs masques:
```
In [90]:
banana = df[(df=='banana')].dropna(how='all')
banana

Out[90]:
        A       B    C
1     NaN  banana  NaN
3  banana     NaN  NaN

In [91]:    
apple = df[(df=='apple')].dropna(how='all')
apple

Out[91]:
       A      B      C
1  apple    NaN    NaN
2    NaN    NaN  apple
4  apple  apple    NaN
```
Vous pouvez utiliser index.intersection à l'index de la commune des valeurs de l'indice:
```
In [93]:
df.loc[apple.index.intersection(banana.index)]

Out[93]:
       A       B     C
1  apple  banana  pear
```
- Je vous remercie. Certes cela fonctionne si je suis à la recherche d'une chaîne de caractères. Que faire si je veux sélectionner les lignes qui contiennent à la fois "banane" et "pomme"?
- Je ne sais pas les pandas, mais peut-être quelque chose comme ça : df[df == 'banana', 'apple'].dropna(how='all')?
- Qui me donne une erreur TypeError
- Je n'ai jamais utilisé les pandas, mais isin de la fonction de travail. Documentation : pandas.pydata.org/pandas-docs/stable/generated/...
- voir mise à jour de la réponse, vous ne pouvez pas utiliser isin parce que vous obtiendrez de multiples positifs si par exemple vous avez 2 pommes, mais pas de bananes
- C'est exactement ce que je veux. Merci!
- Est-il une seule ligne de solution pour elle.
- pas sans définir d'utilisateur func comme divikar de la réponse ou de l'habillage de ma réponse dans un func
- Grande réponse, mais je me demande si df[df.values == 'banana'] pourrait être une meilleure solution. C'est environ 5 X plus vite. Mais, peut-être que je manque quelque chose?
- pure numpy méthodes sera toujours plus rapide, mais les pandas ont des méthodes mieux le type et l'absence de données de la manipulation, pour ce jouet exemple et où la dtype est homogène, puis un pur np méthode est supérieure
- Yep, je suis d'accord. J'aime toujours vos réponses, apprendre beaucoup de vous. Merci.
InformationsquelleAutor EdChum - Reinstate Monica

Vous devez vous connecter pour publier un commentaire.