les pandas unique des valeurs de plusieurs colonnes

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'],
                   'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'],
                   'Col3': np.random.random(5)})

Quelle est la meilleure façon de rétablir les valeurs uniques de la "Col1" et "Col2'?

La sortie désirée est

'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

InformationsquelleAutor user2333196 | 2014-11-17

136

mp.unique retourne les valeurs uniques à partir d'un tableau d'entrée, ou DataFrame d'index ou de colonne.

L'entrée de cette fonction doit être à une dimension, de sorte que plusieurs colonnes doivent être combinées. La façon la plus simple est de sélectionner les colonnes que vous souhaitez, puis d'afficher les valeurs dans un aplatie tableau NumPy. L'ensemble de l'opération ressemble à ceci:
```
>>> pd.unique(df[['Col1', 'Col2']].values.ravel('K'))
array(['Bob', 'Joe', 'Bill', 'Mary', 'Steve'], dtype=object)
```
Noter que ravel() est une méthode de tableau que retourne une vue (si possible) d'un tableau multidimensionnel. L'argument 'K' indique la méthode pour aplatir le tableau dans l'ordre les éléments sont stockés dans la mémoire (les pandas généralement des magasins de sous-jacents des tableaux dans Fortran contigus afin; les colonnes avant de lignes). Cela peut être beaucoup plus rapide que d'utiliser la méthode par défaut de 'C' ordre.

Une autre solution consiste à sélectionner les colonnes et les passer à np.unique:
```
>>> np.unique(df[['Col1', 'Col2']].values)
array(['Bill', 'Bob', 'Joe', 'Mary', 'Steve'], dtype=object)
```
Il n'est pas nécessaire d'utiliser ravel() ici que la méthode de poignées de tableaux multidimensionnels. Même si, c'est probablement à être plus lent que pd.unique comme il utilise un tri basé sur l'algorithme plutôt que d'une table de hachage pour identifier les valeurs uniques.

La différence de vitesse est important pour les grandes DataFrames (surtout si il ya seulement une poignée de valeurs uniques):
```
>>> df1 = pd.concat([df]*100000, ignore_index=True) # DataFrame with 500000 rows
>>> %timeit np.unique(df1[['Col1', 'Col2']].values)
1 loop, best of 3: 1.12 s per loop

>>> %timeit pd.unique(df1[['Col1', 'Col2']].values.ravel('K'))
10 loops, best of 3: 38.9 ms per loop

>>> %timeit pd.unique(df1[['Col1', 'Col2']].values.ravel()) # ravel using C order
10 loops, best of 3: 49.9 ms per loop
```
- Le .values dans votre réponse précédente est nécessaire; sinon elle retourne array(['Col1', 'Col2'], dtype='|S4')
- merci de remarquer que j'ai mis à jour la réponse. Il semble que la .values est nécessaire pour certaines versions de Pandas / NumPy (j'ai été le tester cela avec NumPy 1.9.2 et les Pandas 15.2 et il a travaillé sans).
- Comment obtenez-vous un dataframe en arrière au lieu d'un tableau?
- les deux méthodes retournent un tableau NumPy, de sorte que vous aurez à construire manuellement, par exemple, pd.DataFrame(unique_values). Il n'y a pas de bonne façon de reprendre un DataFrame directement.
InformationsquelleAutor Alex Riley
7

J'ai mis un DataFrame avec quelques simples chaînes de caractères dans les colonnes:
```
>>> df
   a  b
0  a  g
1  b  h
2  d  a
3  e  e
```
Vous pouvez concaténer les colonnes qui vous intéressent et appel unique fonction:
```
>>> pandas.concat([df['a'], df['b']]).unique()
array(['a', 'b', 'd', 'e', 'g', 'h'], dtype=object)
```
InformationsquelleAutor Mike

In [5]: set(df.Col1).union(set(df.Col2))
Out[5]: {'Bill', 'Bob', 'Joe', 'Mary', 'Steve'}

Ou:

set(df.Col1) | set(df.Col2)

InformationsquelleAutor James Little

Non-pandas solution: à l'aide de set().

import pandas as pd
import numpy as np

df = pd.DataFrame({'Col1' : ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'],
              'Col2' : ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'],
               'Col3' : np.random.random(5)})

print df

print set(df.Col1.append(df.Col2).values)

De sortie:

   Col1   Col2      Col3
0   Bob    Joe  0.201079
1   Joe  Steve  0.703279
2  Bill    Bob  0.722724
3  Mary    Bob  0.093912
4   Joe  Steve  0.766027
set(['Steve', 'Bob', 'Bill', 'Joe', 'Mary'])

InformationsquelleAutor Jerome Montino

1

Une solution mise à jour à l'aide de numpy v1.13+ nécessite de spécifier l'axe np.unique si l'utilisation de plusieurs colonnes, sinon le tableau est implicitement aplati.
```
import numpy as np

np.unique(df[['col1', 'col2']], axis=0)
```
Cette modification a été introduite Nov 2016: https://github.com/numpy/numpy/commit/1f764dbff7c496d6636dc0430f083ada9ff4e4be

InformationsquelleAutor erikreed
0

pour ceux d'entre nous qui aime toutes les choses de pandas, appliquer, et bien sûr lambda fonctions:
```
df['Col3'] = df[['Col1', 'Col2']].apply(lambda x: ''.join(x), axis=1)
```
InformationsquelleAutor Lisle
0
```
list(set(df[['Col1', 'Col2']].as_matrix().reshape((1,-1)).tolist()[0]))
```
La sortie sera
['Marie', 'Joe', 'Steve', 'Bob', 'Loi']

InformationsquelleAutor smishra

voici une autre façon


import numpy as np
set(np.concatenate(df.values))

InformationsquelleAutor muon

-1
```
np.unique(df.values.flatten())
```
- Cela ne fonctionne pas. Jette unorderable types: float() < str()
InformationsquelleAutor Cohensius

Vous devez vous connecter pour publier un commentaire.