les pandas.factoriser sur l'ensemble d'un bloc de données

pandas.factoriser code pour les valeurs d'entrée comme un type énuméré ou variable catégorique.

Mais comment puis-je facilement et efficacement convertir beaucoup de colonnes d'un bloc de données? Que dire de l'inverse de la cartographie étape?

Exemple: Ce bloc de données contient des colonnes avec des valeurs de chaîne tels que "type 2" que je voudrais convertir des valeurs numériques - et, éventuellement, de les traduire en arrière plus tard.

OriginalL'auteur clstaudt | 2016-09-08

Vous pouvez utiliser apply si vous avez besoin de factorize chaque colonne séparément:

df = pd.DataFrame({'A':['type1','type2','type2'],
                   'B':['type1','type2','type3'],
                   'C':['type1','type3','type3']})

print (df)
       A      B      C
0  type1  type1  type1
1  type2  type2  type3
2  type2  type3  type3

print (df.apply(lambda x: pd.factorize(x)[0]))
   A  B  C
0  0  0  0
1  1  1  1
2  1  2  1

Si vous avez besoin pour la même chaîne de valeur de la même numérique:

print (df.stack().rank(method='dense').unstack())
     A    B    C
0  1.0  1.0  1.0
1  2.0  2.0  3.0
2  2.0  3.0  3.0

Si vous avez besoin d'appliquer la fonction uniquement pour certaines colonnes, utiliser un sous-ensemble:

df[['B','C']] = df[['B','C']].stack().rank(method='dense').unstack()
print (df)
       A    B    C
0  type1  1.0  1.0
1  type2  2.0  3.0
2  type2  3.0  3.0

Solution avec factoriser:

stacked = df[['B','C']].stack()
df[['B','C']] = pd.Series(stacked.factorize()[0], index=stacked.index).unstack()
print (df)
       A  B  C
0  type1  0  0
1  type2  1  2
2  type2  2  2

Traduire est possible via map par dict, où vous avez besoin de supprimer les doublons par drop_duplicates:

vals = df.stack().drop_duplicates().values
b = [x for x in df.stack().drop_duplicates().rank(method='dense')]

d1 = dict(zip(b, vals))
print (d1)
{1.0: 'type1', 2.0: 'type2', 3.0: 'type3'}

df1 = df.stack().rank(method='dense').unstack()
print (df1)
     A    B    C
0  1.0  1.0  1.0
1  2.0  2.0  3.0
2  2.0  3.0  3.0

print (df1.stack().map(d1).unstack())
       A      B      C
0  type1  type1  type1
1  type2  type2  type3
2  type2  type3  type3

Et si je ne veux pas appliquer la fonction de chaque colonne, juste pour une liste de colonnes?
Vous pouvez utiliser le sous-ensemble, donnez-moi une seconde.

OriginalL'auteur jezrael

2

J'ai aussi trouvé cette réponse très utile:
https://stackoverflow.com/a/20051631/4643212

J'ai essayé de prendre des valeurs d'une colonne existante dans une Pandas DataFrame (une liste d'adresses IP nommé "SrcIP') et leur associer des valeurs numériques dans une nouvelle colonne (nommé " ID " dans cet exemple).

Solution:
```
df['ID'] = pd.factorize(df.SrcIP)[0]
```
Résultat:
```
        SrcIP | ID    
192.168.1.112 |  0  
192.168.1.112 |  0  
192.168.4.118 |  1 
192.168.1.112 |  0
192.168.4.118 |  1
192.168.5.122 |  2
192.168.5.122 |  2
...
```
OriginalL'auteur Gabe F.
0

Je voudrais rediriger ma réponse: https://stackoverflow.com/a/32011969/1694714

Vieille réponse

Un autre lisible solution pour ce problème, lorsque vous souhaitez conserver les catégories uniforme à l'échelle de l'résultant DataFrame est à l'aide de remplacer:
```
def categorise(df):
    categories = {k: v for v, k in enumerate(df.stack().unique())}
    return df.replace(categories)
```
Des performances légèrement pire que l'exemple de @jezrael, mais plus facile à lire. Aussi, il pourrait dégénérer mieux pour les grands ensembles de données. Je peux faire quelques tests appropriés si quelqu'un est intéressé.

OriginalL'auteur tbrittoborges

Vous devez vous connecter pour publier un commentaire.