transformer scipy éparses de la rse pour les pandas?

J'ai utilisé le

sklearn.preprocessing.OneHotEncoder

pour transformer des données, la sortie est scipy.sparse.csr.csr_matrix
comment puis-je l'intégrer dans mon dataframe avec les autres colonnes?

J'ai essayé d'utiliser pd.concat mais je reçois

TypeError: cannot concatenate a non-NDFrame object

Grâce

OriginalL'auteur KillerSnail | 2016-05-01

22

Si A est csr_matrix, vous pouvez utiliser .toarray() (il y a aussi .todense() qui produit un numpy matrix, qui travaille également pour la DataFrame constructeur):
```
df = pd.DataFrame(A.toarray())
```
Vous pouvez ensuite utiliser ce avec pd.concat().
```
A = csr_matrix([[1, 0, 2], [0, 3, 0]])

  (0, 0)    1
  (0, 2)    2
  (1, 1)    3

<class 'scipy.sparse.csr.csr_matrix'>

pd.DataFrame(A.todense())

   0  1  2
0  1  0  2
1  0  3  0

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
0    2 non-null int64
1    2 non-null int64
2    2 non-null int64
```
Dans la version 0.20, pandas introduit des données éparses structures, y compris la SparseDataFrame.

Alternativement, vous pouvez passer des matrices creuses pour sklearn pour éviter de manquer de mémoire lors de la conversion de retour à pandas. Il suffit de convertir vos autres données de format creux par le passage d'un numpy array à la scipy.sparse.csr_matrix constructeur et l'utilisation scipy.sparse.hstack à combiner (voir docs).

Que puis-je faire si mon A. toarray() conduit à une MemoryError? Est-il possible de créer le Dataframe sans avoir à les convertir à dos une ndarray?
Vous pouvez prendre un coup d'oeil à pandas éparses structures de données
Est-il possible que je peux transmettre mes valeurs des étiquettes pour la nouvelle dataframe? E. g., si le codeur à chaud ont une valeur donnée de la colonne 'lettre' avec 'a a b b c a' que mon nouveau dataframe serait dirigée par letter_a, letter_b etc, un peu comme avec le mannequin-encoder?
Résolu ce problème en passant des arguments différents pour le mannequin de l'encodeur

OriginalL'auteur Stefan
3

Vous pouvez également éviter le retour d'une matrice creuse, en premier lieu, le paramètre sparse à False lors de la création de l'Encodeur.

La documentation de l' OneHotEncoder états:

éparses : boolean, default=True

Sera de retour sparse matrix si défini à True else retournera un tableau.

Vous pouvez ensuite appeler à nouveau le DataFrame constructeur de transformer le tableau numpy pour un DataFrame.

OriginalL'auteur scriptator

Vous devez vous connecter pour publier un commentaire.