Les Pandas de lecture csv comme type de chaîne

J'ai un bloc de données alpha-numériques touches de qui je veux enregistrer au format csv et de les lire plus tard. Pour diverses raisons, j'ai besoin explicitement de lire cette colonne de clé comme une chaîne de format, j'ai des touches qui sont strictement numérique ou même pire, des choses comme: 1234E5 qui Pandas interprète comme un float. Cela rend évidemment la clé complètement inutile.

Le problème est quand je spécifier une chaîne dtype pour le bloc de données ou d'une colonne de ça, j'ai juste à ordures arrière. J'ai un exemple de code ici:

df = pd.DataFrame(np.random.rand(2,2),
                  index=['1A', '1B'],
                  columns=['A', 'B'])
df.to_csv(savefile)

Le bloc de données qui ressemble à:

           A         B
1A  0.209059  0.275554
1B  0.742666  0.721165

Puis je l'ai lu comme suit:

df_read = pd.read_csv(savefile, dtype=str, index_col=0)

et le résultat est:

   A  B
B  (  <

Est-ce un problème avec mon ordinateur, ou quelque chose que je fais mal ici, ou tout simplement un bug?

Il serait bien si vous pouviez dire les "diverses raisons" pourquoi vous voulez l'enregistrer comme une chaîne de caractères. Le contexte peut être très utile pour trouver une solution plus élégante.

InformationsquelleAutor daver | 2013-06-07

pandas python

36

Mise à jour: il a été corrigé: à partir de 0.11.1 vous passer str/np.str sera équivalent à l'utilisation de object.

Utiliser l'objet dtype:
```
In [11]: pd.read_csv('a', dtype=object, index_col=0)
Out[11]:
                      A                     B
1A  0.35633069074776547     0.745585398803751
1B  0.20037376323337375  0.013921830784260236
```
ou, mieux encore, il suffit de ne pas spécifier un dtype:
```
In [12]: pd.read_csv('a', index_col=0)
Out[12]:
           A         B
1A  0.356331  0.745585
1B  0.200374  0.013922
```
mais en contournant le type de sniffer et vraiment de retour seulement chaînes nécessite un hacky utilisation de converters:
```
In [13]: pd.read_csv('a', converters={i: str for i in range(100)})
Out[13]:
                      A                     B
1A  0.35633069074776547     0.745585398803751
1B  0.20037376323337375  0.013921830784260236
```
où 100 est un nombre supérieur ou égal à votre total nombre de colonnes.

Il est préférable d'éviter les str dtype, voir par exemple ici.
- Je pense que read_csv doit a) montée sur un invalide passé dtype, et b) à traduire str dtype à object, ouvrez un problème?
- Merci, je vais essayer ça. Je l'ai déjà mentionné je ne peux pas le lire sans spécifier un type, les Pandas continue à prendre de touches numériques dont j'ai besoin pour être des chaînes de caractères et l'analyse comme des flotteurs. Comme je l'ai dit dans l'exemple d'une clé comme: 1234E5 est calculée comme suit: 1234.0x10^5, ce qui ne m'aide pas du tout quand je vais le chercher.
- c'est corrigé dans la 0.11.1 quand il s'agit de (bientôt). Merci!
- Tout simplement, y compris dtype=object (et pas index_col) a résolu tous mes problèmes de zéros en train de disparaître.
- Réglage dtype n'est pas assez. Par exemple, df.applymap(lambda x: x.strip()) déclenche une erreur AttributeError: ("'float' object has no attribute 'strip'", 'occurred at index A') parce que les pandas contraint object à float quelque part sur la route.
- Ce n'est pas une contrainte en soi. Les champs vides sont représentées par des np.nan, c'est un float. Vous pouvez modifier ce comportement par la na_filter=False paramètre de read_csv.
InformationsquelleAutor Andy Hayden
2

Comme Anton T a dit dans son commentaire, pandas, de façon aléatoire, tourner object types dans float types à l'aide de son type de sniffer, même vous passer dtype=object, dtype=str, ou dtype=np.str.

Puisque vous pouvez passer d'un dictionnaire de fonctions où la clé est un index de colonne et la valeur est une fonction convertisseur, vous pouvez faire quelque chose comme ceci (par exemple, pour 100 colonnes).
```
pd.read_csv('some_file.csv', converters={i: str for i in range(0, 100)})
```
Vous pouvez même passer range(0, N) pour N beaucoup plus grand que le nombre de colonnes si vous ne savez pas combien de colonnes de vous lire.

InformationsquelleAutor Chris Conlan

Utiliser un convertisseur qui s'applique à n'importe quelle colonne, si vous ne connaissez pas les colonnes avant de la main:

import pandas as pd

class StringConverter(dict):
    def __contains__(self, item):
        return True

    def __getitem__(self, item):
        return str

    def get(self, default=None):
        return str

pd.read_csv(file_or_buffer, converters=StringConverter())

InformationsquelleAutor DanielRS

Vous devez vous connecter pour publier un commentaire.