Python Pandas ne pas lire la première ligne du fichier csv

J'ai un problème avec la lecture(fichier CSV ou txt) sur les pandas module
Parce que numpy est loadtxt fonction prend trop de temps, j'ai décidé d'utiliser les pandas read_csv à la place.

Je veux faire un tableau numpy partir d'un fichier txt avec quatre colonnes séparées par un espace, et a un très grand nombre de lignes (comme, 256^3. Dans cet exemple, il est de 64^3).

Le problème est que je ne sais pas pourquoi, mais il semble que les pandas du read_csv toujours ignore la première ligne (première ligne) de la csv txt (fichier, entraînant une moins de données.

voici le code.

from __future__ import division
import numpy as np
import pandas as pd
ngridx = 4
ngridy = 4
ngridz = 4
size = ngridx*ngridy*ngridz
f = np.zeros((size,4))
a = np.arange(size)
f[:, 0] = np.floor_divide(a, ngridy*ngridz)
f[:, 1] = np.fmod(np.floor_divide(a, ngridz), ngridy)
f[:, 2] = np.fmod(a, ngridz)
f[:, 3] = np.random.rand(size)
print f[0]
np.savetxt('Testarray.txt',f,fmt='%6.16f')
g = pd.read_csv('Testarray.txt',delimiter=' ').values
print g[0]
print len(g[:,3])

f[0] et g[0] qui est affichée comme une sortie a pour beaucoup mais il n'a pas, indiquant que les pandas est ignorer la première ligne de la Testarray.txt.
Aussi, la longueur de chargement de fichier g est inférieure à la longueur de la matrice f.

J'ai besoin d'aide.

Merci d'avance.

pourquoi êtes-vous sauver dans numpy et puis la lecture dans les pandas? Il peut être lent, au lieu de convertir le tableau en numpy pour les pandas dataframe puis les écrire dans un fichier csv. Il est beaucoup beaucoup plus rapide.
oh, c'est juste un exemple. Im intéressé par la lecture-Il pas de l'enregistrer. merci!!!!

OriginalL'auteur Tom | 2015-02-07

35

Par défaut, pd.read_csv utilise header=0 (lorsque le names paramètre est pas non spécifiée) ce qui signifie que le premier (c'est à dire 0e-indexé) de la ligne est interprété comme noms de colonne.

Si vos données n'a pas d'en-tête, puis utilisez
```
pd.read_csv(..., header=None)
```
Par exemple,
```
import io
import sys
import pandas as pd
if sys.version_info.major == 3:
    # Python3
    StringIO = io.StringIO 
else:
    # Python2
    StringIO = io.BytesIO

text = '''\
1 2 3
4 5 6
'''

print(pd.read_csv(StringIO(text), sep=' '))
```
Sans header, la première ligne, 1 2 3, définit les noms de colonne:
```
   1  2  3
0  4  5  6
```
Avec header=None, la première ligne est traitée comme données:
```
print(pd.read_csv(StringIO(text), sep=' ', header=None))
```
imprime
```
   0  1  2
0  1  2  3
1  4  5  6
```
oh! ouais! il a travaillé! Il a été source de confusion, que les pandas de la documentation sur read_csv dit que l'en-tête n'est, par défaut, j'ai donc été très confus. après tout, c'était d'en-tête. Je vous remercie beaucoup pour l'aide!
Mais nous ne pouvons pas accéder aux valeurs de dataframes lors de l'itération sur Panda dataframes via iterrows et à l'aide de row[column] pour accéder à la valeur de trames de données.

OriginalL'auteur unutbu
1

Si votre fichier n'a pas une ligne d'en-tête, vous devez dire Pandas en utilisant l'en-tête=None dans votre appel à pd.read_csv().

OriginalL'auteur RustProof Labs

Vous devez vous connecter pour publier un commentaire.