Pandas read_csv attend un nombre de colonnes incorrect, avec un fichier CSV irrégulier

J'ai un fichier csv qui a quelques centaines de lignes et de 26 colonnes, mais les quelques dernières colonnes seulement une valeur en quelques lignes et ils sont vers le milieu ou la fin du fichier. Quand j'essaie de le lire en utilisant read_csv() j'obtiens l'erreur suivante.
"ValueError: Attend à 23 colonnes, a obtenu 26 dans la ligne 64"

Je ne peux pas voir où à indiquer le nombre de colonnes dans le fichier, ou la façon dont il détermine le nombre de colonnes qu'il pense que le fichier doit avoir.
Le cliché ci-dessous

In [3]:
infile =open(easygui.fileopenbox(),"r")
pledge = read_csv(infile,parse_dates='true')
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-b35e7a16b389> in <module>()
1 infile =open(easygui.fileopenbox(),"r")
2 
----> 3 pledge = read_csv(infile,parse_dates='true')
C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in read_csv(filepath_or_buffer, sep, dialect, header, index_col, names, skiprows, na_values, thousands, comment, parse_dates, keep_date_col, dayfirst, date_parser, nrows, iterator, chunksize, skip_footer, converters, verbose, delimiter, encoding, squeeze)
234         kwds['delimiter'] = sep
235 
--> 236     return _read(TextParser, filepath_or_buffer, kwds)
237 
238 @Appender(_read_table_doc)
C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in _read(cls, filepath_or_buffer, kwds)
189         return parser
190 
--> 191     return parser.get_chunk()
192 
193 @Appender(_read_csv_doc)
C:\Python27\lib\site-packages\pandas-0.8.1-py2.7-win32.egg\pandas\io\parsers.pyc in get_chunk(self, rows)
779             msg = ('Expecting %d columns, got %d in row %d' %
780                    (col_len, zip_len, row_num))
--> 781             raise ValueError(msg)
782 
783         data = dict((k, v) for k, v in izip(self.columns, zipped_content))
ValueError: Expecting 23 columns, got 26 in row 64

source d'informationauteur chrisfs

Vous pouvez utiliser names paramètre. Par exemple, si vous avez fichier csv comme ceci:

1,2,1
2,3,4,2,3
1,2,3,3
1,2,3,4,5,6

Et essaie de le lire, vous recevez l'erreur

>>> pd.read_csv(r'D:/Temp/tt.csv')
Traceback (most recent call last):
...
Expected 5 fields in line 4, saw 6

Mais si vous passez names paramètres, vous obtiendrez le résultat:

>>> pd.read_csv(r'D:/Temp/tt.csv', names=list('abcdef'))
a  b  c   d   e   f
0  1  2  1 NaN NaN NaN
1  2  3  4   2   3 NaN
2  1  2  3   3 NaN NaN
3  1  2  3   4   5   6

Espère que cela aide.

4

vous pouvez également charger un fichier CSV avec séparateur '^', à la charge de l'ensemble de la chaîne de caractères à une colonne, puis utiliser split pour briser la chaîne en obligatoire des délimiteurs. Après cela, vous faites un concat à fusionner avec l'original dataframe (si nécessaire).
```
temp=pd.read_csv('test.csv',sep='^',header=None,prefix='X')
temp2=temp.X0.str.split(',',expand=True)
del temp['X0']
temp=pd.concat([temp,temp2],axis=1)
```

Supposons que vous avez un fichier comme ceci:

a,b,c
1,2,3
1,2,3,4

Vous pouvez utiliser csv.reader pour nettoyer d'abord le fichier,

lines=list(csv.reader(open('file.csv')))    
header, values = lines[0], lines[1:]    
data = {h:v for h,v in zip (header, zip(*values))}

et obtenez:

{'a' : ('1','1'), 'b': ('2','2'), 'c': ('3', '3')}

Si vous n'avez pas d'en-tête, vous pouvez utiliser:

data = {h:v for h,v in zip (str(xrange(number_of_columns)), zip(*values))}

et ensuite, vous pouvez convertir dictionnaire dataframe avec

import pandas as pd
df = pd.DataFrame.from_dict(data)

0

Le problème avec la solution donnée est que vous devez connaître le nombre maximal de colonnes nécessaires. Je ne pouvais pas trouver une fonction directe de ce problème, mais vous pouvez certainement écrire un def qui peut:
1. lire toutes les lignes
2. diviser
3. compter le nombre de mots/d'éléments dans chaque ligne
4. store le nombre maximum de mots/éléments
5. place que la valeur max dans le nom de l'option (comme suggéré par Romain Pekar)
Ici est la def (fonction) que j'ai écrit pour mes fichiers:
```
def ragged_csv(filename):
f=open(filename)
max_n=0
for line in f.readlines():
words = len(line.split(' '))
if words > max_n:
max_n=words
lines=pd.read_csv(filename,sep=' ',names=range(max_n))
return lines
```

Vous devez vous connecter pour publier un commentaire.