pandas.read_csv: comment ignorer les lignes de commentaire

Je pense que j'ai mal compris l'intention de read_csv. Si j'ai un fichier " j " comme

# notes
a,b,c
# more notes
1,2,3

Comment puis-je pandas.read_csv ce fichier, en ignorant toutes les '#', a commenté les lignes? Je vois dans l'aide "commentaire" de lignes n'est pas pris en charge, mais il indique une ligne vide doit être retourné. Je vois une erreur

df = pandas.read_csv('j', comment='#')

CParserError: Erreur de segmentation des données. C erreur: Attendu 1 les champs de la ligne 2, saw 3

Je suis actuellement sur

In [15]: pandas.__version__
Out[15]: '0.12.0rc1'

Sur la version 0.12.0-199-g4c8ad82':

In [43]: df = pandas.read_csv('j', comment='#', header=None)

CParserError: Erreur de segmentation des données. C erreur: Attendu 1 les champs de la ligne 2, saw 3

source d'informationauteur mathtick | 2013-08-21

pandas python

19

Je crois donc que dans les dernières versions des pandas (version 0.16.0), vous pouvez jeter dans le comment='#' paramètre dans pd.read_csv et cela doit passer en commentaire les lignes.

Ces github questions montre que vous pouvez le faire:
- https://github.com/pydata/pandas/issues/10548
- https://github.com/pydata/pandas/issues/4623
Voir la documentation sur les read_csv: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Une solution de contournement consiste à spécifier skiprows d'ignorer les quelques premières entrées:

In [11]: s = '# notes\na,b,c\n# more notes\n1,2,3'

In [12]: pd.read_csv(StringIO(s), sep=',', comment='#', skiprows=1)
Out[12]: 
    a   b   c
0 NaN NaN NaN
1   1   2   3

Sinon read_csv devient un peu confus:

In [13]: pd.read_csv(StringIO(s), sep=',', comment='#')
Out[13]: 
        Unnamed: 0
a   b            c
NaN NaN        NaN
1   2            3

Cela semble être le cas dans 0.12.0, j'ai déposé un rapport de bogue.

Comme Viktor points, vous pouvez utiliser dropna pour supprimer le NaN après le fait... (il y a un récente de problème d'avoir des lignes commentées être complètement ignoré):

In [14]: pd.read_csv(StringIO(s2), comment='#', sep=',').dropna(how='all')
Out[14]: 
   a  b  c
1  1  2  3

Remarque: par défaut, l'indice de "donner" le fait, il y avait des données manquantes.

2

Je suis sur les Pandas version 0.13.1 et ce commentaires-en-csv problème me tracasse toujours.

Voici ma solution:
```
def read_csv(filename, comment='#', sep=','):
    lines = "".join([line for line in open(filename) 
                     if not line.startswith(comment)])
    return pd.read_csv(StringIO(lines), sep=sep)
```
Autrement avec pd.read_csv(filename, comment='#') - je obtenir

pandas.analyseur.CParserError: Erreur de segmentation des données. C erreur: 1 Attendu champs à la ligne 16, vu 3.

Vous devez vous connecter pour publier un commentaire.