python pandas read_csv délimiteur dans la colonne de données

Je vais avoir ce type de fichier CSV:

12012;My Name is Mike. What is your's?;3;0 
1522;In my opinion: It's cool; or at least not bad;4;0
21427;Hello. I like this feature!;5;1

Je veux obtenir ces données dans da pandas.DataFrame.
Mais read_csv(sep=";") lève des exceptions en raison de la point-virgule à l'utilisateur de générer un message de la colonne dans la ligne 2 (À mon avis: C'est cool; ou au moins pas mal). Toutes les autres colonnes constamment numérique dtypes.

Quelle est la méthode la plus pratique pour gérer cela?

Pouvez-vous expliquer plus sur votre problème? quelle est votre sortie attendue?
mon intention est d'analyser ce csv des données dans un DataFrame. Mais il jette une exception, car il y a un point-virgule dans une colonne et les pandas pense qu'il doit le diviser en deux colonnes.
Qui est la production de ces ambiguë fichiers et est-il possible de remuer ciel et terre pour obtenir sain d'esprit?

OriginalL'auteur Thomas Pazur | 2015-06-17

Traiter avec des sociétés non cotées délimiteurs est toujours une nuisance. Dans ce cas, puisqu'il ressemble cassé le texte est connu pour être entouré par trois correctement codé colonnes, nous pouvons récupérer. TBH, je venais d'utiliser le standard de Python lecteur et de construire un DataFrame la fois à partir de:

import csv
import pandas as pd

with open("semi.dat", "r", newline="") as fp:
    reader = csv.reader(fp, delimiter=";")
    rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader] 
    df = pd.DataFrame(rows)

qui produit

       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

Ensuite, nous pouvons immédiatement enregistrer et obtenir quelque chose de la cité correctement:

In [67]: df.to_csv("fixedsemi.dat", sep=";", header=None, index=False)

In [68]: more fixedsemi.dat
12012;My Name is Mike. What is your's?;3;0
1522;"In my opinion: It's cool; or at least not bad";4;0
21427;Hello. I like this feature!;5;1

In [69]: df2 = pd.read_csv("fixedsemi.dat", sep=";", header=None)

In [70]: df2
Out[70]: 
       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

Fonctionne très bien. C'est une belle solution de contournement. Merci! De toute façon , il est un moyen de s'accrocher dans les pandas et l'analyseur de faire la scission et de la joindre à des trucs "à la volée" ?

OriginalL'auteur DSM

Vous devez vous connecter pour publier un commentaire.