Lire et Écrire des fichiers CSV, y compris unicode avec Python 2.7

Je suis nouveau sur Python, et j'ai une question sur la façon d'utiliser Python pour lire et écrire des fichiers CSV. Mon fichier contient, comme l'Allemagne, le français, etc. Selon mon code, les fichiers peuvent être lus correctement en Python, mais quand je l'écris dans un nouveau fichier CSV, l'unicode devient des personnages étranges.

Les données comme:
Lire et Écrire des fichiers CSV, y compris unicode avec Python 2.7

Et mon code est:

import csv

f=open('xxx.csv','rb')
reader=csv.reader(f)

wt=open('lll.csv','wb')
writer=csv.writer(wt,quoting=csv.QUOTE_ALL)

wt.close()
f.close()

Et le résultat est, comme:
Lire et Écrire des fichiers CSV, y compris unicode avec Python 2.7

Voulez-vous me dire ce que je dois faire pour résoudre le problème? Merci beaucoup!

vous pouvez encoder en base64, pythn a un module pour ça aussi.
J'utilise cette github.com/jdunck/python-unicodecsv
De quelle source et de destination de codage utilisez-vous pour vos fichiers? Unicode est pas un encodage (sauf si vous êtes Microsoft...mais ils signifient vraiment UTF-16LE).
Merci beaucoup! Je voudrais essayer.
Merci beaucoup! J'ai essayé le code dans le lien, mais ça ne fonctionne toujours pas. En fait, tout est très bien lorsque je l'importation de données et imprimer des données en Python. Mais après, je ne les écris dans le nouveau fichier csv, les caractères spéciaux modification chose d'étrange. Avez-vous une idée de ce?
Merci beaucoup! Il semble ne pas faire de changements. En fait, tout est très bien lorsque je l'importation de données et imprimer des données en Python. Mais après, je ne les écris dans le nouveau fichier csv, les caractères spéciaux modification chose d'étrange. Est-il possible d'être causés par les paramètres de langue ou de système informatique? Merci beaucoup!
Êtes-vous sur de Windows? L'encodage que vous utilisez pour les fichiers? De nombreux programmes windows que lire les fichiers UTF-8 comme une NOMENCLATURE de signature au début d'un fichier UTF-8. Utiliser le utf-8-sig d'encodage lors de l'écriture du fichier à s'assurer que l'un est écrit.
essayez "latin1", comme le type de codage lorsque vous ouvrez le fichier ... qui sera très souvent de résoudre le problème lorsque vous traitez avec les langues européennes
Merci beaucoup! Je suis sur Windows. Mais où dois-je spécifier l'encodage utf-8-sig?
Merci de vous répondre. où dois-je changer le type d'encodage?
J'ai mis à jour ma réponse ci-dessous pour utiliser utf-8-sig lors de la lecture ou de l'écriture du fichier à assurer une NOMENCLATURE signature est ajoutée au fichier. Par exemple, si j'ouvre le fichier dans Excel sans BOM, je reçois ç¾Žå›½äºº, mais avec ce que je reçois 美国人.
Merci beaucoup! Ça marche!!!!
Super! Assurez-vous d'accepter une réponse si cela vous aide.

InformationsquelleAutor Ruxuan Ouyang | 2013-06-21

Assurez-vous d'encoder et de décoder comme approprié.

Cet exemple, aller quelques exemple de texte en utf-8 vers un fichier csv et de les renvoyer à démontrer:

# -*- coding: utf-8 -*-
import csv

tests={'German': [u'Straße',u'auslösen',u'zerstören'], 
       'French': [u'français',u'américaine',u'épais'], 
       'Chinese': [u'中國的',u'英語',u'美國人']}

with open('/tmp/utf.csv','w') as fout:
    writer=csv.writer(fout)    
    writer.writerows([tests.keys()])
    for row in zip(*tests.values()):
        row=[s.encode('utf-8') for s in row]
        writer.writerows([row])

with open('/tmp/utf.csv','r') as fin:
    reader=csv.reader(fin)
    for row in reader:
        temp=list(row)
        fmt=u'{:<15}'*len(temp)
        print fmt.format(*[s.decode('utf-8') for s in temp])

Imprime:

German         Chinese        French         
Straße         中國的            français       
auslösen       英語             américaine     
zerstören      美國人            épais

En gros, tant que tout est codé en Unicode, il fonctionne très bien. Merci pour le point de la maison sans un immense mur de code!
Merci beaucoup, c'est vraiment intéressantes! Permettez-moi de voir si j'ai bien compris la façon dont il fonctionne: Même si vous stockez vos chaînes de caractères en Python comme u'Straße', ils sont toujours (les caractères d'échappement) ASCII en interne (u'Stra\xdfe'), de sorte que vous avez à traduire ou à coder tout en UTF-8 (échappé de chaînes de caractères) ('Stra\xc3\x9fe') avant de les écrire sur une codé en UTF-8 fichier?
Non, les chaînes sont représenté en interne comme ils sont codés. Si vous les voyez comme ascii d'échappement, qui est la représentation, au moment ou la façon dont vous avez besoin de les entrer.

InformationsquelleAutor dawg

49

Une autre alternative:

Utiliser le code de la unicodecsv paquet ...

https://pypi.python.org/pypi/unicodecsv/
```
>>> import unicodecsv as csv
>>> from io import BytesIO
>>> f = BytesIO()
>>> w = csv.writer(f, encoding='utf-8')
>>> _ = w.writerow((u'é', u'ñ'))
>>> _ = f.seek(0)
>>> r = csv.reader(f, encoding='utf-8')
>>> next(r) == [u'é', u'ñ']
True
```
Ce module API est compatible avec les STDLIB csv module.
- Merci! C'est la façon simple de le faire.
- unicodecsv était la voie à suivre pour moi
- Cette lib est incroyable.
InformationsquelleAutor Oz123

Il est un exemple à la fin de la csv documentation du module qui montre comment traiter avec Unicode. Ci-dessous est copié directement à partir de ce exemple. Notez que les chaînes de lecture ou d'écriture seront des chaînes Unicode. Ne pas passer une chaîne d'octets à UnicodeWriter.writerows, par exemple.

import csv,codecs,cStringIO
class UTF8Recoder:
def __init__(self, f, encoding):
self.reader = codecs.getreader(encoding)(f)
def __iter__(self):
return self
def next(self):
return self.reader.next().encode("utf-8")
class UnicodeReader:
def __init__(self, f, dialect=csv.excel, encoding="utf-8-sig", **kwds):
f = UTF8Recoder(f, encoding)
self.reader = csv.reader(f, dialect=dialect, **kwds)
def next(self):
'''next() -> unicode
This function reads and returns the next line as a Unicode string.
'''
row = self.reader.next()
return [unicode(s, "utf-8") for s in row]
def __iter__(self):
return self
class UnicodeWriter:
def __init__(self, f, dialect=csv.excel, encoding="utf-8-sig", **kwds):
self.queue = cStringIO.StringIO()
self.writer = csv.writer(self.queue, dialect=dialect, **kwds)
self.stream = f
self.encoder = codecs.getincrementalencoder(encoding)()
def writerow(self, row):
'''writerow(unicode) -> None
This function takes a Unicode string and encodes it to the output.
'''
self.writer.writerow([s.encode("utf-8") for s in row])
data = self.queue.getvalue()
data = data.decode("utf-8")
data = self.encoder.encode(data)
self.stream.write(data)
self.queue.truncate(0)
def writerows(self, rows):
for row in rows:
self.writerow(row)
with open('xxx.csv','rb') as fin, open('lll.csv','wb') as fout:
reader = UnicodeReader(fin)
writer = UnicodeWriter(fout,quoting=csv.QUOTE_ALL)
for line in reader:
writer.writerow(line)

D'entrée (UTF-8):

American,美国人
French,法国人
German,德国人

De sortie:

"American","美国人"
"French","法国人"
"German","德国人"

Je suis encore en train UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal not in range(128) sur self.writer.writerow([s.encode("utf-8") for s in row]) cette ligne. S'il vous plaît suggérer?
cette ligne est l'encodage mais l'erreur est UnicodeDecodeError. Cela implique que s n'était pas Unicode pour commencer, de sorte que Python 2.X est du décodage Unicode à l'aide de la valeur par défaut ascii codec. Assurez-vous que vous êtes de passage des chaînes Unicode pour UnicodeWriter.
Oui, oui, c'était exactement la raison. J'ai réussi à résoudre ce par ce lien. stackoverflow.com/a/22734072/534790 Merci! Pouvez vous s'il vous plaît mise à jour de la réponse au cas où quelqu'un d'autre face à ce même problème?

InformationsquelleAutor Mark Tolonen

Parce que str en python2 est bytes en fait. Donc, si vous voulez écrire unicode au format csv, vous devez coder unicode à str à l'aide de utf-8 encodage.

def py2_unicode_to_str(u):
# unicode is only exist in python2
assert isinstance(u, unicode)
return u.encode('utf-8')

Utilisation class csv.DictWriter(csvfile, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds):

py2
- La csvfile: open(fp, 'w')
- de clé et de la valeur dans bytes qui sont codés avec utf-8
  - writer.writerow({py2_unicode_to_str(k): py2_unicode_to_str(v) for k,v in row.items()})
py3
- La csvfile: open(fp, 'w')
- pass normal dict contient str comme row à writer.writerow(row)

Enfin code

import sys
is_py2 = sys.version_info[0] == 2
def py2_unicode_to_str(u):
# unicode is only exist in python2
assert isinstance(u, unicode)
return u.encode('utf-8')
with open('file.csv', 'w') as f:
if is_py2:
data = {u'Python中国': u'Python中国', u'Python中国2': u'Python中国2'}
# just one more line to handle this
data = {py2_unicode_to_str(k): py2_unicode_to_str(v) for k, v in data.items()}
fields = list(data[0])
writer = csv.DictWriter(f, fieldnames=fields)
for row in data:
writer.writerow(row)
else:
data = {'Python中国': 'Python中国', 'Python中国2': 'Python中国2'}
fields = list(data[0])
writer = csv.DictWriter(f, fieldnames=fields)
for row in data:
writer.writerow(row)

Conclusion

En python3, il suffit d'utiliser l'unicode str.

En python2, utilisez unicode manipuler du texte, utilisez str lors de l'I/O se produit.

InformationsquelleAutor weaming

J'ai eu le même problème. La réponse est que vous êtes en train de faire déjà. C'est le problème de MS Excel. Essayez d'ouvrir le fichier avec un autre éditeur et vous remarquerez que votre encodage est déjà réussie. Pour faire de MS Excel heureux, passer de l'UTF-8, UTF-16. Cela devrait fonctionner:

class UnicodeWriter:
def __init__(self, f, dialect=csv.excel_tab, encoding="utf-16", **kwds):
# Redirect output to a queue
self.queue = StringIO.StringIO()
self.writer = csv.writer(self.queue, dialect=dialect, **kwds)
self.stream = f
# Force BOM
if encoding=="utf-16":
import codecs
f.write(codecs.BOM_UTF16)
self.encoding = encoding
def writerow(self, row):
# Modified from original: now using unicode(s) to deal with e.g. ints
self.writer.writerow([unicode(s).encode("utf-8") for s in row])
# Fetch UTF-8 output from the queue ...
data = self.queue.getvalue()
data = data.decode("utf-8")
# ... and reencode it into the target encoding
data = data.encode(self.encoding)
# strip BOM
if self.encoding == "utf-16":
data = data[2:]
# write to the target stream
self.stream.write(data)
# empty queue
self.queue.truncate(0)
def writerows(self, rows):
for row in rows:
self.writerow(row)

InformationsquelleAutor tozCSS

Je ne pouvais pas répondre à la Marque au-dessus, mais je viens de faire une modification qui a corrigé l'erreur qui a été causé si les données dans les cellules n'était pas unicode, c'est à dire à flotteur ou de données int. J'ai remplacé cette ligne dans le UnicodeWriter fonction: "l'auto.de l'écrivain.writerow([s.encode("utf-8") if type(s)==types.UnicodeType d'autre s pour s en ligne])", de sorte qu'il est devenu:

class UnicodeWriter:
def __init__(self, f, dialect=csv.excel, encoding="utf-8-sig", **kwds):
self.queue = cStringIO.StringIO()
self.writer = csv.writer(self.queue, dialect=dialect, **kwds)
self.stream = f
self.encoder = codecs.getincrementalencoder(encoding)()
def writerow(self, row):
'''writerow(unicode) -> None
This function takes a Unicode string and encodes it to the output.
'''
self.writer.writerow([s.encode("utf-8") if type(s)==types.UnicodeType else s for s in row])
data = self.queue.getvalue()
data = data.decode("utf-8")
data = self.encoder.encode(data)
self.stream.write(data)
self.queue.truncate(0)
def writerows(self, rows):
for row in rows:
self.writerow(row)

Vous aurez également besoin d'importer des types".

InformationsquelleAutor Joe S

Vous devez vous connecter pour publier un commentaire.