Python lecture à partir d'un fichier et d'économie de l'utf-8

Je vais avoir des problèmes de lecture à partir d'un fichier, le traitement de la corde et de l'enregistrement dans un Fichier UTF-8.

Voici le code:

try:
    filehandle = open(filename,"r")
except:
    print("Could not open file " + filename)
    quit() 

text = filehandle.read()
filehandle.close()

Je puis faire un peu de traitement sur le texte d'une variable.

Et puis

try:
    writer = open(output,"w")
except:
    print("Could not open file " + output)
    quit() 

#data = text.decode("iso 8859-15")    
#writer.write(data.encode("UTF-8"))
writer.write(text)
writer.close()

Cette sortie du fichier à merveille, mais il le fait dans la norme iso 8859-15 selon mon éditeur. Depuis le même éditeur reconnaît le fichier d'entrée (dans la variable nom de fichier) en UTF-8 je ne sais pas pourquoi c'est arrivé. En ce qui concerne ma recherche a montré les lignes commentées devrait résoudre le problème. Cependant quand j'utilise ces lignes, le fichier résultant est du charabia à caractère spécial, principalement, les mots avec un tilde que le texte est en espagnol. Je voudrais vraiment apprécier l'aide que je suis perplexe....

L'éditeur est-ce? Qui version de python? De là, ce code semble être tout à fait valable, et doit fonctionner comme prévu ...
Kate est l'éditeur. La sortie de python --version Python 2.7.5+
J'ai testé votre code avec 2.6.8, 2.7.5+ et 3.3.2+ tout fonctionne bien. Pourriez-vous donner quelques exemple d'entrée?
Depuis, le texte a été transformé en raw octets de l'invisible code de traitement probablement foiré le codage UTF8.
J'aimerais donner un exemple de fichier cependant je ne peux pas trouver un moyen de téléchargé ici...
J'ai commenté tous mes invisibles code cependant l'erreur reste. C'était une bonne idée...
Ok. Je l'ai résolu. Il a surtout été de ma faute, désolé tout le monde. Voici ce qui s'est passé. Le code fourni par @MarkTolonen travaillé si je change d'iso-8859-15 au lieu de utf-8 lors de l'ouverture du fichier. Cependant, comme mon éditeur mis à jour le fichier à partir de la mémoire ayant déjà chargé l'ancien codage il m'a montré le charabia. Quand j'ai ouvert le fichier à nouveau, il me l'a montrée très bien. Merci à tous et désolé pour la peine!!!

InformationsquelleAutor aarelovich | 2013-10-25

159

Processus de texte et en Unicode à l'I/O limites de votre programme à l'aide de la codecs module:
```
import codecs
with codecs.open(filename, 'r', encoding='utf8') as f:
    text = f.read()
# process Unicode text
with codecs.open(filename, 'w', encoding='utf8') as f:
    f.write(text)
```
Edit: La io module est maintenant recommandé au lieu de codecs et est compatible avec Python 3 open syntaxe:
```
import io
with io.open(filename, 'r', encoding='utf8') as f:
    text = f.read()
# process Unicode text
with io.open(filename, 'w', encoding='utf8') as f:
    f.write(text)
```
- J'ai fait exactement ce que vous m'avez dit. Même erreur qu'avec la suggestion d'autres
- J'ai réussi à le faire fonctionner. Le problème était le fichier d'origine était en iso-8859-15
- vous devrez peut-être passer errors=ignore ou errors=replace à open() ... si vous ne connaissez pas l'encodage du fichier. 🙂
- Ne fonctionne pas avec la chaîne "présenté alloué ééé ààà tué"
- Je suppose que vous êtes la récente baisse de l'électeur. Vous n'avez qu'à écrire la chaîne de caractères dans un fichier et de spécifier l'encodage utilisé, qui peut ne pas être en UTF8.
- Iv e enregistré dans un fichier et l'ouvre et qu'il n'affiche pas les caractères comme il se doit. La phrase que j'ai écrit est en utf-8.
- Poser une question et de montrer votre code exact exemple, la façon dont vous avez écrit le fichier, comment vous le lire, et comment vous les afficher. Si c'est de l'afficher de manière incorrecte, l'une de ces étapes est d'utiliser le mauvais encodage.
- href="http://stackoverflow.com/questions/42109285/special-caracters-dont-display-correctly-when-splitting" title="les caractères spéciaux ne pas s'afficher correctement lors de la découpe">stackoverflow.com/questions/42109285/...
- Pour ceux qui viennent à la présente, veuillez noter que pour Python3 open() et io,open() sont les mêmes. Utilisez simplement open(). Consultez l'aide ("ouvrir") et vous verrez que c'est la même chose que io.open() - même le titre le dit de l'Aide sur la fonction intégrée d'ouvrir dans le module io.
- D'où le "est compatible avec Python 3 est ouvert" de la déclaration. io.open travaille avec à la fois ce est portable entre les deux.
- Je ne peux pas vous remercier assez! M'a sauvé lors de la conversion de ma collègue, ancien fichier DOS en ibm852 en utf8.
- Je suppose que ce serait inutilement redondant à écrire f.write(text.encode('utf-8')) compte tenu de la encoding='utf8' paramètre dans io.open(), droit?
- Il également ne pas travailler. io.open s'attend à des chaînes Unicode pour être écrit, pas de chaînes d'octets. Il ne l'encodage de la déclaration de l'encodage.
- Correction, il ne fonctionnera pas sur Python 3. Python 2 permettra de convertir implicitement l'octet chaîne Unicode à l'aide de la valeur par défaut ascii codec, donc il fonctionnera tant que la chaîne n'est ASCII. C'est pourquoi Python 3 a changé...il empêche "il travaillera parfois", ce qui est un bug assez ennuyeux à la piste vers le bas.
- merci! peut faire cette question - je pense que c'est important que suffisamment de détails pour ne pas la laisser dans les commentaires.
- je crois que vous pouvez simplement utiliser with open maintenant
- Oui, en Python 3, mais cette question a été marqué python-2.7.
- ahhh ok je viens de stsumbled sur cette réponse de recherche de google
- Si la lecture de fichier iso est pas en utf8?
- Utiliser le connu de l'encodage du fichier. UTF-8 est juste un exemple.
InformationsquelleAutor Mark Tolonen
7

Vous pouvez également passer par le code ci-dessous:
```
file=open(completefilepath,'r',encoding='utf8',errors="ignore")
file.read()
```
InformationsquelleAutor Siva Kumar
4

Vous ne pouvez pas le faire à l'aide de l'ouvrir. utiliser des codecs.

lorsque vous ouvrez un fichier en python à l'aide de la fonction intégrée vous permettra de toujours lire/écrire le fichier en ascii. Pour l'écrire en utf-8, essayez ceci:
```
import codecs
file = codecs.open('data.txt','w','utf-8')
```
- Essayé et j'ai eu une erreur: UnicodeDecodeError: 'utf8' codec ne peut pas décoder les octets 0xe9 en position 57: défaillance de la poursuite de l'octet
- Êtes-vous économiser avec l'utf-8 encoder? regardez, si vous êtes en train de lire à partir d'un autre fichier ascii, vous avez à le décoder en premier.
- Le code est comme vous le voyez. Ce que j'ai fait est remplacé la ligne writer = open(sortie, "w") avec l'écrivain = codecs.open(sortie,'w','utf-8') et qui m'a fait cette erreur
- mais pourquoi le décoder et encoder sont commentés?
InformationsquelleAutor Fernando Freitas Alves

Vous devez vous connecter pour publier un commentaire.