UnicodeDecodeError: 'ascii' codec ne peut pas décoder les

Je suis en train de lire un fichier qui contient roumain mots en Python, avec fichier.readline().
J'ai des problème avec le nombre de caractères à cause de l'encodage.

Exemple :

>>> a = "aberație"  #type 'str'
>>> a -> 'abera\xc8\x9bie'
>>> print sys.stdin.encoding
UTF-8

J'ai essayé de coder() avec l'encodage utf-8, cp500, etc, mais il ne fonctionne pas.

Je ne trouve pas ce qui est le droit de codage de Caractères-je utiliser ?

merci d'avance.

Edit: Le but est de stocker le mot à partir d'un fichier dans un dictionnaire, et lors de l'impression, afin d'obtenir aberație et non pas "abera\xc8\x9bie'

OriginalL'auteur lilawood | 2011-06-30

15

Qu'essayez-vous de faire?

C'est un ensemble d'octets:
```
BYTES = 'abera\xc8\x9bie'
```
C'est un ensemble d'octets qui représente un utf-8 l'encodage de la chaîne "aberație". Vous décoder les octets pour obtenir votre chaîne unicode:
```
>>> BYTES 
'abera\xc8\x9bie'
>>> print BYTES 
aberaÈ›ie
>>> abberation = BYTES.decode('utf-8')
>>> abberation 
u'abera\u021bie'
>>> print abberation 
aberație
```
Si vous souhaitez stocker la chaîne unicode dans un fichier, alors vous avez à encoder à un particulier octet au format de votre choix:
```
>>> abberation.encode('utf-8')
'abera\xc8\x9bie'
>>> abberation.encode('utf-16')
'\xff\xfea\x00b\x00e\x00r\x00a\x00\x1b\x02i\x00e\x00'
```
OriginalL'auteur Claudiu

Vous devez vous connecter pour publier un commentaire.