UnicodeDecodeError: 'ascii' codec ne peut pas décoder les octets 0xc3 en position 23: ordinal pas in range(128)

quand j'essaie de les concaténer ceci, j'obtiens le UnicodeDecodeError lorsque le champ contient " ñ " ou ". Si le champ qui contient le " ñ " ou " est la dernière je n'obtiens pas d'erreur.

#...

nombre = fabrica
nombre = nombre.encode("utf-8") + '-' + sector.encode("utf-8")
nombre = nombre.encode("utf-8") + '-' + unidad.encode("utf-8")

#...

return nombre

une idée? Merci beaucoup!

Double Possible de Python - 'ascii' codec ne peut pas décoder les octets

InformationsquelleAutor Capens | 2014-06-29

54

L'encodage en UTF-8, puis re-le codage UTF-8. Python ne peut le faire que si d'abord décode de nouveau à l'Unicode, mais il doit utiliser la valeur par défaut ASCII codec:
```
>>> u'ñ'
u'\xf1'
>>> u'ñ'.encode('utf8')
'\xc3\xb1'
>>> u'ñ'.encode('utf8').encode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
```
Ne gardez pas l'encodage; laisser le codage UTF-8 au dernier moment possible à la place. Concaténer des valeurs Unicode à la place.

Vous pouvez utiliser str.join() (ou, plutôt, unicode.join()) ici pour concaténer les trois valeurs avec des tirets entre les deux: le
```
nombre = u'-'.join(fabrica, sector, unidad)
return nombre.encode('utf-8')
```
mais même encodage ici, peut-être trop tôt.

Règle de base: décoder le moment où vous recevez la valeur (si ce n'est de l'Unicode des valeurs fournies par l'API déjà), coder uniquement lorsque vous disposez d' (si la destination de l'API ne gère pas l'Unicode des valeurs directement).
- Je pense que la règle d'or ici est le point clé. Il pourrait être libellée - "coder et décoder uniquement sur les limites de l'API, et seulement si vous avez d'".
- Merci pour cette réponse. A se taper la tête contre ce que je croyais être un "simple" convertir... et votre remarque à propos de double codage a été sur place.
InformationsquelleAutor Martijn Pieters
7

Lorsque vous obtenez une UnicodeEncodeError, cela signifie que quelque part dans votre code, vous convertir directement une chaîne d'octets à une unicode un. Par défaut en Python 2, il utilise le codage ascii, et l'encodage utf8 dans Python3 (les deux peuvent échouer parce que pas chaque octet est valable dans les deux encodage)

Pour éviter cela, vous devez utiliser explicite de décodage.

Si vous pouvez avoir 2 codage différent dans votre fichier d'entrée, l'un d'eux accepte n'importe quel octet (dire UTF8 et Latin1), vous pouvez essayer d'abord de convertir une chaîne de caractères avec la première et utiliser la seconde si un UnicodeDecodeError se produit.
```
def robust_decode(bs):
    '''Takes a byte string as param and convert it into a unicode one.
First tries UTF8, and fallback to Latin1 if it fails'''
    cr = None
    try:
        cr = bs.decode('utf8')
    except UnicodeDecodeError:
        cr = bs.decode('latin1')
    return cr
```
Si vous ne savez pas de codage d'origine et ne se soucient pas pour les non caractères ascii, vous pouvez définir l'option errors paramètre de la decode méthode pour replace. Toute récidive octet sera remplacé (à partir de la norme de documentation de la bibliothèque):

Remplacer, avec un caractère de remplacement; Python officiel U+FFFD CARACTÈRE de REMPLACEMENT pour les haut-Unicode codecs sur le décodage et ‘?’ à l'encodage.
```
bs.decode(errors='replace')
```
- Ce n'est pas directement une réponse à la présente question, mais à que l'on, qui a été fermé comme un doublon. Au moins elle est liée à cause d'un UnicodeDecodeError et les utilisateurs à la recherche de l'erreur trouverez cette réponse...
- La fonction ci-dessus résolu mon problème \o/
InformationsquelleAutor Serge Ballesta
1

J'ai été faire cette erreur lors de l'exécution en python3,j'ai eu le même programme de travail simplement en cours d'exécution dans python2

InformationsquelleAutor Jose Kj

Vous devez vous connecter pour publier un commentaire.