Comment convertir une chaîne de caractères utf-8 en Python

J'ai un navigateur qui envoie les caractères utf-8 pour mon Python serveur, mais quand je l'ai récupérer à partir de la chaîne de requête, le codage Python renvoie ASCII. Comment puis-je convertir la plaine de la chaîne utf-8?

REMARQUE: La chaîne de caractères passée à partir du web est déjà codé en UTF-8, je veux juste faire de Python de la traiter comme UTF-8, non ASCII.

Essayez ce lien http://evanjones.ca/python-utf8.html
Je pense qu'un meilleur titre serait Comment forcer une chaîne de caractères au format unicode sans traduction?
En 2018, python 3 si vous obtenez ascii erreur de décodage ne "some_string".encode('utf-8').decode('utf-8')

InformationsquelleAutor Bin Chen | 2010-11-15

238
```
>>> plain_string = "Hi!"
>>> unicode_string = u"Hi!"
>>> type(plain_string), type(unicode_string)
(<type 'str'>, <type 'unicode'>)
```
^ C'est la différence entre une chaîne d'octets (plain_string) et une chaîne unicode.
```
>>> s = "Hello!"
>>> u = unicode(s, "utf-8")
```
^ Conversion en unicode et en spécifiant l'encodage.
- J'obtiens l'erreur suivante: UnicodeDecodeError: 'utf8' codec can't decode byte 0xb0 in position 2: invalid start byte C'est mon code: ret=[] pour la ligne à csvReader: cline=[] pour elm en ligne: unicodestr = unicode(elm, 'utf-8') cline.append(unicodestr) ret.append(cline)
- Rien de tout cela s'applique en Python 3, toutes les chaînes de caractères unicode et unicode() n'existe pas.
- Type de cogner, mais merci. Cette correction d'un problème où j'essayais d'imprimer unicode et se �s.
- Comment vous convertir u retour à un str (format convertir u retour à s)?
- u'abcd'.encode('utf-8')
- Ce code ne fonctionnera tant que le texte ne contient pas de caractères non-ascii; un simple caractère accentué sur la corde pour le faire échouer.
InformationsquelleAutor user225312
65

Si les méthodes ci-dessus ne fonctionnent pas, vous pouvez également indiquer à Python d'ignorer les parties d'une chaîne qu'il ne peut pas convertir en utf-8:
```
stringnamehere.decode('utf-8', 'ignore')
```
- Obtenu AttributeError: 'str' object n'a pas d'attribut "décoder"
- il semble que vous êtes à l'aide de Python 3, dans ce cas Python doit gérer les problèmes d'encodage pour vous. Avez-vous essayé la lecture de votre document sans spécifier un encodage?
InformationsquelleAutor duhaime
19

Peut-être un peu exagéré, mais quand je travaille avec de l'ascii et unicode dans les mêmes fichiers, répéter de décodage peut être une douleur, c'est ce que j'utilise:
```
def make_unicode(input):
    if type(input) != unicode:
        input =  input.decode('utf-8')
        return input
    else:
        return input
```
InformationsquelleAutor Blueswannabe
13

Si je vous comprends bien, vous avez une codé en utf-8 octets chaîne de caractères dans votre code.

De la conversion d'un octet-chaîne d'une chaîne unicode est connu que le décodage (unicode -> byte-chaîne est de l'encodage).

Vous le faire en utilisant le unicode fonction ou de la décoder méthode. Soit:
```
unicodestr = unicode(bytestr, encoding)
unicodestr = unicode(bytestr, "utf-8")
```
Ou:
```
unicodestr = bytestr.decode(encoding)
unicodestr = bytestr.decode("utf-8")
```
InformationsquelleAutor codeape
13

Ajoutant la ligne suivante au début de votre .py fichier:
```
# -*- coding: utf-8 -*-
```
vous permet d'encoder les chaînes directement dans votre script, comme ceci:
```
utfstr = "ボールト"
```
- Ce n'est pas ce que l'OP demande. Mais éviter de telles littéraux de chaîne de toute façon. Il crée chaîne Unicode en Python 3 (bonnes) mais c'est un bytestring en Python 2 (mauvais). Ajouter from __future__ import unicode_literals en haut ou de l'utilisation u'' préfixe. N'utilisez pas de caractères non-ascii dans bytes littéraux. Pour obtenir octets utf-8, vous pouvez utf8bytes = unicode_text.encode('utf-8') plus tard si c'est nécessaire.
- comment from __future__ import unicode_literals m'aider à convertir une chaîne de caractères avec des caractères non ascii, utf-8?
- Je ne suis pas répondre à la question. Regardez, c'est un commentaire, pas une réponse. Mon commentaire porte sur la question avec le code dans la réponse. Il essaie de créer un bytestring avec des caractères non-ascii sur Python 2 (c'est un SyntaxError sur Python 3 — octets littéraux l'interdisent).
InformationsquelleAutor Ken

city = 'Ribeir\xc3\xa3o Preto'
print city.decode('cp1252').encode('utf-8')

InformationsquelleAutor Willem

6

En Python 3.6, ils n'ont pas intégré dans unicode() la méthode.
Les chaînes sont déjà stockées au format unicode par défaut et aucune conversion n'est nécessaire. Exemple:
```
my_str = "\u221a25"
print(my_str)
>>> √25
```
InformationsquelleAutor Zld Productions
3

Traduire avec ord() et unichar().
Chaque char unicode ont un certain nombre associées, quelque chose comme un indice. Donc, Python ont quelques méthodes pour traduire entre un char et de son numéro. La baisse ñ exemple. J'espère que ça peut aider.
```
>>> C = 'ñ'
>>> U = C.decode('utf8')
>>> U
u'\xf1'
>>> ord(U)
241
>>> unichr(241)
u'\xf1'
>>> print unichr(241).encode('utf8')
ñ
```
InformationsquelleAutor Joe9008

Vous devez vous connecter pour publier un commentaire.