La conversion de chaîne d'octets en chaîne unicode

J'ai un code tel que:

a = "\u0432"
b = u"\u0432"
c = b"\u0432"
d = c.decode('utf8')

print(type(a), a)
print(type(b), b)
print(type(c), c)
print(type(d), d)

Et de sortie:

<class 'str'> в
<class 'str'> в
<class 'bytes'> b'\\u0432'
<class 'str'> \u0432

Pourquoi, dans ce dernier cas, je vois un code de caractère, à la place du personnage?
Comment je peux transformer les Octets chaîne chaîne Unicode dans le cas d'une sortie j'ai vu le personnage, au lieu de son code?

InformationsquelleAutor Alex T | 2012-12-12

43

Dans des chaînes de caractères (Unicode ou des objets en Python 2), \u a une signification particulière, à savoir en disant: "voici un caractère Unicode spécifié par Unicode ID". Donc u"\u0432" entraînera le caractère в.

La b'' préfixe vous dit c'est une séquence d'octets de 8 bits et les octets de l'objet n'a pas de caractères Unicode, de sorte que le \u code n'a pas de signification particulière. Par conséquent, b"\u0432" est juste l'ordre des octets \,u,0,4,3 et 2.

Essentiellement, vous avez un 8-bit chaîne de caractères contenant pas de caractères Unicode, mais la spécification d'un caractère Unicode.

Vous pouvez convertir cette spécification à l'aide de l'échappement unicode codeur.
```
>>> c.decode('unicode_escape')
'в'
```
- Cela fonctionne très bien pour moi. Je vous remercie.
- face à ce problème en travaillant avec redis jeux et essayer de les convertir en json. Redis renvoie un ensemble d'octets de données. à l'aide de unicode_escape a parfaitement fonctionné
InformationsquelleAutor Lennart Regebro

Aimé Lennart réponse. Il m'a mis sur la bonne voie pour résoudre le problème particulier que j'avais rencontrés. Ce que j'ai ajouté a la capacité de produire de l'html-code compatible pour \u???? les spécifications dans les chaînes. Fondamentalement, une seule ligne est nécessaire: l'

results = results.replace('\\u','&#x')

Tout cela est venu à propos d'un besoin de se convertir en JSON résultats pour quelque chose qui s'affiche bien dans un navigateur. Voici un code de test, qui est intégré à une application en nuage:

# References:
# http://stackoverflow.com/questions/9746303/how-do-i-send-a-post-request-as-a-json
# https://docs.python.org/3/library/http.client.html
# http://docs.python-requests.org/en/v0.10.7/user/quickstart/#custom-headers
# http://stackoverflow.com/questions/606191/convert-bytes-to-a-python-string
# http://www.w3schools.com/charsets/ref_utf_punctuation.asp
# http://stackoverflow.com/questions/13837848/converting-byte-string-in-unicode-string

import urllib.request
import json

body = [ { "query": "co-development and language.name:English", "page": 1, "pageSize": 100 } ]
myurl = "https://core.ac.uk:443/api-v2/articles/search?metadata=true&fulltext=false&citations=false&similar=false&duplicate=false&urls=true&extractedUrls=false&faithfulMetadata=false&apiKey=SZYoqzk0Vx5QiEATgBPw1b842uypeXUv"
req = urllib.request.Request(myurl)
req.add_header('Content-Type', 'application/json; charset=utf-8')
jsondata = json.dumps(body)
jsondatabytes = jsondata.encode('utf-8') # needs to be bytes
req.add_header('Content-Length', len(jsondatabytes))
print ('\n', jsondatabytes, '\n')
response = urllib.request.urlopen(req, jsondatabytes)
results = response.read()
results = results.decode('utf-8')
results = results.replace('\\u','&#x') # produces html hex version of \u???? unicode characters
print(results)

InformationsquelleAutor SoothingMist

Vous devez vous connecter pour publier un commentaire.