Convertir un codepoint unicode en hex UTF8 en python

Je veux convertir un certain nombre de unicode codepoints lire à partir d'un fichier à leur encodage UTF8.

e.g je veux convertir la chaîne 'FD9B' de la chaîne 'EFB69B'.

Je peux le faire manuellement en utilisant les littéraux de chaîne comme ceci:

u'\uFD9B'.encode('utf-8')

mais je ne peux pas travailler sur la façon de le faire par programmation.

source d'informationauteur Richard

python unicode

19

Utiliser la fonction intégrée unichr() pour convertir le nombre de caractères, puis l'encoder:
```
>>> unichr(int('fd9b', 16)).encode('utf-8')
'\xef\xb6\x9b'
```
C'est la chaîne elle-même. Si vous voulez la chaîne de caractères ASCII hex, vous auriez besoin de marcher à travers et de convertir chaque caractère c de l'hexagone, à l'aide de hex(ord(c)) ou similaire.

data_from_file='\uFD9B'
unicode(data_from_file,"unicode_escape").encode("utf8")

voici une solution complète:

>>> ''.join(['{0:x}'.format(ord(x)) for x in unichr(int('FD9B', 16)).encode('utf-8')]).upper()
'EFB69B'

Python 2.6.2 (r262:71600, Apr 16 2009, 09:17:39) 
[GCC 4.0.1 (Apple Computer, Inc. build 5250)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> u'\uFD9B'.encode('utf-8')
'\xef\xb6\x9b'
>>> s = 'FD9B'
>>> i = int(s, 16)
>>> i
64923
>>> unichr(i)
u'\ufd9b'
>>> _.encode('utf-8')
'\xef\xb6\x9b'

Si la chaîne d'entrée, la longueur est un multiple de 4 (c'est à dire vos points de code unicode sont UCS-2 codés), puis essayez ceci:

import struct

def unihex2utf8hex(arg):
    count= len(arg)//4
    uniarr= struct.unpack('!%dH' % count, arg.decode('hex'))
    return u''.join(map(unichr, uniarr)).encode('utf-8').encode('hex')

>>> unihex2utf8hex('fd9b')
'efb69b'

Parce que vous risquez de rencontrer une erreur lors de l'utilisation unichr avec de larges caractères unicode:

>>> n = int('0001f600', 16)
>>> unichr(n)
ValueError: unichr() arg not in range(0x10000) (narrow Python build)

Voici une autre approche à l'échelle de l'unicode sur d'étroites python: les versions de

>>> n = int('0001f600', 16)
>>> s = '\\U{:0>8X}'.format(n)
>>> s = s.decode('unicode-escape')
>>> s.encode("utf-8")
'\xf0\x9f\x98\x80'

Et à l'aide de la question d'origine:

>>> n = int('FD9B', 16)
>>> s = '\\u{:0>4X}'.format(n)
>>> s = s.decode('unicode-escape')
>>> s.encode("utf-8")
'\xef\xb6\x9b'

Vous devez vous connecter pour publier un commentaire.