Python obtenir le code de caractère dans le codage différent?

Donné un code de caractère en tant que nombre entier en un seul encodage, comment pouvez-vous obtenir le code de caractère, disons, utf-8 et de plus, en tant qu'entier?

OriginalL'auteur | 2011-12-22

11

UTF-8 est une variable-length encoding, donc je vais supposer que vous voulait vraiment dire "point de code Unicode". Utilisation chr() pour convertir le code du caractère d'un personnage, de le décoder, et l'utilisation ord() pour obtenir le point de code.
```
>>> ord(chr(145).decode('koi8-r'))
9618
```
chr() arg not in range(256) pour "shift_jisx0213'
En Python 2, chr prend en charge uniquement des caractères ASCII, donc uniquement des chiffres dans le [0..255] gamme. Utilisation unichr au lieu de support de l'Unicode.
Hmm UnicodeEncodeError: 'ascii' codec can't encode character u'\u8140' in position 0 : ordinal not in range(128)
euh... bonjour? Des idées?
chr(145) est probablement équivalent à unichr(145).encode('latin1') sur Python 2 si l'entrée est en range(256). Il n'y a pas de unichr sur Python 3, il est renommé pour chr. Il est généralement un hack pour fixer l'entrée si vous avez besoin de: reinterpreted = unistr.encode(one_encoding).decode(another_encoding)

OriginalL'auteur Ignacio Vazquez-Abrams
9

Vous ne pouvez mapper un "nombre entier" à partir d'un encodage à un autre s'ils sont à la fois octet encodages.

Voici un exemple d'utilisation de "iso-8859-15" et "cp1252" (aka "ANSI"):
```
>>> s = u'€'
>>> s.encode('iso-8859-15')
'\xa4'
>>> s.encode('cp1252')
'\x80'
>>> ord(s.encode('cp1252'))
128
>>> ord(s.encode('iso-8859-15'))
164
```
Noter que ord est ici utilisée pour obtenir le nombre ordinal de la codé octet. À l'aide de ord sur l'original de la chaîne unicode donnerait son point de code unicode:
```
>>> ord(s)
8364
```
L'opération inverse à ord peut être réalisée à l'aide de chr (pour les codes dans la gamme 0 à 127) ou unichr (pour les codes dans la gamme 0 à sys.maxunicode):
```
>>> print chr(65)
A
>>> print unichr(8364)
€
```
Pour multi-octets codage, un simple "nombre entier" la cartographie est généralement pas possible.

Voici le même exemple que ci-dessus, mais en utilisant "iso-8859-15" et "utf-8":
```
>>> s = u'€'
>>> s.encode('iso-8859-15')
'\xa4'
>>> s.encode('utf-8')
'\xe2\x82\xac'
>>> [ord(c) for c in s.encode('iso-8859-15')]
[164]
>>> [ord(c) for c in s.encode('utf-8')]
[226, 130, 172]
```
La "utf-8" encodage utilise trois octets pour coder le même caractère, donc un one-to-one mapping n'est pas possible. Ceci dit, beaucoup de jeux de caractères (y compris les "utf-8") sont conçus pour être compatible ASCII, donc une cartographie est généralement possible pour les codes dans la plage de 0 à 127 (mais seulement de façon triviale, car le code sera toujours le même).

C'est ce que j'appelle, une réponse parfaite 🙂

OriginalL'auteur ekhumoro

Voici un exemple de comment le coder/décoder les œuvres de danse:

>>> s = b'd\x06'             # perhaps start with bytes encoded in utf-16
>>> map(ord, s)              # show those bytes as integers
[100, 6]
>>> u = s.decode('utf-16')   # turn the bytes into unicode
>>> print u                  # show what the character looks like
٤
>>> print ord(u)             # show the unicode code point as an integer
1636
>>> t = u.encode('utf-8')    # turn the unicode into bytes with a different encoding
>>> map(ord, t)              # show that encoding as integers
[217, 164]

Espère que cela aide 🙂

Si vous avez besoin pour construire l'unicode directement à partir d'un entier, d'utilisation unichr:

>>> u = unichr(1636)
>>> print u
٤

OriginalL'auteur Raymond Hettinger

Vous devez vous connecter pour publier un commentaire.