Comment savoir si Python est compilé avec l'UCS-2 ou UCS-4?

Juste ce que dit le titre.

$ ./configure --help | grep -i ucs
  --enable-unicode[=ucs[24]]

La recherche de la documentation officielle, j'ai trouvé ceci:

sys.maxunicode: Un entier donnant le
plus pris en charge du point de code pour un
Caractère Unicode. Le valeur de cette
dépend de l'option de configuration
qui spécifie si l'Unicode
les caractères sont stockés UCS-2 ou
UCS-4.

Ce n'est pas clair ici est - ce qui les valeur(s) correspondent à des UCS-2 et UCS-4.

Le code est prévu pour fonctionner sur la version 2.6 de Python+.

InformationsquelleAutor Sridhar Ratnakumar | 2009-09-18

119

Lorsque compilé avec l'option --enable-unicode=ucs4:
```
>>> import sys
>>> print sys.maxunicode
1114111
```
Lorsque compilé avec l'option --enable-unicode=ucs2:
```
>>> import sys
>>> print sys.maxunicode
65535
```
- Ce n'est pas correct de plus pour Python 3. Voir docs.python.org/3.4/c-api/unicode.html: Since the implementation of PEP 393 in Python 3.3, Unicode objects internally use a variety of representations. python.org/dev/peps/pep-0393
- 0x10ffff) fonctionne sur n'importe quelle version de Python (même si le flexible de la représentation interne est utilisée lorsque sys.maxunicode == 0x10ffff). La souplesse des représentations permet d'obtenir des résultats corrects comme ucs4 n'sur les versions précédentes, tout en utilisant moins de mémoire que ucs4 dans certains cas.
InformationsquelleAutor Stef

C'est 0xFFFF (ou 65535) pour UCS-2, et 0x10FFFF (ou 1114111) pour UCS-4:

Py_UNICODE
PyUnicode_GetMax(void)
{
#ifdef Py_UNICODE_WIDE
    return 0x10FFFF;
#else
    /* This is actually an illegal character, so it should
       not be passed to unichr. */
    return 0xFFFF;
#endif
}

Le maximum de caractères dans l'UCS-4 mode est défini par la maxmimum valeur représentable en UTF-16.

InformationsquelleAutor Martin v. Löwis

11

J'ai eu ce même problème une fois. J'ai recueilli moi-même sur mon wiki à

http://arcoleo.org/dsawiki/Wiki.jsp?page=Python%20UTF%20-%20UCS2%20or%20UCS4

J'ai écrit -
```
import sys
sys.maxunicode > 65536 and 'UCS4' or 'UCS2'
```
- Pour toute personne se demander ce que cela fait: c'est un vieux (< Python 2.5) façon de faire 'UCS4' if sys.maxunicode > 65536 else 'UCS2'.
InformationsquelleAutor Dave
8

sysconfig dira l'unicode taille de l'variables de configuration de python.

La buildflags peut être interrogé comme ça.

Python 2.7:
```
import sysconfig
sysconfig.get_config_var('Py_UNICODE_SIZE')
```
Python 2.6:
```
import distutils
distutils.sysconfig.get_config_var('Py_UNICODE_SIZE')
```
InformationsquelleAutor stateoff
1

J'ai eu le même problème et a trouvé une semi-officiel morceau de code qui fait exactement cela et peut être intéressante pour les personnes avec le même problème: https://bitbucket.org/pypa/wheel/src/cf4e2d98ecb1f168c50a6de496959b4a10c6b122/wheel/pep425tags.py?at=default&fileviewer=file-view-default#pep425tags.py-83:89.

Il s'agit de la roue projet qui doit vérifier si le python est compilé avec l'ucs-2 ou ucs-4, parce qu'il va changer le nom du fichier binaire généré.

InformationsquelleAutor Boris Feld
1

Une autre façon est de créer un Unicode tableau et regardez la itemsize:
```
import array
bytes_per_char = array.array('u').itemsize
```
Citation de la array docs:

La 'u' typecode correspond à Python unicode du caractère. Sur d'étroites Unicode s'appuie cette est de 2 octets, sur l'échelle s'appuie cette est de 4 octets.

Noter que la distinction entre étroit et large Unicode construit est passé de Python 3.3-là, voir PEP393. Le 'u' typecode pour array est obsolète depuis 3.3 et retrait en Python 4.0.

InformationsquelleAutor user6758673
0

65535 est UCS-2:

Ainsi, le point de code U+0000 est codée sous le numéro 0, et U+FFFF est codé comme 65535 (qui est FFFF16 en hexadécimal).

InformationsquelleAutor SilentGhost

Vous devez vous connecter pour publier un commentaire.