Comment unicodedata.normaliser(la forme, la unistr) de travail?

Sur la doc API, http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize. Il dit

Retour de la forme normale de forme pour la chaîne Unicode unistr. Les valeurs valides pour la forme sont "NFC’, ‘NFKC’, ‘NFD", et " NFKD’.`

La documentation est plutôt vague, quelqu'un peut m'expliquer la valid values avec quelques exemples?

InformationsquelleAutor alvas | 2013-02-04

encoding normalization python unicode unicode-normalization

23

Je trouver de la documentation assez clair, mais voici quelques exemples de code:
```
from unicodedata import normalize

print '%r' % normalize('NFD', u'\u00C7')  # decompose: convert Ç to "C + ̧"
print '%r' % normalize('NFC', u'C\u0327') # compose: convert "C + ̧" to Ç
```
Les deux " D " (=se décomposer) les formes de convertir un combiné unique personnage (comme ä) en deux caractères (a + deux points). Les deux " C " (=composition) les formulaires de faire l'inverse.

Les deux "K", les formes sont utilisées pour convertir les caractères ajoutés à Unicode pour des raisons de compatibilité. Par exemple, pour logiciel de prise en charge qui ne peut pas dessiner des cercles autour de symboles, il existe un ensemble de "nombres encerclés", comme ① (numéro unicode 2460). Lorsque nous appliquons la décomposition canonique (NFD), il ne fait rien:
```
print '%r' % normalize('NFD', u'\u2460')     # u'\u2460'
```
Cependant, la compatibilité de la décomposition (NFKD) sera de retour correspondant à la "compatible" caractère:
```
print '%r' % normalize('NFKD', u'\u2460')    # 1
```
Voir http://en.wikipedia.org/wiki/Unicode_equivalence pour plus de détails.

InformationsquelleAutor georg

Vous devez vous connecter pour publier un commentaire.