Comment unicodedata.normaliser(la forme, la unistr) de travail?
Sur la doc API, http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize. Il dit
Retour de la forme normale de forme pour la chaîne Unicode unistr. Les valeurs valides pour la forme sont "NFC’, ‘NFKC’, ‘NFD", et " NFKD’.`
La documentation est plutôt vague, quelqu'un peut m'expliquer la valid values
avec quelques exemples?
Vous devez vous connecter pour publier un commentaire.
Je trouver de la documentation assez clair, mais voici quelques exemples de code:
Les deux " D " (=se décomposer) les formes de convertir un combiné unique personnage (comme
ä
) en deux caractères (a
+ deux points). Les deux " C " (=composition) les formulaires de faire l'inverse.Les deux "K", les formes sont utilisées pour convertir les caractères ajoutés à Unicode pour des raisons de compatibilité. Par exemple, pour logiciel de prise en charge qui ne peut pas dessiner des cercles autour de symboles, il existe un ensemble de "nombres encerclés", comme ① (numéro unicode 2460). Lorsque nous appliquons la décomposition canonique (NFD), il ne fait rien:
Cependant, la compatibilité de la décomposition (NFKD) sera de retour correspondant à la "compatible" caractère:
Voir http://en.wikipedia.org/wiki/Unicode_equivalence pour plus de détails.