Taille d'encodage UTF-8
que des caractères unicode ajustement en 1, 2, 4 octets? Quelqu'un peut me pointer à caractère complet graphique?
source d'informationauteur user3234
Vous devez vous connecter pour publier un commentaire.
que des caractères unicode ajustement en 1, 2, 4 octets? Quelqu'un peut me pointer à caractère complet graphique?
source d'informationauteur user3234
Vous devez vous connecter pour publier un commentaire.
Les caractères sont codés en fonction de leur position dans la gamme. Vous pouvez effectivement trouver l'algorithme sur la page de Wikipedia pour en UTF8, vous pouvez la mettre en œuvre très rapidement
Wikipedia l'Encodage UTF8
L'article de wikipédia sur UTF-8 a une assez bonne description de l'encodage:
Les graphiques peuvent être téléchargés directement à partir de unicode.org. C'est un ensemble d'environ 150 fichiers PDF, car un seul graphique serait énorme (peut-être 30 MiB).
Aussi être conscient que l'Unicode (par rapport à quelque chose comme ASCII) est beaucoup plus complexe à traiter - il y a des choses comme de droite à gauche du texte, l'ordre des octets de marques, des points de code qui peuvent être combinés ("composé") pour créer un personnage unique et différentes manières de représenter exactement la même chaîne (et un processus pour convertir des chaînes en une forme canonique approprié pour la comparaison), beaucoup plus de caractères d'espacement, etc. Je vous recommande de télécharger l'ensemble de la spécification Unicode et la lecture de la plupart de celui-ci si vous avez l'intention de faire plus que que "pas beaucoup".
UTF-8 compromis de 1 à un maximum de 6 octets, bien que le montant actuel de points de code est couvert avec juste 4 octets. UTF-8 utilise le premier octet de déterminer combien de temps (en octets) le personnage est - voir les différents liens vers la page du Wiki:
UTF-8 Wikipedia
Unique d'octets UTF-8 est effectivement ASCII, UTF-8 a été conçu pour être compatible avec elle, c'est pourquoi il est plus répandu que l'UTF-16, par exemple.
Edit: Apparemment, il a été convenu de l'UTF-8 du code de points ne serait pas dépasser 21 bits (4 octets séquences) - mais il a les capacités techniques pour gérer jusqu'à 31 bits (6 octets UTF-8).