Si l'UTF-8 est un 8 bits de codage, pourquoi est-il besoin de 1 à 4 octets?

L'Unicode site il est écrit que l'UTF-8 peut être représenté par 1 à 4 octets. Ce que je comprends de cette question https://softwareengineering.stackexchange.com/questions/77758/why-are-there-multiple-unicode-encodings UTF-8 est un 8-bits de codage.
Alors, quelle est la vérité?
Si c'est 8-bits de codage, alors quelle est la différence entre ASCII et UTF-8?
Si elle ne l'est pas, alors pourquoi est-il appelé UTF-8 et pourquoi avons-nous besoin de l'UTF-16 et d'autres si elles occupent la même mémoire?

OriginalL'auteur Sergey | 2011-06-14

15

Le Minimum Absolu que Tout Développeur Doit Absolument, Positivement Savoir Sur Unicode et les Jeux de Caractères (Pas d'Excuses!) par Joel Spolsky - mercredi, 08 octobre 2003

Extrait à partir de ci-dessus:

Ainsi qu'a été inventé le concept génial de l'UTF-8. UTF-8 est un autre système pour le stockage de votre chaîne de points de code Unicode, ceux de la magie U+ les numéros en mémoire à l'aide de 8 bits octets. En UTF-8, chaque point de code de 0 à 127 est stocké dans un octet. Seuls les points de code 128 et ci-dessus sont stockées à l'aide de 2, 3, en fait, jusqu'à 6 octets.
Cela a pour effet de bord très net que le texte anglais est exactement le même en UTF-8, comme elle l'a fait en ASCII, donc, les Américains ne l'a même pas remarqué quelque chose de mal. Seulement le reste du monde doit sauter à travers des cerceaux. Plus précisément, Bonjour, qui était U+0048 U+0065 U+006C U+006C U+006F, seront stockées sous forme de 48 65 6C 6C 6F, qui, en voici! est le même qu'il était stocké en ASCII et ANSI, et chaque jeu de caractères OEM sur la planète. Maintenant, si vous êtes assez audacieux pour utiliser des lettres accentuées ou des lettres grecques ou des lettres Klingon, vous devrez utiliser plusieurs octets pour stocker un seul point de code, mais les Américains ne seront jamais d'avis. (UTF-8 a aussi la belle propriété que l'ignorance ancienne chaîne de traitement de code qui veut utiliser un octet 0 null-terminator ne tronque pas les chaînes).

Jusqu'à présent, je vous ai dit trois façons de l'encodage Unicode. Le traditionnel en magasin-dans-deux-octet méthodes sont appelées UCS-2 (parce qu'il a deux octets) ou UTF-16 (parce qu'il a 16 bits), et vous devez toujours vous demander si c'est de la haute-endian UCS-2 ou faible-endian UCS-2. Et il y a la nouvelle norme UTF-8 qui a la propriété sympa de travailler aussi respectable si vous avez l'heureuse coïncidence de texte en anglais et braindead programmes qui ne sont absolument pas au courant qu'il y a autre chose que de l'ASCII.

Il y a en fait un tas d'autres façons de l'encodage Unicode. Il y a quelque chose qui s'appelle l'UTF-7, qui est un peu comme de l'UTF-8, mais garantit que le bit élevé sera toujours zéro, de sorte que si vous avez à passer Unicode grâce à une sorte d'draconienne de la police de l'état du système de courrier qui pense 7 bits sont tout à fait assez, je vous remercie il peut encore se faufiler à travers indemne. Il y a UCS-4, qui stocke chaque point de code sur 4 octets, qui a la propriété que chaque point de code peuvent être stockés dans le même nombre d'octets, mais, parbleu, même les Texans ne serait pas si gras que les déchets de beaucoup de mémoire.

Et en fait, maintenant que vous êtes en train de penser les choses en termes de l'idéal platonicien de lettres qui sont représentés par des points de code Unicode, ces points de code unicode peuvent être codés dans la vieille école de schéma de codage, trop! Par exemple, vous pouvez encoder la chaîne Unicode pour Bonjour (U+0048 U+0065 U+006C U+006C U+006F) en ASCII, ou l'ancien Encodage OEM grec ou l'hébreu, le Codage ANSI, ou l'un quelconque de plusieurs centaines de codages ont été inventés, avec un hic: certaines lettres pourraient ne pas s'afficher! Si il n'y a pas d'équivalent pour le point de code Unicode que vous essayez de représenter dans le codage que vous essayez de représenter cela, vous obtenez généralement un petit point d'interrogation: ? ou, si vous êtes vraiment bon, une boîte. Qui avez-vous obtenu? -> �

Il y a des centaines d'encodages traditionnels qui ne peuvent stocker que quelques points de code correctement et de modifier tous les autres points de code d'interrogation. Quelques exemples d'encodages de texte anglais Windows-1252 (le standard Windows 9x pour les langues d'europe Occidentale) et ISO-8859-1, alias Latin-1 (également utile pour toute langue Européenne Occidentale). Mais essayez de stocker du russe ou de l'hébreu dans ces encodages, et vous obtenez un tas de points d'interrogation. UTF 7, 8, 16, et 32 ont tous la propriété sympa d'être en mesure de stocker n'importe quel point de code correctement.

+1 pour la référence à Joel Spolsky de l'article.
Notez que la phrase citée Seuls les points de code 128 et ci-dessus sont stockées à l'aide de 2, 3, en fait, jusqu'à 6 octets n'est plus correcte. Depuis cette pièce a été écrite, Unicode a établi une limite supérieure tel que UTF-8 a besoin seulement de 1 à 4 octets (et jamais 5 ou 6 octets). Qui n'a pas une grande incidence sur les principaux axes de Joël article. La plupart des gens n'ont pas à traiter avec l'encodage UTF-7. UCS-2 est obsolète, une relique de jours lors de l'Unicode a été limitée à 16 bits de code de points; UTF-16 gère la plus moderne, plus grand (U+0000 .. U+10FFFF). UCS-4 est un synonyme pour l'UTF-32. Dans l'ensemble, l'utilisation de l'UTF nom et de ne pas UCS.

OriginalL'auteur Sparky
12

Le "8-bits d'encodage" signifie que l'individu octets de l'encodage sur 8 bits. En revanche, pur ASCII est un codage sur 7 bits comme il n'a que des points de code de 0 à 127. Il a utilisé pour être que les logiciels qui ont eu des problèmes avec 8 bits codages; l'une des raisons pour Base 64 et uuencode codages était d'obtenir des données binaires par le biais de systèmes de courrier électronique qui n'a pas de poignée 8 bits encodages. Cependant, il a été une décennie ou plus depuis qui a cessé d'être admissible en tant que problème de logiciel qui a dû être propres en 8 bits, ou capable de gérer 8 bits encodages.

Unicode est de 21 bits jeu de caractères. Il y a un certain nombre de codages pour elle:
- UTF-32, où chaque point de code Unicode est stocké dans un entier de 32 bits
- UTF-16, où de nombreux points de code Unicode sont stockés dans un seul entier 16 bits, mais certains ont besoin de deux entiers de 16 bits (donc il a besoin de 2 ou 4 octets par des points de code Unicode).
- UTF-8 où les points de code Unicode peuvent exiger 1, 2, 3 ou 4 octets pour stocker un seul point de code Unicode.
"UTF-8 peut être représenté par 1 à 4 octets" n'est probablement pas le moyen le plus approprié de la phraséologie. "Des points de code Unicode peut être représenté par 1 à 4 octets en UTF-8" serait plus approprié.

ensuite, ce que l'enfer de 21 bits jeu de caractères signifie? UTF-8 - 8,16,24,32 bits, UTF-16 - 16,32 bits, UTF-32 - 32 bits. Je ne vois pas ici 21. Désolé d'être stupide.
Unicode a 1,114,112 codepoints que de la dernière version. Vous auriez besoin d'21 bits au minimum à indiquer tous les codepoints.
Cela signifie, Sergey brin, que la validité des points de code Unicode sont tous dans la plage U+0000 à U+10FFFF, et que U+10FFFF exige seulement 21 bits pour le représenter. La gamme est également choisie de sorte que les points de code Unicode peuvent être codées par deux mères porteuses (un substitut faible et un haut de substitution) en UTF-16. Si la gamme a été élargie, ce ne serait plus possible. Vous finirez par apprendre à faire la distinction entre les points de code (U+wxyz valeurs) et les diverses façons dont ils peuvent être codées, comme UTF-8, UTF-16 et UTF-32.
+1 pour le "plus approprié" chemin de la phraséologie.
Vineet est correct, mais @Sergey a un point. La caractérisation de l'Unicode comme "un de 21 bits de caractères" est potentiellement source de confusion dans le contexte de cette question. Unicode a 17 avions; chaque plan est de 65 536 points de code, ce qui donne un total de 1,114,112. Pour représenter ce total en binaire (en base 2, plutôt qu'en base 10), vous avez besoin de 21 chiffres (bits). Qui est, le nombre binaire 111111111111111111111 (21 bits), représenté en décimal, est 2,097,151 (2 à la puissance 21, moins 1), qui est plus grand que 1,114,112. 20 bits (de 1 048 575) n'est pas assez. Dans cette mesure, l'Unicode est un "21 bits de caractères".

OriginalL'auteur Jonathan Leffler
11

UTF-8 est un 8 bits largeur variable encodage. Les 128 premiers caractères de l'Unicode, représenté avec l'encodage UTF-8 a la représentation que les caractères de l'ASCII.

Pour comprendre cette autre, traite les caractères Unicode comme codepoints - un simple nombre qui peut être représenté de plusieurs manières (les codages). UTF-8 est un exemple de codage. Il est le plus couramment utilisé, pour qu'il donne le meilleur de la consommation d'espace des caractéristiques parmi tous les encodages. Si vous stockez des caractères du jeu de caractères ASCII dans l'encodage UTF-8, puis UTF-8 données va prendre la même quantité d'espace. Cette autorisée pour les applications précédemment utilisé ASCII pour déplacer de manière transparente (enfin, pas tout à fait, mais il n'a certainement pas le résultat de quelque chose comme Y2K) en Unicode, pour le caractère des représentations sont les mêmes.

Je vais laisser cet extrait ici de RFC 3629, sur la façon dont le codage UTF-8 devrait fonctionner:
```
   Char. number range  |        UTF-8 octet sequence
      (hexadecimal)    |              (binary)
   --------------------+---------------------------------------------
   0000 0000-0000 007F | 0xxxxxxx
   0000 0080-0000 07FF | 110xxxxx 10xxxxxx
   0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
```
Vous remarquerez pourquoi l'encodage caractères occupant n'importe où entre 1 et 4 octets (la colonne de droite) pour différentes gammes de caractères Unicode (la colonne de gauche).

UTF-16, UTF-32, UCS-2, etc. va employer différents systèmes de codage où la codepoints aurait représenté que 16-bits ou 32-bits codes, au lieu de 8 bits codes UTF-8.

OriginalL'auteur Vineet Reynolds

Vous devez vous connecter pour publier un commentaire.