UTF8 vs UTF16 vs char* vs quoi? Quelqu'un expliquer ce gâchis pour moi!

J'ai réussi à la plupart d'ignorer ces caractères multi-octets trucs, mais maintenant, j'ai besoin de faire une INTERFACE utilisateur de travailler, et je sais que mon ignorance dans ce domaine va rattraper avec moi! Quelqu'un peut-il expliquer en quelques paragraphes ou moins juste ce que j'ai besoin de savoir afin que je puisse localiser mes applications? Quels types dois-je utiliser (j'utilise les deux .Net et C/C++, et j'ai besoin de cette réponse pour Unix et Windows).

InformationsquelleAutor dicroce | 2008-10-05

76

Découvrez Joel Spolsky de Le Minimum Absolu que Tout Développeur Doit Absolument, Positivement Savoir Sur Unicode et les Jeux de Caractères (Pas d'Excuses!)

MODIFIER 20140523: Aussi, regarder Les personnages, les Symboles et l'Unicode Miracle par Tom Scott sur YouTube - c'est un peu moins de dix minutes, et une merveilleuse explication de la brillante "hack" c'est de l'UTF-8
- Héhé, quand j'ai lu le titre c'était exactement l'article qui est venu à mon esprit.
- Je n'avais pas lu qu'avant... mais j'ai mon i18n de formation par d'autres moyens. Merci pour le lien
- +1 pour un humerous et extrêmement pédagogique à l'article.
InformationsquelleAutor Dylan Beattie
25

Un codage de caractères est une séquence de codes que chaque regard d'un symbole à partir d'un jeu de caractères donné. Veuillez voir ce bon article sur Wikipédia sur l'encodage des caractères.

UTF8 (UCS) utilise 1 à 4 octets pour chaque symbole. Wikipédia donne un bon aperçu de la façon dont le multi-octets aperçu des œuvres:
- Le bit le plus significatif de caractères à un octet est toujours 0.
- Les bits les plus significatifs du premier octet d'un multi-octet de la séquence
  déterminer la longueur de la séquence.
  Ces bits les plus significatifs sont 110
  les deux séquences d'octets; 1110 pour
  trois séquences d'octets, et ainsi de suite.
- Les octets restants dans un multi-octet de la séquence 10 que leurs deux plus
  bits significatifs.
- UTF-8 flux de données contient ni l'octet FE ni FF. Cela permet de s'assurer qu'un
  UTF-8 flux ne regarde jamais comme UTF-16
  flux en commençant par U+FEFF
  (Byte-order mark)
La page vous montre également une bonne comparaison entre les avantages et les inconvénients de chaque type de codage des caractères.

UTF16 (UCS2)

Utilise 2 octets 4 octets pour chaque symbole.

UTF32 (UCS4)

utilise 4 octets toujours pour chaque symbole.

char signifie simplement un octet de données et n'est pas un codage réel. Il n'est pas analogue à UTF8/UTF16/ascii. Un char* pointeur peut se référer à n'importe quel type de données et à n'importe quel encodage.

STL:

À la fois du tsl std::wstring et std::string ne sont pas conçus pour
la longueur variable des codages de caractères comme de l'UTF-8 et UTF-16.

Comment mettre en œuvre:

Prendre un coup d'oeil à la fonction iconv de la bibliothèque. iconv est un personnage puissant de conversion de la bibliothèque utilisée par des projets tels que libxml XML (C analyseur de Gnome)

D'autres excellentes ressources sur le codage des caractères:
- tbray.org's Caractères vs Octets
- IANA jeux de caractères
- http://www.cs.tut.fi Un tutoriel sur les problèmes de code
- Le Minimum Absolu que Tout Développeur Doit Absolument, Positivement Savoir Sur Unicode et les Jeux de Caractères (Pas d'Excuses!) (d'abord mentionné par @Dylan Beattie)
- Brian, c'est faux. UTF-16 utilise 2 à 4 octets. Seulement UTF-32 a une largeur fixe d'octets (= 4). La plupart UTF-16 implémentations n'ont tout simplement pas s'étendre au-delà de la BMP et donc uniquement en charge limitée du jeu de caractères.
- Personnellement, je voudrais examiner à l'aide d'un char* à un point de UTF16 de données pour être un bug.
- Je suppose que ça dépend du contexte, par exemple si je le voyais comme un tampon de données, je vois pas de problème avec cela.
- Rudolph: ces UTF-16 implémentations qui ne s'étendent pas au-delà de la BMP sont pas en UTF-16, mais UCS-2. MS Windows vient à l'esprit. UTF-16 prend en charge la gamme Unicode.
- À l'origine de l'UTF-8 est utilisé jusqu'à six octets par caractère (au-delà de BMP), de sorte que vous pouvez être confronté à ce codage.
- ΤΖΩΤΖΙΟΥ: MS (et d'autres fournisseurs ainsi!) explicitement les étiqueter comme (incomplète) de l'UTF-16! Que cela se passe aussi pour être UCS-2 est plus comme une coïncidence (même si ce n'est pas parce que l'Unicode UCS codages ont été conçus avec la compatibilité de l'esprit). Techniquement, il n'y a pas de différence.
- Rudolph: lire l'article de wikipédia: en.wikipedia.org/wiki/UCS-2 . UCS-2 est un prédécesseur de l'UTF-16 et obsolètes. Encore une fois, UTF-16 prend en charge l'unicode complète la gamme par le biais de paires de substitution, tout en UCS-2 prend uniquement en charge le format BMP (U+0000 à U+FFFF). MS "UTF-16" prend uniquement en charge les formats BMP, ergo c'est UCS-2.
- Codepoint 1f030, "DOMINO TUILE NOIRE HORIZONTALE", peut être encodé en UTF-16, mais pas UCS-2; n'est-ce pas une différence technique?
- char n'est pas nécessairement un octet de données. par exemple en C# : sizeof(char)==2
- Peut-être le fait que les langues ont un type "char" est juste un vestige d'une époque où les codages de caractères ont été beaucoup plus simple. À l'aide d'un "char", ou "wchar" ou vraiment tout d'une largeur fixe de type pour représenter un caractère est probablement pas une bonne idée. Peut-être de nouvelles langues ne devriez pas avoir de "char", mais plutôt juste u_int8_t, ou d'octets. Je l'utilise généralement u_int8_t *, ou void * pour le point de données que je considère comme un "sac d'octets" comme une chaîne où j'ai le codage stockées dans une autre variable.
InformationsquelleAutor Brian R. Bondy
12

Idées reçues suggère que Spolsky l'article manque un couple de points importants.

Cet article est recommandée car elle est plus complète:
L'Unicode® Standard: Une Introduction Technique

Cet article est aussi une bonne introduction: Unicode Bases

Ce dernier, en particulier, donne un aperçu de l'encodage des caractères les formes et les plans pour l'Unicode.

InformationsquelleAutor mmalc
4

Les différents UTF normes sont des moyens pour coder le code de "points". Un codepoint est l'index de l'Unicode charater ensemble.

Un autre encodage est UCS2 qui est toujours 16 bits, et donc ne prend pas en charge la gamme Unicode.

Bon à savoir également que l'on codepoint n'est pas égal à un caractère. Par exemple un personnage comme å peut être représenté à la fois comme un point de code ou de deux points de code une pour l'une et l'autre pour l'anneau.

De la comparaison de deux chaînes unicode requiert donc de la normalisation pour obtenir la représentation canonique avant comparaison.

InformationsquelleAutor John Nilsson
1

Il y a aussi le problème avec les polices. Il y a deux façons de gérer les polices. Soit vous utilisez un gigantesque police de caractères pour tous les caractères Unicode dont vous avez besoin (je pense que les versions récentes de Windows est livré avec un ou deux de ces polices). Ou vous utilisez som bibliothèque capable de combiner les glyphes de diverses polices dédiées à des sous-ensembles de la norme Unicode.

InformationsquelleAutor John Nilsson

Vous devez vous connecter pour publier un commentaire.