Quelle est la différence entre UTF-8 et l'Unicode?

J'ai entendu des opinions divergentes des personnes - selon la Wikipédia UTF-8 page.

Ils sont la même chose, n'est-ce pas? Quelqu'un peut-il préciser?

Ce WIKI a écrit au sujet de l'unicode et la UTFs est ok à mon avis. Quelques commentaires sur il sont bizarre: "Il est possible en UTF-8 (ou tout autre encodage multi-octet) de séparer ou de tronquer une chaîne de caractères au moyen d'un personnage, ce qui peut entraîner une chaîne non valide." Si une chaîne de caractères qui obtient codé en UTF-8 n'est pas plus une chaîne, mais un tableau d'octets ou de flux d'octets. Les personnages qui composent la chaîne de caractères codé. Bien sûr, il peut être décodé comme bien. Maintenant, bien sûr, vous pouvez couper un utf-8 séquence après le début octets ou après une suite d'octets, mais pourquoi quelqu'un devrait le faire?
Cet article sur les types de données chaîne éducative: mortoray.com/2013/11/27/the-string-type-is-broken -- parfois, lorsque vous travaillez avec des chaînes et de leur niveau octet composants, vous pouvez par inadvertance hacher un personnage dans la moitié.

InformationsquelleAutor sarsnake | 2009-03-13

438

Pour se développer sur les réponses des autres:

Nous avons beaucoup de langues avec beaucoup de personnages que les ordinateurs devraient idéalement d'affichage. Unicode attribue à chaque caractère un numéro unique, ou de point de code.

Ordinateurs de traiter avec ces nombres comme des octets... sauter un peu d'histoire ici, et en ignorant la mémoire de régler les problèmes, 8 bits, ordinateurs traiter un octet de 8 bits comme la plus grande unité numérique facilement représentées sur le matériel, les ordinateurs 16 bits permettrait d'étendre qu'à deux octets, et ainsi de suite.

Anciens codages de caractères comme ASCII sont de la (pré-) ère 8-bit, et d'essayer de fourrer la langue dominante dans le calcul à l'époque, c'est à dire l'anglais, dans les numéros allant de 0 à 127 (7 bits). Avec 26 lettres dans l'alphabet, à la fois en capital et autres qu'en capital de forme, de chiffres et de signes de ponctuation, cela a fonctionné assez bien. ASCII ai prolongé de 8 bits pour les autres, les non-anglais langues, mais le supplément de 128 numéros/points de code mis à disposition par cette expansion devrait être mappé à des caractères différents selon la langue affichée. L'ISO-8859 normes sont les formes les plus courantes de cette cartographie; ISO-8859-1 et ISO-8859-15 (aussi connu comme l'ISO-Latin-1, latin1, et oui il y a deux versions différentes de la ISO 8859 standard ainsi).

Mais cela ne suffit pas lorsque vous souhaitez représenter des personnages de plus d'une langue, donc potasser tous les caractères disponibles dans un seul octet juste ne fonctionnera pas.

Il y a essentiellement deux types de codages: on élargit la gamme de valeur par l'ajout de plus de bits. Des exemples de ces codages serait UCS2 (2 octets = 16 bits) et UCS4 (4 octets = 32 bits). Elles souffrent d'intrinsèquement le même problème que l'ASCII et ISO-8859 normes, comme leur gamme de valeur est encore limitée, même si la limite est largement supérieur.

L'autre type de codage utilise un nombre variable d'octets par caractère, et le plus connu des codages pour ce sont les codages UTF. Tous les codages UTF fonctionnent à peu près de la même manière: vous choisissez une taille d'unité, qui pour l'UTF-8 est 8 bits, pour de l'UTF-16 est de 16 bits, et pour l'UTF-32 est 32 bits. La norme définit alors un peu de ces bits comme les drapeaux: si ils sont définis, puis l'unité suivante dans une séquence d'unités doit être considéré comme faisant partie d'un même caractère. Si ils ne sont pas ensemble, cette unité représente un seul caractère entièrement. Ainsi, les plus courantes (anglais) les personnages n'occupent qu'un octet en UTF-8 (deux en UTF-16, 4 en UTF-32), mais d'autres caractères de la langue peut occuper six octets ou plus.

Multi-octets codages (je devrais dire multi-unité après l'explication ci-dessus) ont l'avantage qu'ils sont relativement économe en espace, mais l'inconvénient que des opérations telles que la recherche de sous-chaînes, des comparaisons, etc. tous ont pour décoder les caractères de points de code unicode avant que de telles opérations peuvent être effectuées (il y a quelques raccourcis, tout de même).

À la fois l'UCS normes et de l'UTF normes de coder les points de code tel que défini dans la norme Unicode. En théorie, les codages pourrait être utilisé pour encoder n'importe quel nombre (dans les limites de l'encodage prend en charge) - mais bien sûr, ces codages ont été réalisés pour coder les points de code Unicode. Et c'est votre relation qui existe entre eux.

Windows traite les soi-disant "Unicode" chaînes de caractères UTF-16 chaînes, alors que la plupart des systèmes Unix par défaut en UTF-8 ces jours-ci. Les protocoles de communication tels que HTTP tendance à travailler mieux avec de l'UTF-8, comme la taille de l'unité en UTF-8 est la même que dans l'ASCII, et la plupart de ces protocoles ont été conçus en ASCII ère. D'autre part, UTF-16 donne le meilleur moyenne de l'espace/les performances de traitement de représentant de toutes les langues vivantes.

Le standard Unicode définit de moins en moins de points de code que ce qui peut être représenté en 32 bits. Ainsi, pour toutes fins pratiques, UTF-32 et UCS4 est devenu le même encodage, que vous êtes peu probable d'avoir à traiter avec multi-unité de caractères en UTF-32.

Espère que remplit dans certains détails.
- Sur le plan conceptuel, UCS-2 et UCS-4 jeux de caractères, pas encodages de caractères (d'où le nom).
- Il y a beaucoup d'erreurs ici. Pas de point de code, occupe six octets!!!
- Voulez-vous signaler ces erreurs plus en détail?
- Des erreurs dans la présente publication sont légion. Il ya plus que 2 versions de l'ISO 8859. ASCII ne fonctionne pas pour l'anglais, manquant des choses comme les guillemets, cent signes, les accents,& un ensemble beaucoup plus Unicode est pas juste au sujet de la non-anglais; anglais besoins, elle aussi!! Pas de codepoints occupent plus de 4 octets TOUS encodage; ce de 6 octets d'affaires est flat-out faux. Vous ne pouvez pas l'UTF-encodage Unicode valeur scalaire que l'on dit: les mères porteuses & les 66 autres noncharacters sont tous interdits. UCS-4 et UTF-32 ne sont pas les mêmes. Il n'y a pas de multi-unité de l'UTF-32. UTF-16 n'est pas aussi efficace comme ils le prétendent — &c&c&c!
- ASCII ne contient pas non plus le signe de la livre £, et bien sûr, ne contient pas le symbole de l'euro € (ce qui est nettement plus jeune que l'ASCII).
- Je vois que nous sommes ici en indiquant UTF-8 utilise seulement 8 bits. Wiki Dit en.wikipedia.org/wiki/Unicode UTF-8 utilise un octet pour n'importe quel caractère ASCII, qui ont toutes le même code de valeurs dans les deux UTF-8 et le codage ASCII, et jusqu'à quatre octets pour les autres personnages.
- Est-ce correct maintenant, ou encore heurte à des erreurs?
- Semble que 6 octets de ce n'est pas improbable, après tout. Voir ceci: joelonsoftware.com/articles/Unicode.html qui indique qu'il y a un espace de caractère de 0x04000000 à 0x7FFFFFFF, ou en binaire, il est 1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv - et c'est en effet 6 octets. Cependant, 6 octets EST le maximum, et non pas l'article de prêter à confusion, les revendications "six octets plus".
- Ok. mais s'il vous plaît ne soyez pas trop dur. Parce que la majorité en ce qui concerne cet article mérite d'être lu, peu importe quand il a été écrit (2003, je le sais.) Peut-être vous voulez des précisions sur ce qui est faux dans cet article, ainsi? De cette façon, il aidera à ouvrir les yeux de beaucoup. — Ah, et pour le "vous de tous les peuples" chose: franchement, je ne sais pas ce qu'est une sommité de vous, depuis que j'ai jamais pris la peine de lire votre profil — jusqu'à maintenant. Mea culpa. 🙂 O'Reilly? Oui, vraiment. 😛 Chapeau, Sire. 😀
- L'info sur le drapeau bits était quelque chose que je cherche mais qui était difficile à trouver. Très agréable.
- Seuls les points de code 128 et ci-dessus sont stockées à l'aide de 2, 3, en fait, jusqu'à 6 octets." a été précis, lorsqu'on écrit, mais plus tard dans la même année (douze ans), il a été invalidé. en.wikipedia.org/wiki/UTF-8 dit "La spécification d'origine couverte nombres jusqu'à 31 bits (la limite initiale de la Universal Character Set). En novembre 2003, UTF-8 a été limitée par la RFC 3629 pour mettre fin à U+10FFFF, afin de répondre aux contraintes de l'UTF-16 encodage des caractères. Cette supprimé toutes les 5 - et 6-les séquences d'octets, et environ la moitié de la 4-les séquences d'octets."
- Les caractères 8 bits? Vous n'êtes pas en remontant assez loin. Dans les années '60, la norme est d'avoir 6 bits caractères. Caractères minuscules) n'étaient pas disponibles. Une rapide histoire.
- Je ne sais pas pour l'autre erreur est que @TuukkaMustonen se réfère, mais UTF-32 c'est en effet de longueur fixe: "UTF-32 est une longueur fixe de codage, contrairement à tous les autres Unicode transformation de formats, qui sont de longueur variable encodages."
InformationsquelleAutor
192

"Unicode" est malheureusement utilisé de différentes manières, selon le contexte. Son plus correct d'utiliser (OMI) est comme un jeu de caractères codés - c'est à dire un ensemble de caractères et une mise en correspondance entre les caractères et entier points de code les représentant.

UTF-8 est un codage de caractères - un chemin de conversion à partir des séquences d'octets à des séquences de caractères et vice versa. Elle couvre l'ensemble du jeu de caractères Unicode. L'ASCII est codé comme un seul octet par caractère, et d'autres personnages prennent plus d'octets selon exact de leur point de code (jusqu'à 4 octets pour l'ensemble défini des points de code, c'est à dire jusqu'à U-0010FFFF, et, de fait 4 octets peut faire face aux U-001FFFFF).

Lorsque "Unicode" est utilisé en tant que nom d'un codage de caractères (par exemple, comme l' .NET L'encodage.Unicode de la propriété), il signifie généralement UTF-16, qui code pour la plupart des caractères communs comme deux octets. Certaines plates-formes (notamment .NET et Java) utiliser l'UTF-16 comme leur "native" l'encodage des caractères. Cela conduit à des poilus de problèmes si vous avez besoin de s'inquiéter à propos des caractères qui ne peuvent pas être codée sur un seul UTF-16 valeur (ils sont codés comme "les paires de substitution") - mais la plupart des développeurs ne vous inquiétez pas à ce sujet, IME.

Quelques références sur Unicode:
- Le consortium Unicode site web et en particulier la tutoriels section
- Joël article
- Mon propre article (.NET-oriented)
- Je pense que UTF-16 seulement égaux "Unicode" sur les plates-formes Windows. Les gens ont tendance à utiliser l'UTF-8 par défaut sur *nix. +1 même si, de bonne réponse
- Je vais préciser que ce n'est pas un standard unicode, mais un sous-ensemble de la norme ISO 8859-1, et mis en œuvre que 1 octet unicode
- Non, ISO-8859-1 est pas UTF-8. UTF-8 code U+0080 à U+00FF comme deux octets, pas un seul. Windows 1252 et ISO-8859-1 sont surtout sur le même, mais ils diffèrent entre les valeurs 0x80 et 0x99 si je me souviens bien, où l'ISO 8859-1 a un "trou" mais CP1252 définit des caractères.
- Certains de vos sources ne sont pas à jour: UTF-8 utilise un maximum de quatre octets par caractère, et non pas six. Je crois qu'elle a été réduite principalement à éliminer le "trop" formes problème décrit par Markus Kuhn dans sa FAQ.
- Alan: j'ai d'abord eu comme 4 (voir les modifications), mais ensuite lire les bits erronés du document que j'ai lu. Doh. U-04000000 – U-7FFFFFFF prendrait 6 octets, mais il n'y a pas de caractères au-dessus de U-001FFFFF - au moins pour le moment...
- Le dernier que j'ai entendu, le maximum de point de code Unicode U+0010FFFF -- donc il n'y a même plus de place pour grandir. Ça va être un certain temps avant que nous avons à la greffe des paires de substitution sur UTF-32, comme l'auteur de la accepté de répondre semble penser que c'est le cas. 😉
- Absolument 🙂
- L'idée d'appeler UTF-16 "Unicode" se trouve du mal à vivre avec moi en raison de son potentiel de confondre - même si cela a été clairement souligné qu'un .NET de la convention. UTF-16 est un moyen de représenter l'Unicode, mais il n'est pas "Le codage Unicode".
- Ce n'est pas seulement un .NET de la convention. Je l'ai vu dans beaucoup d'endroits. Par exemple, ouvrez le bloc-notes et faire "Enregistrer sous" et l'une des options d'encodage est "Unicode". Je sais que c'est confus et imprécis, mais il vaut la peine d'être conscient que c'est assez répandue que le sens.
- M: me citer: "Le standard Unicode définit de moins en moins de points de code que ce qui peut être représenté en 32 bits." Le point est que l'UTF famille de codages permettent pour les paires de substitution, tandis que d'autres encodages ne pas.
- UTF-8 n'a pas besoin de paires de substitution. Il a juste représente non-BMP caractères à l'aide d'allonger progressivement les séquences d'octets.
- Mon point est que, contrairement à l'UTF-8 et UTF-16, UTF-32 a toujours été une largeur fixe l'encodage et le sera toujours. Si c'est dans le BMP ou l'un des plans supplémentaires, chaque point de code est représenté par quatre octets.
- Comme pour l'utilisation de "Unicode" le sens de l'UTF-16, vous avez raison, Jon: c'est une Microsoft convention plutôt qu'une .NET de la convention, et je déteste ça aussi. Ce genre de choses est assez difficile à expliquer sans MS exposer tous ses clients de cette façon flagrante d'une utilisation incorrecte.
- +1 pour expliquer la différence entre jeux de caractères (UCS-4) et encodages de caractères (UTF-8, -16, -32).
- Dans Unicode terminologie propre, UTF représente Unicode Transformation Format, alors ils préfèrent dire que UTF-8 est un format de transformation qu'un encodage des caractères, étant donné que le terme a été rendue ambiguë par de nombreuses personnes de l'utiliser dans de multiples façons contradictoires au fil des ans.
- Salut. Donc, le sens de la i.stack.imgur.com/MO0Cs.png ( lors de l'enregistrement de fichier de bloc-notes) est de "sauver le fichier en utf-16" ? cause ( comme vous l'avez dit) unicode est juste un tableau de points de code. alors que utf-x existe pour les "comment" sur magasin le point de code unicode.....suis-je la corriger?
- Oui, "Unicode" est malheureusement souvent utilisé pour signifier "UTF-16", en particulier dans Windows.
InformationsquelleAutor Jon Skeet
187

Permettez-moi de prendre un exemple pour illustrer ce sujet:
```
A chinese character:      汉
it's unicode value:       U+6C49
convert 6C49 to binary:   01101100 01001001
```
Rien de magique jusqu'à présent, c'est très simple. Maintenant, disons que vous décidez de stocker ce personnage sur notre disque dur. Pour ce faire, nous avons besoin de stocker les caractères dans le format binaire. Il suffit de l'enregistrer comme est "01101100 01001001'. Fait!

Mais attendez une minute, est "01101100 01001001' un personnage ou deux personnages? Vous saviez que c'est un personnage parce que je vous l'ai dit, mais quand un ordinateur, il lit, il n'a aucune idée. Donc nous avons besoin d'une sorte de "encodage" pour raconter l'ordinateur à la traiter comme une.

C'est là que les règles de 'UTF-8' vient en: http://www.fileformat.info/info/unicode/utf8.htm
```
Binary format of bytes in sequence

1st Byte    2nd Byte    3rd Byte    4th Byte    Number of Free Bits   Maximum Expressible Unicode Value
0xxxxxxx                                                7             007F hex (127)
110xxxxx    10xxxxxx                                (5+6)=11          07FF hex (2047)
1110xxxx    10xxxxxx    10xxxxxx                  (4+6+6)=16          FFFF hex (65535)
11110xxx    10xxxxxx    10xxxxxx    10xxxxxx    (3+6+6+6)=21          10FFFF hex (1,114,111)
```
Selon le tableau ci-dessus, si nous voulons stocker ce personnage à l'aide de la 'UTF-8' format, nous avons besoin de préfixe de notre caractère, avec une certaine "en-têtes". Notre caractère chinois est de 16 bits de long (compter la valeur binaire vous-même), on va donc utiliser le format sur la ligne 3, car il fournit assez d'espace:
```
Header  Place holder    Fill in our Binary   Result         
1110    xxxx            0110                 11100110
10      xxxxxx          110001               10110001
10      xxxxxx          001001               10001001
```
Écrit le résultat dans une seule ligne:
```
11100110 10110001 10001001
```
C'est de l'UTF-8 (binaire) de la valeur du caractère chinois! (confirmer vous-même: http://www.fileformat.info/info/unicode/char/6c49/index.htm)

Résumé
```
A chinese character:      汉
it's unicode value:       U+6C49
convert 6C49 to binary:   01101100 01001001
embed 6C49 as UTF-8:      11100110 10110001 10001001
```
P. S. Si vous voulez apprendre cette rubrique en python, cliquez ici
- "Mais attendez une minute, est "01101100 01001001' un personnage ou deux personnages? Vous saviez que c'est un personnage parce que je vous l'ai dit, mais quand un ordinateur, il lit, il n'a aucune idée. Donc nous avons besoin d'une sorte de "encodage" pour indiquer à l'ordinateur de les traiter comme un seul." Bon ok, mais l'ordinateur ne démarre toujours pas connaître il faut l'encoder en utf-8 ?
- L'ordinateur ne sait pas ce que l'encodage à utiliser. Vous avez à dire lorsque vous enregistrez un caractère dans un fichier, et également lorsque vous lisez un caractère à partir d'un fichier.
- Comment l'ordinateur sait à choisir le format de "ligne 3"? Comment sait-il que le caractère Chinois les besoins en 16 bits?
- L'ordinateur ne sait pas quel format utiliser. Lorsque vous enregistrez le document, l'éditeur de texte a définir explicitement son encodage utf-8 ou de n'importe quel format que l'utilisateur souhaite utiliser. Aussi, lorsqu'un éditeur de texte programme lit un fichier, il est nécessaire de sélectionner un schéma de codage de texte à décoder correctement. En va de même lorsque vous tapez du texte et de saisir une lettre, l'éditeur de texte a besoin de savoir quel système vous utilisez, afin qu'il permettra d'économiser correctement.
- Alors, comment sont ces têtes interprétée? si je regarde la première table, alors je pense: si l'octet commence avec peu 0 puis le personnage est représenté par 1 morsure (l'actuel), si l'octet commence par 110 puis le personnage est représenté par 2 octets(l'actuel et le suivant(les bits restants après 10)), si l'octet commence par 1110 puis le personnage est représenté par 3 octets, l'actuelle et la prochaine 2 octets(bits restants après 10).
- En UTF-8, la plupart des Chinois caractères prendre 3 octets chaque. Un peu de prendre 4 octets, donc avoir une Unicode "point de code" plus grand que 65K. Nouveaux Emoji personnages aussi besoin de 4 octets.
- Lire les 10 articles sur UTF-8; après la lecture de ce que j'ai compris dans un délai de 10 secondes:)
InformationsquelleAutor Cheng
107

Ils ne sont pas la même chose - UTF-8 est une façon particulière de codage Unicode.

Il ya beaucoup de différents encodages vous pouvez choisir en fonction de votre application et les données que vous souhaitez utiliser. Les plus courants sont en UTF-8, UTF-16 et UTF-32 s ce que je sais.
- toutefois, le point est que certains éditeurs proposent d'enregistrer le fichier en tant que "Unicode" OU "UTF-8". Donc, la mention à ce sujet "Unicode", c'est en UTF-16 je crois nécessaire.
InformationsquelleAutor Greg
62

Unicode définit seulement points de code, c'est un nombre qui représente un personnage. La façon dont vous stockez ces points de code dans la mémoire dépend de la encodage que vous utilisez. UTF-8 est un moyen de codage de caractères Unicode, parmi beaucoup d'autres.
- toutefois, le point est que certains éditeurs proposent d'enregistrer le fichier en tant que "Unicode" OU "UTF-8". Donc, la mention à ce sujet "Unicode", c'est en UTF-16 je crois nécessaire.
- Un certain nombre, qui présente un caractère ASCII ainsi.
- lisez ceci avant et après avoir regardé le reste des réponses sur cette page
InformationsquelleAutor Martin Cote
29

Unicode est une norme qui définit, avec la norme ISO/CEI 10646, Universal Character Set (UCS) qui est un sur-ensemble de tous les caractères nécessaires pour représenter presque toutes les langues connues.

Unicode attribue un Nom et un Numéro (Code de Caractère, ou de Point de Code) à chaque personnage dans son répertoire.

L'encodage UTF-8, est une manière de représenter ces caractères sous forme numérique dans la mémoire de l'ordinateur. UTF-8 cartes de chaque point de code en une séquence d'octets (8 bits octets)

Pour, par exemple,

UCS Caractère = Unicode Han Caractère

Code UCS-point = U+24B62

L'encodage UTF-8 = F0 A4 AD A2 (hex) = 11110000 10100100 10101101 10100010 (bin)
- Non, UTF-8 cartes seulement codepoints dans une séquence qui sont supérieures à 127. Tout, de 0 à 127 n'est pas un ordre, mais un seul octet. B. t.w., ASCII attribue un Nom d'un personnage à un certain nombre, donc c'est la même quel Unicode ne. Mais Unicode ne s'arrête pas à la codepoint 127, mais va jusqu'à 0x10ffff.
- Je diffèrent. Les caractères Ascii sont en effet mappé à un seul octet de la séquence. Le premier bit, qui est 0 dans le cas de code de caractères ascii, indique combien d'octets suivez - zéro. http://www.wikiwand.com/en/UTF-8#/Description Ont un coup d'oeil à la première ligne.
- Pour moi, une séquence se compose de plus d'un octet. Un caractère ASCII à l'intérieur de l'UTF-8 est un octet comme c'est, avec le bit le plus significatif à 0. Codepoints supérieure à 127 alors besoin de séquences, qui ont toujours un startbyte et un, deux ou trois octets. Alors, pourquoi voulez-vous appeler un seul octet d'une "séquence"?
- Bien... de Nombreuses fois en langue anglaise, les avocats peuvent obtenir dérouté plus c'est une mauvaise utilisation intentionnelle en logiciel. C'est le même cas ici. Vous pouvez argumenter sur elle. Mais cela ne le rendra pas plus clair.
- Hmmm, En mathématiques, un séquence de 0 les éléments de son OK. Une séquence de 1 élément est très bien ici aussi.
- Lors de l'utilisation de l'utf-8 et le stockage de juste un seul octet qui fait un caractère ASCII, on peut encore appeler ça un utf-8 de la séquence de cours. En effet, l'utf-8 est souvent expliqué comme un octet de la séquence, peu importe le nombre de caractères de la séquence contient.
InformationsquelleAutor nightlytrails
24

Unicode est juste une norme qui définit un jeu de caractères (UCS) et les codages (UTF) pour coder ce jeu de caractères. Mais en général, l'Unicode est appelé le jeu de caractères et non pas la norme.

Lire Le Minimum Absolu que Tout Développeur Doit Absolument, Positivement Savoir Sur Unicode et les Jeux de Caractères (Pas d'Excuses!) et Unicode Dans Les 5 Minutes.
- Je sais. Bien qu'il existe trois différents encodages UTF-16: Les deux explicite UTF-16LE et UTF-16BE et l'implicite UTF-16 où l'endianness est spécifié avec une NOMENCLATURE.
- L'absence d'une NOMENCLATURE, ne signifie pas que c'est un codage différent. Il y a seulement deux codages.
- Le blog ci-dessus est écrit par le chef de la direction de Stakcoverflow.
InformationsquelleAutor Gumbo
21

Les questions /réponses déjà expliquer beaucoup de détails, mais en voici une très courte réponse avec la plus directe explication et exemple.

Unicode est la standard que les cartes de personnages à codepoints.

Chaque personnage a un codepoint unique (numéro d'identification), qui est un nombre comme 9731.

UTF-8 est un l encodage de la codepoints.

Afin de stocker tous les personnages sur le disque (dans un fichier), UTF-8 divise personnages jusqu'à 4 octets (8 bits séquences) - octets.
UTF-8 est l'un de plusieurs codages (méthodes de représentation des données). Par exemple, dans Unicode, l' (décimal) codepoint 9731 représente un bonhomme de neige (☃), qui se compose de 3 octets en UTF-8: E2 98 83

Voici un liste triée avec quelques exemples aléatoires.
- Non! UTF-8 est une belle façon de coder des caractères unicode, mais nous pouvons coder aussi en UTF-16 ou UTF-32. Avec l'encodage UTF-32, nous avons un rapport de 1:1 rapport entre la valeur DWORD et codepoint, avec UTF-16, nous avons un rapport de 1:1 rapport entre le MOT et l'codepoint seulement pour codepoints de la BMP, à l'exclusion des mères porteuses, et les Nomenclatures. En UTF-8, nous avons un rapport de 1:1 rapport entre byte et codepoint juste pour codepoints < 127.
- Droit, mais pourquoi "Non!"? J'ai écrit "UTF-8 est l'un de plusieurs encodages" parce que il y a aussi l'UTF-16 et UTF-32.
InformationsquelleAutor basic6
15

1. Unicode

Il y a beaucoup de personnages à travers le monde,comme "$,&,h,a,t,?,张,1,=,+...".

Ensuite, il vient d'une organisation qui a pour objectif de ces personnages,

Ils ont fait une norme appelée "Unicode".

La norme est comme suit:
- créer un formulaire dans lequel chaque position est appelée "point de code"ou"code".
- L'ensemble des postes sont à partir de U+0000 à U+10FFFF;
- Jusqu'à maintenant,certains postes sont remplis de personnages,et d'autres positions sont enregistrées ou vide.
- Par exemple,la position de "U+0024" est rempli par le caractère "$".
PS:bien sûr, il y a une autre organisation appelée ISO maintien d'une autre norme --"ISO 10646"，près de la même.

2. UTF-8

Comme ci-dessus,U+0024 est juste une position,de sorte que nous ne pouvons pas sauver "U+0024" dans l'ordinateur pour le caractère "$".

Il doit y avoir une méthode de codage.

Puis, il est des méthodes de codage,comme UTF-8,UTF-16,UTF-32,UCS-2....

En vertu de l'UTF-8,le point de code U+0024" est codé en 00100100.

00100100 est la valeur que nous enregistrer dans l'ordinateur pour "$".
- En général, UTF-8 est la seule variante que quelqu'un utilise aujourd'hui.
- L'ISO 10646 est un standard identique pour le jeu de caractères Unicode. Unicode définit un tas de choses autres que le jeu de caractères, tels que les règles de tri, cas, etc. L'ISO 10646 est juste le jeu de caractères (il en existe actuellement plus de 130 000). Le Consortium Unicode et l'ISO élabore Unicode conjointement avec l'ISO concerné seulement avec le jeu de caractères et de ses encodages Unicode et aussi de définir les propriétés de caractère et de règles pour le traitement de texte.
InformationsquelleAutor wengeezhang
12

J'ai vérifié les liens dans Gumbo réponse, et j'ai voulu coller une partie de ces choses là existent sur Pile Overflow ainsi.

"...Peu de gens sont sous la fausse idée qu'Unicode est simplement un code de 16 bits où chaque personnage prend de 16 bits et donc il y a 65536 caractères possibles. Ce n'est pas, en fait, de les corriger. C'est le mythe le plus commun sur Unicode, donc si vous avez pensé que, ne vous sentez pas mal.

En fait, Unicode a une autre façon de penser sur les personnages, et vous devez comprendre l'Unicode façon de penser à des choses ou rien du sens.

Jusqu'à présent, nous avons supposé qu'une lettre de cartes des bits que vous pouvez stocker sur disque ou en mémoire:

A -> 0100 0001

En Unicode, une lettre correspond à quelque chose appelé un point de code qui n'est qu'un concept théorique. Comment ce point de code est représenté en mémoire ou sur le disque est une toute autre histoire..."

"...Toute platonique lettre dans chaque alphabet est attribué un nombre magique par le consortium Unicode qui est écrit comme ceci: U+0639. Ce nombre magique est appelé un point de code. Le U+ signifie "Unicode", et les chiffres sont en hexadécimal. U+0639 est la lettre arabe Ain. La lettre anglaise A, U+0041...."

"...OK, alors disons que nous avons une chaîne de caractères:

Bonjour

qui, en Unicode, correspond à cinq points de code:

U+0048 U+0065 U+006C U+006C U+006F.

Tout un tas de points de code. Numéros, vraiment. Nous n'avons pas encore dit rien sur la façon de les stocker dans la mémoire ou de la représenter dans un message e-mail..."

"...C'est là que les encodages sont en.

La première idée pour l'encodage Unicode, ce qui a conduit au mythe des deux octets, était, hey, nous allons stocker ces nombres dans deux octets chacun. Donc Bonjour devient

00 48 00 65 00 6C 00 6C 00 6F

Droit? Pas si vite! Ne pourrait-elle pas être:

48 00 65 00 6C 00 6C 00 6F 00 ? ..."
- En ASCII, une lettre correspond à un codepoint trop, et pas seulement en unicode.
InformationsquelleAutor kommradHomer
3

Unicode est une vaste étendue de la norme qui définit de plus de 130 000 caractères et attribue à chacun un code numérique ("codepoint"). Il définit également les règles de tri de ce texte, le normaliser, de changer son cas, et plus encore. Un caractère Unicode est représenté par un point de code à partir de zéro jusqu'à 0x10FFFF inclusive, même si certains points de code sont réservés et ne peuvent pas être utilisés pour les personnages.

Les codes Unicode peut être représentée dans plus d'un encodage. Le plus simple est de l'UTF-32, qui, tout simplement, encode le point de code en tant que nombres entiers de 32 bits, chacune de 4 octets.

UTF-8 est un autre codage, et en train de devenir rapidement le standard de facto. Il code pour une séquence de valeurs d'octets. Chaque code peut utiliser un nombre variable de ces octets. Les points de Code dans la plage ASCII sont codés à nu, pour être compatible avec l'ASCII. Les points de Code en dehors de cette gamme, l'emploi d'un nombre variable d'octets, soit 2, 3, ou 4, en fonction de la portée, ils sont.

UTF-8 a été conçu avec ces propriétés à l'esprit:
- Les caractères ASCII sont codés de la même manière qu'ils sont en ASCII, tels qu'une chaîne de caractères ASCII est également valable en tant que UTF-8.
- Binaire de tri: le Tri des chaînes UTF-8 à l'aide d'un naïf de tri binaire sera toujours dans tous les points de code triés dans l'ordre numérique.
- Les caractères en dehors de la plage ASCII ne pas utiliser tous les octets de la plage ASCII, en s'assurant qu'ils ne peuvent pas être confondu avec les caractères ASCII. C'est également une fonctionnalité de sécurité.
- UTF-8 peut facilement être validé, et de les distinguer des autres codages de caractères par un validateur. Texte dans d'autres 8 bits ou multi-octets codages très rarement également de valider en tant que UTF-8.
- Accès aléatoire: en tout point de la chaîne UTF-8, il est possible de dire si l'octet à cette position est le premier octet d'un caractère ou non, et pour revenir au début de ce personnage, sans avoir besoin de se référer à quoi que ce soit au début de la chaîne.
InformationsquelleAutor thomasrutter
1

Ils sont la même chose, n'est-ce pas?

Non, ils ne sont pas.

Je pense que la première phrase de l' Page Wikipedia vous avez référencé donne une belle, bref résumé:

UTF-8 est d'une largeur variable de codage de caractères vous permet d'encoder toutes les 1,112,064 valide les points de code Unicode à l'aide de un à quatre octets de 8 bits.

D'élaborer:
- Unicode est une norme qui définit un carte des personnages numéros, le soi-disant points de code, (comme dans l'exemple ci-dessous). Pour l'une cartographie complète, vous pouvez avoir un coup d'oeil ici.
```
! -> U+0021 (21),  
" -> U+0022 (22),  
\# -> U+0023 (23)
```
- UTF-8 est l'un des moyens pour coder ces points de code dans une forme un ordinateur peut comprendre, aka bits. En d'autres termes, c'est un moyen/de l'algorithme pour convertir chacun de ces points de code pour une séquence de bits ou de convertir une séquence de bits de l'équivalent de points de code. Notez qu'il existe beaucoup de variante encodage Unicode.
Joel donne une très bonne explication et un aperçu de l'histoire ici.

InformationsquelleAutor Dimos
0

UTF-8 est une méthode de codage de caractères Unicode à l'aide de 8 séquences de bits.

Unicode est un standard pour la représentation d'une grande variété de caractères à partir de plusieurs langues.
- "8-les séquences de bits"...? Peut spécifier plus précisément...
InformationsquelleAutor akaMahesh
0

Si je peux résumer ce que j'ai recueillies à partir de ce fil:

Unicode 'traduit' caractères pour les nombres ordinaux (sous forme décimale).
```
à = 224
```
UTF-8 est un encodage 'traduit' de ces chiffres binaires représentations.
```
224 = 11000011 10100000
```
InformationsquelleAutor Raimi bin Karim

Vous devez vous connecter pour publier un commentaire.

Résumé

1. Unicode

2. UTF-8