Est ISO-8859-1 un jeu de caractères Unicode?

J'ai assisté à une conférence sur le XML dans lequel il était écrit "ISO-8859-1 est un format Unicode". Ça sonne faux pour moi, mais comme je fais des recherches sur elle, j'ai du mal à comprendre précisément ce que l'Unicode.

Pouvez-vous appeler ISO-8859-1 un format Unicode ? Ce que vous pouvez réellement appeler Unicode ?

OriginalL'auteur mdup | 2012-10-09

5

Non, ISO 8859-1 est pas un jeu de caractères Unicode, tout simplement parce que la norme ISO 8859-1 ne fournit pas de codage pour tous les caractères Unicode, seulement un petit sous-ensemble de celui-ci. Le mot “charset” est parfois utilisé de façon imprécise (et donc souvent mieux éviter), mais comme un terme technique, il signifie un codage de caractères.

De desserrage de la définition de “jeu de caractères Unicode” signifierait un codage qui couvre une partie de l'Unicode serait inutile. Ensuite, chaque encodage serait un “jeu de caractères Unicode”.

OriginalL'auteur Jukka K. Korpela
9

ISO 8859-1 n'est pas Unicode

ISO 8859-1 est aussi connu sous le nom Latin-1. Il n'est pas directement une Unicode format.

Cependant, elle a le privilège unique que ses points de code 0x00 .. 0xFF carte un-à-un pour les points de code Unicode U+0000 .. U+00FF. Ainsi, la première 256 points de code Unicode, traité comme 1 octet des entiers non signés, carte à la norme ISO 8859-1.

Caractères de contrôle

Peregring-lc observe que l'ISO 8859-1 ne définit pas les codes de contrôle. L'Unicode des graphiques pour U+0000..U+007F et U+0080..U+00FF suggèrent que le C0 commandes qui se trouvent dans des positions de U+0000..U+001F et U+007F venir de l'ISO/CEI 6429:1992 et la C1 commandes qui se trouvent dans des positions U+0080..U+9F même. Wikipédia sur le C0 et C1 contrôles suggère que la norme ISO/CEI 2022 à la place. Noter que trois des contrôles C1 n'ont pas de nom officiel.

En général, le langage, le code de contrôle les points de la norme ISO 8859-1 jeu de codes sont supposées être le C0 et C1 contrôles de la norme ISO 6429 (ou 2022).

Et à cause de cela, l'ISO-8859-1 est sujette à des "accidentelle" d'utiliser dans le code qui jette entre byte et (large) char au lieu de procéder à une bonne conversion de jeux de caractères.
C'est faux. ISO-8859-1 ne contiennent pas le contrôle les caractères Unicode dans la gamme 0x00 - 0xFF.

OriginalL'auteur Jonathan Leffler
7

ISO-8859-1 contient un sous-ensemble de l'UTF-8 Unicode, ce qui a beaucoup de chevauchements avec l'ASCII.

Tous ASCII, UTF-8 Unicode.

Tous le jeu de caractères ISO 8859-1 (ISO Latin 1) les caractères ci-dessous les codes 7f hex sont compatible ASCII et UTF-8 compatible dans un seul octet. Les ligatures et les personnages avec des signes diacritiques utilisation multi-octets Unicode UTF-8 représentations, et l'utilisation de l'Unicode compatibilité codepoints.

Tous UTF-8 caractères codés sur un octet sont contenus dans un format ASCII.

UTF-8 contient également multi-séquences d'octets, dont certains sont collatable (c'est à dire triable) quasi - composé équivalents de caractères représenté par la compatibilité codepoints, et certaines qui sont les personnages représentés par tous les autres jeux de caractères autres que l'ASCII et ISO Latin 1.

OriginalL'auteur Euan M
2

Pas. ISO/CEI 8859-1 est âgé de plus de Unicode. Par exemple, vous ne trouverez pas de €. Unicode est compatible à la norme ISO 8859-1 jusqu'à un certain point. Pour le codage de caractères Unicode regarder UCS /UTF8 /UTF16.

Si vous regardez les formats de code que vous avez quelque chose comme
- Résumé de lettres que vous utilisez
- Table de Code - Apporter les lettres d'une certaine manière (comme alphabétique tri)
- Format de Code - Dire dont la position dans la table de code est la lettre, (c'est de l'UTF8 ou UTF16 encodage)
- Code de schéma - Si vous utilisez des mots de plus pour accéder à une position dans le code, dans quel ordre sont-ils? (Big Endian, Little Endian en UTF16)
  [encodage des caractères de pilotage de l'enseignement (par exemple, < en XML)]
ISO/CEI 8859-1 n'a pas € mais 8859-15.

OriginalL'auteur Offler
1

Cela dépend de comment vous définissez "format Unicode."

Je pense que la plupart des gens cela signifie un codage capable de représenter toute codepoint en Unicode (U+0000 À U+10FFFF).

Dans ce cas, non, ISO 8859-1 est pas un format Unicode.

Cependant, certaines autres définitions pourraient être "un jeu de caractères qui est un sous-ensemble du jeu de caractères Unicode," ou " un codage qui peut être considérée comme contenant des données Unicode (pas nécessairement arbitraire de données Unicode).' ISO 8859-1 répond à ces deux définitions.

Unicode est un certain nombre de choses. Il contient un jeu de caractères, dans laquelle les personnages sont affectées à des valeurs de codepoint. Il définit les propriétés de caractères et fournit une base de données de caractères et de leurs propriétés. Il définit de nombreux algorithmes pour faire différentes choses avec le texte Unicode de données, tels que les moyens de comparaison de chaînes, de la division de chaînes en graphème les clusters, les mots, etc. Il définit des années, des codages qui peut encoder n'importe quel Unicode codepoint et certains ont d'autres propriétés utiles. Il définit les mappages entre Unicode codepoints et codepoints de l'héritage des jeux de caractères.

Ici vous pouvez trouver une réponse plus complète: Unicode.org

OriginalL'auteur bames53

Vous devez vous connecter pour publier un commentaire.

ISO 8859-1 n'est pas Unicode

Caractères de contrôle