Quel est le but de la noncharacters U+FDD0 à U+FDEF?

U+FFFE doit être un caractère, afin de permettre à la Marque d'Ordre d'Octet de travail.

U+FFFF est décrit dans Le Standard Unicode "utile à des fins internes, comme des sentinelles". Du sens.

Mais je ne peux pas comprendre, et Le Standard Unicode n'est pas vraiment expliquer pourquoi l'ensemble de noncharacters comprend un hasard bloc au sein de "l'arabe de Formulaires de Présentation-Un". Ce sont ces pour? (D'ailleurs l'œil du basilic?)

Soin d'expliquer la bande dessinée?
vérifiez le texte de la bande dessinée. (passez la souris/info-bulle)

InformationsquelleAutor dan04 | 2011-03-04

unicode

42

OK la question est: "quels sont-ils et Pourquoi sont-ils dans le milieu de l'arabe, Présentation des Formes".
- Il y avait un besoin pour un bloc de 32 non-caractères "pour faire d'autres codes disponibles pour les programmeurs à utiliser pour le traitement interne des fins de" http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=IWS-Chapter04a#4d3110c8
- Il était nécessaire qu'il soit dans le Plan Multilingue de Base (BMP), c'est à dire 0x0000 à 0xFFFF, afin qu'ils puissent avoir un seul codepoint représentations en UTF-16.
- Il y avait un bloc de inutilisés codepoints en arabe, de la Présentation des Formes de bloc.
- Il avait été convenu de ne pas coder plus arabe de Formulaires de Présentation, de sorte que ces n'ont jamais été va être utilisé.
  http://www.unicode.org/mail-arch/unicode-ml/y2001-m10/0014.html
Par conséquent, il a été convenu que ces codepoints, qui n'ont jamais été destiné à être utilisé autrement, serait désigné noncharacters afin qu'ils puissent être utilisés à l'interne par les applications/programmeurs.
- N'explique pas vraiment pourquoi ils n'utilisent pas FFF0 grâce à FFFF.
- FFF9 par FFFF sont déjà prises pour d'autres fins. unicode.org/charts/PDF/UFFF0.pdf
- Ah, ces caractères ont été ajoutés après FFF9 par FFFF ont été attribués.
InformationsquelleAutor Ben
15

Ces noncharacters sont pour un usage interne et ne sont pas interchangeables.

J'ai essayé d'expliquer basé sur ce qui est dit dans le standard Unicode.

Unicode a obtenu 66 non-caractères. Pour tous les 17 plans qu'ils ont deux chacune, deux derniers points de code de l'avion se terminant avec FFFE FFFF. 32 a pas d'autres caractères sont bloc continu U+FDD0 à U+FDEF.

Donc nombre total
```
 17*2 + 32 = 66
```
Lire la suite du texte à partir de l'unicode chapitre 16, qui dit que ses aléatoire, dans certains endroit en raison de la "raison historique", je suis curieux, mais je ne pense pas qu'il y a une ambiguïté.

Pour des raisons historiques, la plage U+FDD0..U+FDEF est contenue dans l'arabe de Formulaires de Présentation-Un bloc, mais ceux noncharacters ne sont pas
"L'arabe noncharacters" ou "de droite à gauche noncharacters," et ne sont pas distingués dans toute
autre chemin de l'autre noncharacters, sauf dans leurs valeurs de point de code

U+FEFF est de la NOMENCLATURE et U+FFFE est d'octets échangés version de celui-ci. Mais depuis U+FFFE est un caractère, lorsqu'un processus d'interprétation, trouve U+FFFE comme premier caractère, il signale que le processus a rencontré le texte c'est de la mauvaise octet de commande ou que le fichier n'est pas valide Unicode texte, Il donne juste un signal, pas d'une manière standard. Il peut être soit de l'un, inverser les octets ou un mauvais texte.

Dans l'Unicode la section 3.2 clause C2 dit
C2, Un processus ne peut pas interpréter un caractère de point de code comme un personnage abstrait.
- Le caractère des points de code peut être utilisé en interne, comme pour les sentinelles, des valeurs ou des séparateurs, mais ne devrait pas être échangés publiquement.
De sorte que les développeurs d'applications, vous êtes libre d'utiliser ces caractères comme vous le souhaitez. Ils sont utilisés comme sentinelles ou delimter ou peut-être certains baslik personnages, mais ils ne doivent pas être interchangeables.

Section 16.7 dit

En effet, noncharacters peut être considéré comme l'application interne privé-utilisation des points de code.
À la différence du privé,-utiliser des caractères discuté dans la Section 16.5, Privé-Utilisez des Caractères, qui
sont les caractères assignés et qui sont destinés à ouvrir échange, sous réserve de
interprétation par acte sous seing privé, noncharacters sont définitivement réservée (unassigned)
et n'ont pas d'interprétation que ce soit à l'extérieur de leur application-privé interne utilise

Nouveau U+FFFF n'est pas réservé que les sentinelles par le standard Unicode, mais simplement le cas d'utilisation typique. Lire dans section 16.7

U+FFFF et U+10FFFF. Ces deux caractère de code de points d'attribut de l'être
associée à la plus grande unité de code de valeurs particulières pour l'encodage Unicode formes. Dans
UTF-16, U+FFFF est associé avec le plus grand code 16 bits de la valeur de l'unité, FFFF₁₆
U+10FFFF est associée à la plus grande juridiques UTF-32 32-bits de code de l'unité de valeur, 10FFFF₁₆
Cette caractéristique rend ces deux caractère de code de points utiles à des fins internes, comme des sentinelles. Pour
exemple, ils peuvent être utilisés pour indiquer la fin d'une liste, pour représenter une valeur dans un index
la garantie d'être plus élevé que pour être valable, toute valeur de caractère, et ainsi de suite
- Pourquoi downvote?. Laissez-moi savoir la question ..
- Non, je n'ai pas dit que U+FFFE est la NOMENCLATURE. J'ai dit que U+FFFE du caractère d'état est nécessaire pour permettre U+FEFF à la NOMENCLATURE. Et vous n'avez pas répondu à ma question, mais juste copier/coller le même lien que j'ai compris.
- Ok. Désolé j'ai mal sur la NOMENCLATURE de la partie, je vais modifier cela. Mais il dit que sa particularité, et non pas par la norme. Il dit qu'il peut être utilisé comme "signal fort" et pas sûr-shot moyen de déterminer. Et Il le dit, il a réservé d'autres points pour l'application de décider comment l'utiliser.
- Eh bien, je peux voir les utilisations internes sentinelle noncharacters. Mais Unicode 3.0 avaient déjà 34 d'entre eux. Pourquoi le besoin d'ajouter une autre 32 en 3.1?
- Ok. Si comprends bien votre question est ce que c'est que "raisons Historiques" pour la réservation de 32 nouveaux personnages?. Aucune explication ne peut être trouvée dans Unicode spec. J'imagine que ça peut être parce qu'ils ont senti le besoin de plus de non-caractères au format BMP, BMP avait que deux et ses les plus utilisés de l'avion et les deux avaient déjà de l'utiliser. Un exemple en est, je pense, de l'application Java.
InformationsquelleAutor Zimbabao
9

Comme mentionné ici, à xkcd, U+FDD0 est en fait le caractère Unicode pour l'œil d'un basilic. Pour (évident) des raisons de sécurité personnelle toutefois, le caractère n'est pas affichée à l'écran... 🙂
- Faux! C'est le permanente de l'espace réservé pour l'Œil du Basilic, et a été choisi pour (obvious) des raisons historiques.
InformationsquelleAutor Joshua Burns

Vous devez vous connecter pour publier un commentaire.