taille de type char en c#

Demandais juste pourquoi nous avons char type de 2 octets taille en C# (.NET) contrairement à 1 de l'octet dans d'autres langages de programmation?

Pourquoi est-ce que C# utiliser l'UTF-16 pour les chaînes de caractères?

InformationsquelleAutor Manish Basantani | 2010-01-25

.net c#character-encoding

33

Un char est de l'unicode en C#, donc le nombre de caractères dépasse 255. De sorte que vous aurez besoin de deux octets.

ASCII étendus, par exemple, a un 255-char, et peut donc être stocké dans un octet. C'est aussi le but de l' System.Encoding espace de noms, comme les différents systèmes peuvent avoir différents jeux de caractères, et l'omble de tailles. C# peut donc gérer un/quatre/etc. char octets, mais Unicode UTF-16 est par défaut.
- Avec Unicode étant de 21 bits de code c'est un peu exagéré de dire que c'est pourquoi vous avez besoin de deux octets.
- Le charactors sont représentés à l'aide de l'UTF-16, ce qui signifie que chaque charactor utilise au moins 16 bits ou 2 octets (même ASCII charactors qui ne nécessitent que 7 bits). Si la valeur unicode est plus assez, un seul charactor qui serait d'imprimer à l'écran sera réellement besoin de deux chars.
- La première phrase de cette réponse ignore l'existence de la variable de caractères de largeur.
- Si la taille est de 2 octets ou 16 bits, alors il peut uniquement contenir des caractères avoir code décimal-point de moins que 2^16 = 65536. Que faire si je veux stocker un certain personnage ayant le code de point supérieure à cette valeur. c'est à dire les émoticônes
InformationsquelleAutor Jan Jongboom
23

Je devine avec “autres langages de programmation” vous dire C. C a en fait deux différentes char types: char et wchar_t. char peut être un octet de long, wchar_t pas nécessairement.

En C# (et .NET) pour cette question, toutes les chaînes de caractères sont codés en Unicode en UTF-16. C'est pourquoi un char dans .NET représente un seul UTF-16 code unité qui peut être un point de code ou la moitié d'une paire de substitution (et non pas un personnage, à l'époque).
- Référence: docs.microsoft.com/en-us/dotnet/api/...
InformationsquelleAutor Joey
3

En fait C#, ou plus exactement du CLR, la taille de char est compatible avec la plupart des autres langages managés. Géré langages, comme Java, ont tendance à être plus récents et des articles comme support de l'unicode construit à partir du sol. Le prolongement naturel de soutenir des chaînes unicode est à unicode de char.

Plus anciens langages tels que le C/C++ a commencé en ASCII, et seulement plus tard ajouté le support de l'unicode.

InformationsquelleAutor JaredPar
1

En raison d'un caractère dans un C# string par défaut l'encodage UTF-16 de l'Unicode, qui est de 2 octets (par défaut).

InformationsquelleAutor Bob Moore
0

Parce que les chaînes de dans .NET sont codés comme 2 octets Unicode charactes.
- (a) les Chaînes sont des séquences de caractères. (b) Il n'y a pas de 2 octets de caractères Unicode. Vous pouvez être à la recherche pour les termes unité de code et point de code. Et avec le dernier, il y a toujours pas de 16 bits, seulement 21.
- UTF-8/16/32 != Unicode
- Alors, quelle est la relation entre un C# de caractères et de point de code Unicode?
- C# est un code UTF-16 unité qui peut décrire un point de code Unicode ou est la moitié d'une paire de substitution.
InformationsquelleAutor Dawid Ohia
0

C# à l'aide de 16 bits largeur de caractère a probablement plus à voir avec la performance plutôt qu'autre chose.

Tout d'abord, si vous utilisez UTF-8, vous pouvez adapter chaque caractère dans la "bonne" quantité d'espace. C'est parce que l'UTF-8 est de largeur variable. ASCII les caractères sur 8 bits alors que les plus grands personnages vont utiliser plus.

Mais de longueur variable de codage de caractères encourage une O(n) la complexité de l'algorithme dans les scénarios courants. E. g. Récupération d'un personnage à un endroit particulier dans une chaîne de caractères. Il y a eu des débats publics sur ce point. Mais la solution la plus simple est de continuer à l'aide d'une largeur de caractère qui s'adapte à la plupart de votre jeu de caractères, de tronquer les autres. Maintenant, vous avez un caractère fixe largeur.

À proprement parler, UTF-16 est aussi une largeur variable de codage, de sorte que C# ( et Java d'ailleurs ) sont en utilisant quelque chose d'un hybride depuis leur largeur des caractères ne sont jamais 32 bits.
- Je vote pour le premier, le deuxième et dernier alinéas; mais je vote pour la troisième paragraphe. C'est toujours mieux que les autres réponses, y compris le haut/accepté de répondre à bien. P. S. vous avez une faute de frappe: "Maintenant, la vous avez un caractère fixe largeur".
- Je suis curieux, quel est le 3e paragraphe croyez-vous est incorrect. Vous pouvez obtenir un personnage à un emplacement spécifique dans une largeur variable de chaîne de char à l'aide de mieux que O(n)?
- Parce qu'il soutient que la raison était d'avoir de longueur fixe l'encodage en commun des scénarios. La légitime scénarios pour le traitement de texte de longueur fixe sont que quelques-unes. Il y a plus courantes sont les seul jouet, ignorants, et à courte vue, ceux qui conduisent inévitablement à des bugs. Non seulement les développeurs C# savoir cela, mais C# développement a été à l'initiative de trois ans après Unicode déplacé au-delà de 16 bits et Microsoft a été un membre clé de l'Unicode consortium tout au long de. Maintenant ce sont certainement des facteurs dans la décision de l'UCS-2 pour Java et Windows NT, mais pour C# les raisons ne peut avoir été l'héritage et de l'élan.
- Je ne suis pas sûr nécessitant un O(n) charAt() et autres fonctions peuvent être considérés comme des "jouets" ou "courte-vue à long terme". En tout cas, c'est la raison que j'ai eu de compilateur des auteurs eux-mêmes ( pas de c#), mais la même algorithmique limitations s'appliquent.
- Je suis constamment en cours d'exécution en bugs dus aux programmeurs expérimentés faisant cette hypothèse. C'est ainsi que je peux à cette question hier. Maintenant, j'aimerais entendre le C# devs eux-mêmes et je upvote quelles que soient leurs raisons sont. Mais deviner à leurs raisons, on peut à la fois faire et comme vous le voyez, nous pouvons deviner différemment, ce qui rend notre des réponses subjectives. À mon avis, leur raisonnement était "Java fait". Les Api de Windows utiliser. Tapez les noms sont un peu ensemble. Nous devrions nous en tenir à cela." En fin de compte, il ne nous a pas laissés avec "la solution la plus simple", mais avec "une solution simpliste".
- Je ne suis pas vraiment faire une supposition. C'est au sortir d'une discussion éclairée. En tout cas si vous avez un O(1) charAt() qui permet de travailler avec la variable de la largeur des caractères et ne nécessite plus de mémoire, puis s'il vous plaît partager. Java 9 peut en fait, permettre aux autres de 1 octet caractères si la JVM est d'avis que tous les caractères sont de 1 octet. Cette fonctionnalité est en cours de discussion, mais a également été discuté lors des précédentes itérations.
- Je suis allé de l'avant et a posé une question sur Quora, car il ne serait probablement pas autorisé ici, et je ne peux jamais comprendre ce qui est et n'est pas autorisé sur les programmeurs.SE - voyons voir si il obtient quelque chose d'objectif: quora.com/...
- En tout cas, le point n'est pas de savoir si je peux faire charAt en O(1) sur la variable de caractères de largeur, c'est de savoir si C#/.NET/CLR peut savoir à l'avance si une chaîne de caractères passée à charAt va utiliser la variable de caractères de largeur ou pas. Les options sont soit 1) la fonction sera rompu pour non BMP, 2) fournir une fonction pour seulement BMP charAt et une fonction non BMP charAt, 3) analyse de la chaîne d'abord pour voir si il y a un non BMP caractère, et 4) de fournir une fonction unique qui fonctionne pour les deux, et ne fait aucune hypothèse. Je ne suis ni un C# ni Java mec, donc je ne suis pas sûr qu'ils font, mais je suis un Unicode gars.
- Je serais très intéressé par tout ce que vous trouvez sur le sujet. Au cours de ma recherche de largeur variable caractères ont été éliminés droit de la chauve-souris pour les performances de Java. Et C# auraient eu à traiter avec les mêmes limitations. Il y a aussi des problèmes avec la prise en charge de plusieurs char largeurs, la sérialisation, etc.
- J'ai en fait trouvé une entrevue avec quelqu'un de l'équipe qui a dit que C# chaînes ne sont pas des chaînes C, mais les chaînes BSTR, avec la longueur de la chaîne dans un préfixe. Je ne le savais pas, mais peut-être que vous avez fait. La raison en était qu'il avait hérité de Visual Basic! Il a également été liées à COM. Il fait le même argument que vous que c'est une bonne chose. Il a dit C# ignore que les chaînes de caractères UTF-16 et les traite comme des UCS-2, mais je suis presque positif C#/.NET fournir une suite complète de fonctions de chaînes de caractères qui ne sont en effet savoir à propos de l'UTF-16, ainsi que les plus âgés qui n'est pas le cas: blog.coverity.com/2014/04/09/why-utf-16
- Bien Eric est aussi autoritaire qu'ils obtiennent, donc le grand de trouver. Le BSTR partie ajoute essentiellement de la longueur à l'avant du tableau. Vous êtes corriger certaines fonctions de traiter C# chaînes de caractères UTF-16, mais comme Eric échappe pour qu'ils se cassent dans de rares situations. Eric cadres historique, mais je suis sûr que si il y avait un meilleur espace de la performance de commerce, quelque part, aujourd'hui, d'autres que les fixes-largeur de 16 bits, puis, lui et l'équipe Java aurait pris.
InformationsquelleAutor kervin

Vous devez vous connecter pour publier un commentaire.