Comment calculer le nombre de caractères dans une chaîne unicode en C

Permet de dire que j'ai une chaîne de caractères:

char theString[] = "你们好āa";

Étant donné que mon encodage est utf-8, cette chaîne est de 12 octets de long (trois caractères hanzi sont trois octets chacun, le caractère latin avec le macron est de deux octets, et le 'a' est un octet:

strlen(theString) == 12

Comment puis-je compter le nombre de caractères? Comment puis-je faire l'équivalent de subscripting de sorte que:

theString[3] == "好"

Comment puis-je tranche, de chat et de ces chaînes?

InformationsquelleAutor jsj | 2011-09-04

ascii c string unicode

29

Vous ne pouvez compter que les personnages qui ont les deux premiers bits sont pas mis à 10 (c'est à dire, tout moins que 0x80 ou supérieure à 0xbf).

C'est parce que tous les personnages, avec les deux premiers bits mis à 10 UTF-8 poursuite octets.

Voir ici pour une description de l'encodage et de la façon dont strlen pouvez travailler sur une chaîne UTF-8.

Pour trancher et découper des chaînes UTF-8, vous avez essentiellement de suivre les mêmes règles. N'importe quel octet de départ avec un 0 bits ou un 11 de la séquence de le début de l'UTF-8 code point, tous les autres sont des caractères de continuité.

Votre meilleur pari, si vous ne voulez pas utiliser une bibliothèque tierce, est tout simplement de fournir des fonctions le long des lignes de:
```
utf8left (char *destbuff, char *srcbuff, size_t sz);
utf8mid  (char *destbuff, char *srcbuff, size_t pos, size_t sz);
utf8rest (char *destbuff, char *srcbuff, size_t pos;
```
pour obtenir, respectivement:
- la gauche sz UTF-8 octets d'une chaîne.
- la sz UTF-8 octets d'une chaîne, en commençant à pos.
- le reste de l'UTF-8 octets d'une chaîne, en commençant à pos.
Ce sera un bon bloc de construction pour être capable de manipuler les chaînes de caractères suffisamment à vos fins.
- Oui, il semble que j'ai à mettre en œuvre beaucoup de moi-même.. j'ai réussi à mettre en place un u_strlen et u_charAt dans la dernière heure. Doit être capable de couper des tranches sur cette base.
- Accepté parce que j'ai fini l'écriture de mes propres fonctions.
- Remarque: il ignore graphème clusters décrite dans UAX#29, c'est à dire "नि" est censé être vu comme une seule unité de texte, mais donnera une longueur de 2 avec la méthode dans cette réponse.
InformationsquelleAutor paxdiablo
17

Le plus simple est d'utiliser une bibliothèque comme ICU
- J'ai demandé à un couple de questions sur les unités de soins intensifs. La plupart des gens ont répondu qu'il était inutile de faire des opérations simples. stackoverflow.com/questions/7294447/...
- dans de nombreux cas, vous souhaitez accéder à graphème clusters, pas de caractères; et la mise en œuvre qu'à partir de zéro est beaucoup plus compliqué que de juste le décodage de l'UTF-8, donc à l'aide d'une bibliothèque peut être une bonne idée
- En effet, alors! Et l'unité de soins intensifs bibliothèque regex support complet Unicode étendue de graphème clusters via le \X, rendant les choses plus faciles. Cela dit, il y a des morceaux de code C qui de tout faire pour eux-mêmes, comme vim — cependant, qui semble utiliser quelque chose de plus comme \PM\pM*, et est également bloqué en travaillant uniquement sur les BMP. Soupir.
InformationsquelleAutor Mark

Essayez ceci pour la taille:

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
//returns the number of utf8 code points in the buffer at s
size_t utf8len(char *s)
{
size_t len = 0;
for (; *s; ++s) if ((*s & 0xC0) != 0x80) ++len;
return len;
}
//returns a pointer to the beginning of the pos'th utf8 codepoint
//in the buffer at s
char *utf8index(char *s, size_t pos)
{    
++pos;
for (; *s; ++s) {
if ((*s & 0xC0) != 0x80) --pos;
if (pos == 0) return s;
}
return NULL;
}
//converts codepoint indexes start and end to byte offsets in the buffer at s
void utf8slice(char *s, ssize_t *start, ssize_t *end)
{
char *p = utf8index(s, *start);
*start = p ? p - s : -1;
p = utf8index(s, *end);
*end = p ? p - s : -1;
}
//appends the utf8 string at src to dest
char *utf8cat(char *dest, char *src)
{
return strcat(dest, src);
}
//test program
int main(int argc, char **argv)
{
//slurp all of stdin to p, with length len
char *p = malloc(0);
size_t len = 0;
while (true) {
p = realloc(p, len + 0x10000);
ssize_t cnt = read(STDIN_FILENO, p + len, 0x10000);
if (cnt == -1) {
perror("read");
abort();
} else if (cnt == 0) {
break;
} else {
len += cnt;
}
}
//do some demo operations
printf("utf8len=%zu\n", utf8len(p));
ssize_t start = 2, end = 3;
utf8slice(p, &start, &end);
printf("utf8slice[2:3]=%.*s\n", end - start, p + start);
start = 3; end = 4;
utf8slice(p, &start, &end);
printf("utf8slice[3:4]=%.*s\n", end - start, p + start);
return 0;
}

Exemple d'exécution:

matt@stanley:~/Desktop$ echo -n 你们好āa | ./utf8ops 
utf8len=5
utf8slice[2:3]=好
utf8slice[3:4]=ā

Noter que votre exemple est un arrêt par une erreur. theString[2] == "好"

par hasard, avez-vous connaissance de la mise en œuvre de strlen() pour la combinaison de caractères ? comme " a " avec accent, par exemple, doit retourner 1 , pas 2
Que les sons utf8len, utf8len("à") doit retourner 1.

InformationsquelleAutor Matt Joiner

8

Selon votre notion de "caractère", cette question peut devenir plus ou moins impliqués.

Tout d'abord, vous devez transformer votre chaîne d'octets en une chaîne de caractères de l'unicode codepoints. Vous pouvez faire cela avec iconv() de soins intensifs, mais si c'est la seule chose que vous faites, iconv() est beaucoup plus facile, et ça fait partie de la norme POSIX.

Votre chaîne de caractères de l'unicode codepoints pourrait être quelque chose comme un null uint32_t[], ou si vous avez C1x, un tableau de char32_t. La taille de ce tableau (c'est à dire son nombre d'éléments, pas sa taille en octets) est le nombre de codepoints (plus le terminator), et qui devrait vous donner un très bon début.

Cependant, la notion de "caractère imprimable" est assez complexe, et l'on peut préférer à compter graphèmes plutôt que codepoints - par exemple, un a avec un accent ^ peut être exprimé par deux unicode codepoints, ou comme un héritage codepoint â - les deux sont valables, et les deux sont requis par le standard unicode pour être traités de manière égale. Il y a un processus appelé la "normalisation" qui transforme votre chaîne dans une certaine version, mais il y a beaucoup de graphèmes qui ne sont pas exprimables comme un seul codepoint, et en général il n'y a pas moyen de contourner une bonne bibliothèque qui comprend cela et compte graphèmes pour vous.

Cela dit, c'est à vous de décider quelle est la complexité de vos scripts sont et comment fond que vous souhaitez traiter. Transformer en unicode codepoints est un must, tout au-delà qui est à votre discrétion.

N'hésitez pas à poser des questions sur les soins intensifs si vous décidez que vous en avez besoin, mais n'hésitez pas à explorer beaucoup plus simple iconv() premier.

InformationsquelleAutor Kerrek SB
2

Dans le monde réel, theString[3]=foo; n'est pas une véritable opération. Pourquoi jamais vous voulez remplacer un caractère à une position particulière dans la chaîne de caractères avec un caractère différent? Il n'y a certainement pas de langage naturel-traitement de texte de la tâche pour laquelle cette opération est significative.

Comptage de caractères est également peu susceptible d'être utile. Combien de caractères (pour votre idée de "caractère") sont là, dans le "á"? Comment à propos de "á"? Maintenant, comment au sujet de "གི"? Si vous avez besoin de cette information pour mettre en œuvre une sorte d'édition de texte, vous allez avoir à faire face à ces questions difficiles, ou tout simplement utiliser une bibliothèque existante/gui toolkit. Je recommanderais ce dernier, sauf si vous êtes un expert sur le monde des scripts et des langues et pensez que vous pouvez faire mieux.

Pour toutes autres fins, strlen vous dit exactement l'information qui est réellement utile: combien d'espace de stockage d'une chaîne de caractères. C'est ce qui est nécessaire pour la combinaison et la séparation des chaînes. Si tout ce que vous voulez faire est de combiner les chaînes ou les séparer à un délimiteur particulier, snprintf (ou strcat si vous insistez...) et strstr tout ce dont vous avez besoin.

Si vous souhaitez effectuer de plus haut niveau en langage naturel-texte opérations, comme la capitalisation, de la ligne de rupture, etc. ou même de niveau supérieur, des opérations comme la pluralisation, le temps des changements, etc. ensuite, vous aurez besoin soit d'une bibliothèque comme unité de soins intensifs ou respectivement quelque chose de beaucoup plus haut niveau et linguistiquement capable (et spécifiques de la langue(s) vous travaillez).

Encore une fois, la plupart des programmes n'ont pas de toute utilisation de ce genre de chose, il suffit d'assembler et d'analyser le texte sans aucune considération pour le langage naturel.
- L'utilisation est la conversion de pinyin en forme numérique (ni2hao3ma5) en pinyin avec les accents.. j'ai écrit mes propres fonctions actuellement, sur la signification inhérente dans le premier octet d'une unicode charpoint. C'est un peu maladroit, mais il fait le travail sans la nécessité d'inclure une lourde bibliothèque.
- J'ai fait la même chose moi-même un. C'était juste un couple de lignes de Perl. Vraiment.
- Je dirais que vous presque jamais voulez savoir combien de "stockage" il est, et ce que vous voulez vraiment quand vous parlez de la longueur est de "personnages", et non d'octets. Regarder la chaîne de traitement, vous êtes le code serait cassé sur UTF8/UTF16 si vous ne pouvez pas répondre à des questions comme la longueur en termes de graphisme. Si vous ne vous souciez pas de l'Unicode, et d'encoder les choses en ASCII ou UTF-32, alors oui, c'est peut-être pas pertinent pour vous.
- Graphèmes ou les personnages ne sont pertinentes que pour affichage visuel (et parfois, l'édition). C'est 1% de ce que vous faites avec des cordes, et généralement isolés de GUI toolkit bibliothèques. Tout le reste avec des chaînes est complètement agnostique et seul soucis (sur C, où le stockage est explicite) sur les conditions de stockage requises pour la chaîne. Dans d'autres langues, où le stockage n'est pas explicite, vous ne devriez même pas attention.
InformationsquelleAutor R..
1
```
while (s[i]) {
if ((s[i] & 0xC0) != 0x80)
j++;
i++;
}
return (j);
```
Cela permettra de compter les caractères dans une Chaîne UTF-8... (qui se Trouve dans cet article: Encore plus rapide de caractères UTF-8 de comptage)

Cependant, je suis toujours perplexe sur le découpage et la concaténation?!?
- Vous avez vraiment, vraiment envie d'utiliser une échelle de type chaîne de caractères. Ce n'est tout simplement pas une application où vous pouvez mettre une prime sur la conservation de la mémoire. Nous parlons d'octets sur les systèmes qui ont gigaoctets pour en faire le tour, de toute façon. Vous n'avez pas accès aléatoire de caractères en UTF-8. UTF-8 est mieux adapté qu'un stockage/format de sérialisation. Mais juste FWIW, la concaténation des œuvres "directement", aussi longtemps que vous n'avez pas à vous soucier de Nomenclatures; traiter les octets octets. "découpage" doit être mieux défini.
- Le découpage et la concaténation serait alors juste une opération de recherche, sûrement? La recherche linéaire dans le plus évident de la mise en œuvre. Je suis avec ceux qui ne voient pas l'avantage réel en évitant les wchar_t si, pour être honnête.
- la prise de graphème clusters en compte, même UTF-32 est souvent traitée comme une variable de la longueur de codage...
InformationsquelleAutor jsj
1

En général, nous devrions utiliser un autre type de données de caractères unicode.

Par exemple, vous pouvez utiliser l'échelle de type de données char
```
wchar_t theString[] = L"你们好āa";
```
Note du modificateur L qui indique que la chaîne est composée de larges caractères.

La longueur de la chaîne peut être calculée à l'aide de la wcslen fonction, qui se comporte comme strlen.
- Sauf que les caractères sont tous les 4 octets chacun.. donc "hello world" est de 44 octets au lieu de 11 octets, et "大家，你们好" est de 24 octets au lieu de 18 octets.
- Eh bien, c'est généralement laissé à la mise en œuvre (dans certains cas, ils peuvent être de 2 octets de long), mais je peux voir votre point de vue ici.
- que wchar_t n'est pas nécessairement l'utilisation de l'UTF-32 (c'est à dire le 2 octets cas) rend cette solution portables...
- résumé: wchar_t est PAS Unicode, parce que sizeof(wchar_t) est le compilateur, dépendant de la
- il peut être utilisé pour stocker des caractères unicode, mais l'encodage est un détail d'implémentation, notez que le jeu de caractères unicode n'est pas fixé à n'importe quel encodage
- wchar_t est l'UTF-32 pour GCC (au moins sur unixoid systèmes) et UTF-16 sur windows/msvc - ainsi, pour les systèmes les plus populaires wchar_t est (certains) Unicode
InformationsquelleAutor abahgat
1

Une chose n'est pas clair dans les réponses ci-dessus est pourquoi il n'est pas simple. Chaque caractère est codé d'une manière ou d'une autre - il n'a pas à être en UTF-8, par exemple - et chaque personnage peut avoir plusieurs codages, avec différentes façons de gérer la combinaison des accents, etc. Les règles sont vraiment complexes, et varient selon le codage (par exemple, utf-8 vs utf-16).

Cette question a d'énormes problèmes de sécurité, il est impératif que cela soit fait correctement. Utilisez un système d'exploitation fourni par la bibliothèque ou le bien-connu de la troisième partie de la bibliothèque pour manipuler des chaînes unicode; ne pas rouler votre propre.

InformationsquelleAutor Steve Dispensa
0

Je n'ai de mise en œuvre similaire années en arrière. Mais je n'ai pas le code avec moi.

Pour chacun des caractères unicode, le premier octet indique le nombre d'octets de la suivre pour la construction d'un caractère unicode. Basé sur le premier octet, vous pouvez déterminer la longueur de chaque caractère unicode.

Je pense que c'est une bonne UTF8 bibliothèque.
entrez description du lien ici

InformationsquelleAutor Senthil
-1

Une séquence de points de code constituent une seule syllabe /lettre /personnage dans beaucoup d'autres Ouest-Européen des langues (par exemple: toutes les langues Indo-aryennes)

Ainsi, lorsque vous avez le comptage de la durée OU de trouver la sous-chaîne (il y a certainement des cas d'utilisation de trouver les sous-chaînes - disons de la lecture d'un bourreau de jeu), vous avez besoin à l'avance, syllabe par syllabe , et non pas par le point de code par le code de point.

Ainsi, la définition du personnage/de la syllabe et où vous casser la chaîne en segments de syllabes" dépend de la nature de la langue que vous travaillez avec.
Par exemple, la structure des syllabes dans de nombreuses langues Indo-aryennes (Hindi, Telugu, Kannada, Malayalam, le Népalais, le Tamoul, le Punjabi, etc.) peut-être l'un des suivants
```
V  (Vowel in their primary form appearing at the beginning of the word)
C (consonant)
C + V (consonant + vowel in their secondary form)
C + C + V
C + C + C + V
```
Vous avez besoin pour analyser la chaîne et regarder pour ces modèles de briser la chaîne et de trouver les sous-chaînes.

Je ne pense pas que c'est possible d'avoir une méthode usage général qui peut magiquement briser les chaînes de la au-dessus de la mode pour toute chaîne unicode (ou d'une séquence de points de code) - que le modèle qui fonctionne pour une langue ne peut pas être applicable pour une autre lettre;

Je pense qu'il y a peut-être certaines méthodes /bibliothèques qui peut prendre un peu de définition des paramètres de configuration que l'entrée de briser les chaînes unicode en une telle syllabe morceaux. Ne sais pas si! Apprécier si l'on peut partager comment ils ont résolu ce problème en utilisant tout disponibles dans le commerce ou les méthodes de source libre.

InformationsquelleAutor SRKJ

Vous devez vous connecter pour publier un commentaire.