L'obtention de la longueur réelle d'une codé en UTF-8 std::string?

mon std::string est codé en utf-8 alors, évidemment, str.length() renvoie le résultat erroné.

J'ai trouvé cette information, mais je ne suis pas sûr de savoir comment je peux l'utiliser pour ce faire:

L'octet suivant les séquences sont
utilisé pour représenter un caractère. L'
séquence
utilisé dépend de l'UCS, le numéro de code de caractère:

   0x00000000 - 0x0000007F:
       0xxxxxxx

   0x00000080 - 0x000007FF:
       110xxxxx 10xxxxxx

   0x00000800 - 0x0000FFFF:
       1110xxxx 10xxxxxx 10xxxxxx

   0x00010000 - 0x001FFFFF:
       11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Comment puis-je trouver la longueur réelle d'une codé en UTF-8 std::string? Grâce

C++ ne sait rien à propos de codage, de sorte que vous ne pouvez pas vous attendre à utiliser une fonction standard pour ce faire. Certains Systèmes d'Exploitation (par exemple, Windows) peut offrir des fonctions pour aider à cela, si vous ne voulez pas écrire un à partir de zéro.
Je comprends que c'est pourquoi j'ai marqué ce également algorithme, je ne veux en écrire un à partir de zéro
Veuillez noter que, bien que Michael réclamation est vrai quand il l'a écrit, depuis C++11 de la Bibliothèque Standard ne sais à propos de codages. Voir stackoverflow.com/questions/16863937/...
Qu'entendez-vous par "durée réelle"? Nombre de points de code? Dans la NFC, NFD, NFKC, ou NFKD? Nombre de composite personnages? Nombre de graphèmes? Nombre de graphème clusters? Nombre de pixels sur l'écran dans une police donnée?
En effet, la plupart des réponses ici supposent que la "longueur" signifie "nombre de points de code".
Intéressant à lire: utf8everywhere.org/#myth.strlen

InformationsquelleAutor jmasterx | 2010-10-31

algorithm c++

9

L'un des projets que j'ai contribuer a une petite fonction qui fait que:

http://openlierox.git.sourceforge.net/git/gitweb.cgi?p=openlierox/openlierox;a=blob;f=include/Unicode.h;h=a523b464fc65a7ad875e683cd830b41c9a01934a;hb=HEAD

Recherchez Utf8StringSize. Il dépend d'une autre petite fonction dans le même fichier d'en-tête.
- Puis-je utiliser quelques-unes de ces fonctions pour mon projet?
- Bien sûr, c'est pourquoi le projet est opensource 🙂 Certains plus de fonctions utiles sont dans include/StringUtils.h, src/common/StringUtils.cpp, src/common/Unicode.cpp.
- Super merci beaucoup!!!
- Attention: en fonction de l'en-tête, il est sous licence LGPL, ce qui signifie que vous n'êtes bon à l'utiliser si vous le projet est également open source (et dans le cadre limité GPL sens, pas la MIT/BSD vraiment ouvrir un sens). Si votre projet n'est pas L/GPL, vous pouvez avoir un problème (légalement et éthiquement/etc.); juste être conscient.
- Eh bien, je peux vous assurer que nous n'allons pas poursuivre quelqu'un.
- Si vous ne poursuivra pas les utilisateurs commerciaux, changer la licence. Les entreprises ne prendront pas le risque.
InformationsquelleAutor Karel Petranek
56

Compter tous les premiers octets (ceux qui ne correspondent pas 10xxxxxx).
```
int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;
```
- Vous avez besoin de parenthèses autour de la & partie.
- Merci pour l'astuce. Modifié.
InformationsquelleAutor Marcelo Cantos
18

C++ ne sait rien à propos de codage, de sorte que vous ne pouvez pas vous attendre à utiliser un
la fonction de base pour ce faire.

De la bibliothèque standard en effet ne reconnaître l'existence d'encodages de caractères, sous la forme de paramètres régionaux. Si votre système prend en charge des paramètres régionaux, il est très facile à utiliser la bibliothèque standard pour calculer la longueur d'une chaîne. Dans l'exemple de code ci-dessous je suppose que votre système prend en charge la locale en_US.UTF-8. Si je compile le code et l'exécuter en tant que "./un.hors ソニーSony", la sortie est qu'il y avait 13 char-les valeurs et les 7 caractères. Et le tout sans aucune référence à la représentation interne de l'UTF-8 codes de caractères ou d'avoir à utiliser la 3ème partie des bibliothèques.
```
#include <clocale>
#include <cstdlib>
#include <iostream>
#include <string>

using namespace std;

int main(int argc, char *argv[])
{
  string str(argv[1]);
  unsigned int strLen = str.length();
  cout << "Length (char-values): " << strLen << '\n';
  setlocale(LC_ALL, "en_US.UTF-8");
  unsigned int u = 0;
  const char *c_str = str.c_str();
  unsigned int charCount = 0;
  while(u < strLen)
  {
    u += mblen(&c_str[u], strLen - u);
    charCount += 1;
  }
  cout << "Length (characters): " << charCount << endl; 
}
```
- droit, et d'utiliser std::mbrlen si vous voulez être sûr(ish)
- êtes-vous sûr de savoir le nom de la langue? sur ubuntu correcte devrait être "en_US.utf8".
- Bon point, cqfd: j'ai corrigé cela.
InformationsquelleAutor user2781185
4

Vous devriez probablement prendre l'avis d'Omry et regardez-la dans une bibliothèque spécialisée pour cela. Cela dit, si vous voulez juste de comprendre l'algorithme pour ce faire, je vais le poster ci-dessous.

Fondamentalement, vous pouvez convertir une chaîne en un plus large-format de l'élément, comme wchar_t. Notez que wchar_t a quelques problèmes de portabilité, car wchar_t est de taille variable en fonction de votre plate-forme. Sur Windows, wchar_t est de 2 octets, et donc idéal pour la représentation UTF-16. Mais sur UNIX/Linux, il est de quatre octets, et est donc utilisé pour représenter l'UTF-32. Par conséquent, pour Windows, cela ne fonctionnera que si vous n'incluez pas l'Unicode codepoints au-dessus de 0xFFFF. Pour Linux, vous pouvez inclure l'ensemble de la gamme de codepoints dans un wchar_t. (Heureusement, ce problème sera atténué avec le C++0x Unicode types de caractères.)

Avec cet avertissement noté, vous pouvez créer une fonction de conversion à l'aide de l'algorithme suivant:
```
template <class OutputIterator>
inline OutputIterator convert(const unsigned char* it, const unsigned char* end, OutputIterator out) 
{
while (it != end) 
{
if (*it < 192) *out++ = *it++; //single byte character
else if (*it < 224 && it + 1 < end && *(it+1) > 127) { 
//double byte character
*out++ = ((*it & 0x1F) << 6) | (*(it+1) & 0x3F);
it += 2;
}
else if (*it < 240 && it + 2 < end && *(it+1) > 127 && *(it+2) > 127) { 
//triple byte character
*out++ = ((*it & 0x0F) << 12) | ((*(it+1) & 0x3F) << 6) | (*(it+2) & 0x3F);
it += 3;
}
else if (*it < 248 && it + 3 < end && *(it+1) > 127 && *(it+2) > 127 && *(it+3) > 127) { 
//4-byte character
*out++ = ((*it & 0x07) << 18) | ((*(it+1) & 0x3F) << 12) |
((*(it+2) & 0x3F) << 6) | (*(it+3) & 0x3F);
it += 4;
}
else ++it; //Invalid byte sequence (throw an exception here if you want)
}
return out;
}
int main()
{
std::string s = "\u00EAtre";
cout << s.length() << endl;
std::wstring output;
convert(reinterpret_cast<const unsigned char*> (s.c_str()), 
reinterpret_cast<const unsigned char*>(s.c_str()) + s.length(), std::back_inserter(output));
cout << output.length() << endl; //Actual length
}
```
L'algorithme n'est pas totalement générique, parce que le InputIterator doit être un unsigned char, de sorte que vous pouvez interpréter chaque octet comme ayant une valeur comprise entre 0 et 0xFF. Le OutputIterator est générique, (si vous pouvez utiliser un std::back_inserter et ne pas s'inquiéter de l'allocation de mémoire), mais son utilisation comme un paramètre générique est limitée: en gros, c'est à la sortie d'un tableau d'éléments suffisamment grand pour représenter un UTF-16 ou UTF-32 caractères, tels que wchar_t, uint32_t ou le C++0x char32_t types. Aussi, je ne comprend pas le code pour convertir des caractères les séquences d'octets de plus de 4 octets, mais vous devriez obtenir le point de fonctionnement de l'algorithme à partir de ce qui est posté.

Aussi, si vous voulez juste compter le nombre de caractères, plutôt que de la sortie d'un nouveau grand personnage de la mémoire tampon, vous pouvez modifier l'algorithme afin d'inclure un compteur, plutôt que sur une OutputIterator. Ou, mieux encore, il suffit d'utiliser Marcelo Cantos de réponse à compter de la première-octets.
- +1 pour une description détaillée de réponse
- sur la coupant les cheveux en quatre à l'avant, ce qui vous fait penser à "l'être" de la chaîne va utiliser l'encodage UTF8 ? Je crois que c'est non-standard en C/C++ pour utiliser des caractères non ascii dans le code source (et en effet, certains compilateurs choisir un autre encodage).
- bon point. Il faudrait, en fait, l'utilisation de \u hexadécimal.
InformationsquelleAutor Charles Salvia

C'est une implémentation naïve, mais il devrait être utile pour vous de voir comment c'est fait:

std::size_t utf8_length(std::string const &s) {
std::size_t len = 0;
std::string::const_iterator begin = s.begin(), end = s.end();
while (begin != end) {
unsigned char c = *begin;
int n;
if      ((c & 0x80) == 0)    n = 1;
else if ((c & 0xE0) == 0xC0) n = 2;
else if ((c & 0xF0) == 0xE0) n = 3;
else if ((c & 0xF8) == 0xF0) n = 4;
else throw std::runtime_error("utf8_length: invalid UTF-8");
if (end - begin < n) {
throw std::runtime_error("utf8_length: string too short");
}
for (int i = 1; i < n; ++i) {
if ((begin[i] & 0xC0) != 0x80) {
throw std::runtime_error("utf8_length: expected continuation byte");
}
}
len += n;
begin += n;
}
return len;
}

InformationsquelleAutor

2

Je vous recommande d'utiliser UTF8-RPC. C'est un en-tête de la seule bibliothèque pour travailler avec de l'UTF-8 en C++. Avec cette lib, il ressemblerait à quelque chose comme ceci:
```
int LenghtOfUtf8String( const std::string &utf8_string ) 
{
return utf8::distance( utf8_string.begin(), utf8_string.end() ); 
}
```
(Le Code est le sommet de ma tête.)
- est-il solution multi-plateforme?
InformationsquelleAutor Lucas
1

essayez d'utiliser une librairie d'encodage comme iconv.
c'est sans doute l'api que vous voulez.

une alternative est de mettre en place votre propre utf8strlen qui détermine la durée de chaque codepoint et de réitérer codepoints à la place des caractères.

InformationsquelleAutor Omry Yadan
0

UTF-8 CPP bibliothèque a une fonction qui ne fait que cela. Vous pouvez inclure la librairie dans votre projet (il est petit) ou tout simplement regarder la fonction. http://utfcpp.sourceforge.net/
```
char* twochars = "\xe6\x97\xa5\xd1\x88";
size_t dist = utf8::distance(twochars, twochars + 5);
assert (dist == 2);
```
InformationsquelleAutor Nemanja Trifunovic

Ce code je suis portage à partir de php-iconv pour c++, vous devez utiliser iconv d'abord, l'espoir utile:

//porting from PHP
//http://lxr.php.net/xref/PHP_5_4/ext/iconv/iconv.c#_php_iconv_strlen
#define GENERIC_SUPERSET_NBYTES 4
#define GENERIC_SUPERSET_NAME   "UCS-4LE"
UInt32 iconvStrlen(const char *str, size_t nbytes, const char* encode)
{
UInt32 retVal = (unsigned int)-1;
unsigned int cnt = 0;
iconv_t cd = iconv_open(GENERIC_SUPERSET_NAME, encode);
if (cd == (iconv_t)(-1))
return retVal;
const char* in;
size_t  inLeft;
char *out;
size_t outLeft;
char buf[GENERIC_SUPERSET_NBYTES * 2] = {0};
for (in = str, inLeft = nbytes, cnt = 0; inLeft > 0; cnt += 2) 
{
size_t prev_in_left;
out = buf;
outLeft = sizeof(buf);
prev_in_left = inLeft;
if (iconv(cd, &in, &inLeft, (char **) &out, &outLeft) == (size_t)-1) {
if (prev_in_left == inLeft) {
break;
}
}
}
iconv_close(cd);
if (outLeft > 0)
cnt -= outLeft / GENERIC_SUPERSET_NBYTES;
retVal = cnt;
return retVal;
}
UInt32 utf8StrLen(const std::string& src)
{
return iconvStrlen(src.c_str(), src.length(), "UTF-8");
}

InformationsquelleAutor twotrees

Juste une autre implémentation naïve de compter les caractères dans la chaîne UTF-8

int utf8_strlen(const string& str)
{
int c,i,ix,q;
for (q=0, i=0, ix=str.length(); i < ix; i++, q++)
{
c = (unsigned char) str[i];
if      (c>=0   && c<=127) i+=0;
else if ((c & 0xE0) == 0xC0) i+=1;
else if ((c & 0xF0) == 0xE0) i+=2;
else if ((c & 0xF8) == 0xF0) i+=3;
//else if (($c & 0xFC) == 0xF8) i+=4; //111110bb //byte 5, unnecessary in 4 byte UTF-8
//else if (($c & 0xFE) == 0xFC) i+=5; //1111110b //byte 6, unnecessary in 4 byte UTF-8
else return 0;//invalid utf8
}
return q;
}

InformationsquelleAutor Twissell

0

Un peu paresseux approche serait de ne compter que les octets avance, mais la visite de chaque octet. Cela permet d'économiser de la complexité de décodage quelques longueurs d'octets, mais évidemment, vous payer pour visiter tous les octets, même si, habituellement, ne sont pas si nombreux (2x-3x):
```
size_t utf8Len(std::string s)
{
return std::count_if(s.begin(), s.end(),
[](char c) { (static_cast<unsigned char>(c) & 0xC0) != 0x80; } );
}
```
Noter que certaines valeurs de code sont illégaux en tant que responsable octets, ceux qui représentent les plus grandes valeurs que les 20 bits nécessaires pour unicode étendu, par exemple, mais alors l'autre approche serait de ne pas savoir comment traiter avec ce code, de toute façon.

InformationsquelleAutor Gem Taylor

Vous devez vous connecter pour publier un commentaire.