Comment écrire un std::string en un fichier texte UTF-8

Je veux juste écrire quelques lignes dans un fichier texte en C++, mais je veux qu'ils soient encodés en UTF-8. Quelle est la méthode la plus simple et la manière simple de le faire?

C'est fou ce que les mst bibliothèque n'est pas en mesure de traiter avec de l'utf-8. C'est pourquoi nous avons à traiter des tonnes de conversions entre l'échelle de cordes et de chaînes d'octets avec certains maladroits locale. Pourquoi il n'y a pas après toutes ces années, quelque chose comme std::utf8string?
parce que le C/C++ doivent être compatibles avec les matériels existants? 😛

InformationsquelleAutor poiloi | 2010-06-10

c++utf-8

55

La seule façon de l'UTF-8 affecte std::string est que size(), length(), et tous les indices sont mesurés en octets, pas de caractères.

Et, comme le sbi le souligne, l'incrémentation de l'itérateur fournie par std::string sera pas en avant par octet, non pas de par son caractère, de sorte qu'il peut réellement de point vers le milieu de la séquence multi-octets UTF-8 codepoint. Il n'y a pas UTF-8-connaissance des itérateurs fournis dans la bibliothèque standard, mais il y a quelques disponibles sur le Net.

Si vous vous souvenez de cela, vous pouvez mettre UTF-8 dans std::string, de l'écrire dans un fichier, etc. tous de la manière habituelle (je veux dire de la façon dont vous devriez utiliser un std::string sans UTF-8 à l'intérieur).

Vous voudrez peut-être commencer votre fichier avec une marque d'ordre des octets, de sorte que d'autres programmes savez c'est de l'UTF-8.
- Pour être complet, ajouter des itérateurs pour ta première phrase, c'est la même chose avec eux comme avec des indices.
- Beaucoup de programmes d'étranglement sur la NOMENCLATURE quand ils ont lu UTF-8, et il sera la cause de certains programmes de penser que le texte est en UTF-16.
- C'est seulement un moyen de dire que beaucoup de programmes n'ont pas ou très mauvais support de l'UTF-8.
- Vrai, mais c'est une commune, une manière très spécifique d'avoir le soutien des pauvres qui est intéressant de savoir à propos devrait-on rencontrer des problèmes à l'utiliser.
- NOMENCLATURE des codes de vous dire lequel des deux octets rangements sont employés par un utf16 ou utf32 flux. Ils n'ont même pas de sens pour une utf8 flux.
- Incorrect. Alors que "l'ordre des octets" n'est pas un problème pour l'UTF-8, la marque d'ordre d'octet est toujours utile pour distinguer les encodages.
- En effet, la citation exacte à partir de Unicode.org est: Q: Est l'UTF-8 est un schéma de codage de la même indépendamment du fait que le processeur sous-jacente est en little endian ou big endian? A: Oui. Depuis l'UTF-8 est interprété comme une séquence d'octets, il n'y a pas de endian problème, car il est pour l'encodage des formulaires qui utilisent des 16-bits ou 32-bits unités de code. D'où une NOMENCLATURE est utilisée avec l'encodage UTF-8, il est seulement utilisé comme un codage de la signature de distinguer l'UTF-8 à partir d'autres codages — il n'a rien à voir avec l'ordre des octets. je prends ce à dire que "indique que c'est l'encodage UTF8"!
- Il est également possible pour std::string de tenir invalide utf8 codepoints.
- L'UTF-8 "marque d'ordre d'octet" est utilisé pour distinguer les encodages, pas d'ordre d'octet; j'ai vu un autre terme utilisé pour l'Unicode des Nomenclatures en général, la "signature Unicode", qui me semble plus appropriée, étant donné qu'il indique que 1) la variante de l'Unicode est en cours d'utilisation, et 2) l'octet de commande (le cas échéant).
- Le problème avec l'UTF-8 BOM/signature Unicode, c'est que le Standard Unicode envoie des messages contradictoires à ce sujet. Ils ne nécessitent pas ou le recommander, mais ils ne sont pas explicitement disrecommend il, soit. Ils ont également ne pas vous recommandons de le retirer si elle est déjà là. Cela envoie un "go with the flow" vibe, qui est le résultat de l'UTF-8 BOM de l'appui d'un désordre; ils devraient dire "toujours" ou "jamais", mais il est probablement trop tard pour ça maintenant (soit parce que l'un serait un majeur modification de rupture).
- Vous êtes en supposant que l'OP a un std::string qui détient UTF-8.
- Non, je suis l'informant que std::string est capable de maintenir en UTF-8. La question est de demander une recommandation de conception, pas pour aider à la fixation d'une conception existante.
- Une règle générale de pouce pour y compris UTF-8 BOM: Linux assumera l'UTF-8 par défaut, de sorte qu'il n'a pas besoin d'une NOMENCLATURE. Windows va assumer un héritage de la page de code par défaut, donc vous avez besoin de la NOMENCLATURE pour indiquer que le fichier est en UTF-8 à la place.
InformationsquelleAutor Ben Voigt
24

Il est agréable de minuscules bibliothèque pour travailler avec de l'utf-8 à partir de c++: utfcpp
- Uppsala c'est le plus cool de la bibliothèque. Étant donné que vous savez ce que l'UTF8 est, vous n'avez pas besoin de rien d'autre.
- Vous pouvez le trouver ici: github.com/nemtrif/utfcpp
InformationsquelleAutor denys
10

libiconv est une grande bibliothèque pour tous nos encodage et le décodage des besoins.

Si vous utilisez Windows, vous pouvez utiliser WideCharToMultiByte et précisez que vous souhaitez UTF8.

InformationsquelleAutor Brian R. Bondy
9

Quelle est la méthode la plus simple et la manière simple de le faire?

La plus intuitive et donc plus facile la manipulation de l'utf8 en C++ est sûre à l'aide d'un baisse-dans le remplacement pour std::string.
Comme l'internet en manque encore une, je suis allé à mettre en œuvre la fonctionnalité sur mon propre:

tinyutf8 (EDIT: maintenant, Github).

Cette bibliothèque fournit une très légère baisse en preplacement pour std::string (ou std::u32string si vous voulez, parce que vous parcourez codepoints plutôt que chars). Ité est mis en œuvre avec succès dans le milieu entre un accès rapide et petite consommation de mémoire, tout en étant très robuste. Cette robustesse 'invalide' UTF8-séquences fait (presque complètement) compatible avec la norme ANSI (0-255).

Espérons que cette aide!
- Votre bibliothèque semble assez bon, mais que sa licence est très limitant.
- En quoi est-il limiter? Quelle Licence vous voulez que je le publier sous?
- GPL signifie, si je comprend votre tête, dans mon programme, je dois faire mon programme GPL. Assez limité, vous ne pensez pas? Je recommande licence de type BSD pour une petite bibliothèque de ce genre.
- Ok, je vais le changer pour BSD-3 dès que je trouve le temps de. Pour l'instant, j'ai l'honneur de vous accorder l'utilisation de tinyutf8 comme spécifié par BSD-3, un.k.un. "Nouvelle Licence BSD" 😀 Merci pour vos commentaires, j'apprécie!
- Personnellement, j'aimerais garder la GPL et de fournir un autre commercial (demander de l'argent pour elle) licence pour ceux qui veulent faire de l'argent de votre travail.
InformationsquelleAutor Jakob Riedle
7

Si par "simple" tu veux dire que l'ASCII, il n'y a pas besoin de faire de n'importe quel encodage, puisque les caractères de la table ASCII 127 ou moins le même en UTF-8.
- Je devine qu'il a d'autres personnages, mais qu'il a besoin de l'encodage qu'il s'agit de stocker à l'intérieur de son string. Mais peut-être pas 🙂
InformationsquelleAutor Tony the Pony

std::wstring text = L"Привет";
QString qstr = QString::fromStdWString(text);
QByteArray byteArray(qstr.toUtf8());    
std::string str_std( byteArray.constData(), byteArray.length());

Remarque: ce code nécessite la bibliothèque Qt.

InformationsquelleAutor Serov Danil

Ma préférence est pour convertir un std::u32string et de travailler avec codepoints en interne, puis de les convertir en utf8 lors de l'écriture d'un fichier à l'aide de ces la conversion des itérateurs j'ai mis sur github.

#include <utf/utf.h>

int main()
{
    using namespace utf;

    u32string u32_text = U"ɦΈ˪˪ʘ";
    //do stuff with string
    //convert to utf8 string
    utf32_to_utf8_iterator<u32string::iterator> pos(u32_text.begin());
    utf32_to_utf8_iterator<u32string::iterator> end(u32_text.end());

    u8string u8_text(pos, end);

    //write out utf8 to file.
    //...
}

InformationsquelleAutor rmawatson

-1

Utilisation Glib::ustring de glibmm.

C'est la seule répandue chaîne UTF-8 conteneur (autant que je sache). Alors que le glyphe (pas fort), il a les mêmes signatures de méthode comme std::string de sorte que le port doit être simple de rechercher et de remplacer (assurez-vous que vos données sont en UTF-8 valide avant de les charger dans un ustring).

InformationsquelleAutor Artem Vorotnikov
-28

Comme de l'UTF-8 est multibite chaînes de caractères et si vous obtenez des problèmes de travail et c'est une mauvaise idée que de/au Lieu normal d'utilisation de l'Unicode.

Donc par mon avis le mieux est d'utiliser l'ordinaire caractères ASCII dans le fichier texte avec un certain codding ensemble. Besoin d'utiliser Unicode si vous utilisez plus de 2 ensembles de symboles différents
(les langues) unique.

C'est plutôt rare. Dans la plupart des cas assez 2 ensembles de symboles. Pour ce cas utiliser des caractères ASCII, et non Unicode.

Effet de l'utilisation de multibute caractères comme UTF-8, vous obtenez seulement la Chine traditionnelle, en arabe ou dans certains texte hiéroglyphique. C'est très très rare!!!

Je ne pense pas qu'il y a beaucoup de peuples besoins. Donc, ne jamais utiliser l'UTF-8!!! C'est éviter de forts maux de tête de manipuler de telles chaînes.
- Que voulez-vous dire exactement par "normal Unicode"? Je vais supposer que tu veux dire ce que la plupart de Java et Windows programmeurs pense Unicode signifie: UTF16. Ce n'est pas aussi une largeur constante de l'encodage (et non à chaque personnage prend exactement 2 octets). Environ la moitié des utilisateurs d'Internet sont en provenance de Chine. Très rare!
- un peu de fond de lecture: joelonsoftware.com/articles/Unicode.html, theregister.co.royaume-uni/2013/10/04/verity_stob_unicode, utf8everywhere.org. Si vous ne lisez, lisez la première de ces. Vous pouvez modifier votre recommandation de ne jamais utiliser de l'UTF-8!
- La raison pour utiliser l'utf-8, c'est qu'il peut coder tous les points de code Unicode et qu'il est efficace en terme de mémoire pour les langues latines. L'inconvénient, en effet, est que vous avez codage à longueur variable. Notez qu'il y a une différence entre utf-16 et ucs-2. L'ucs-2 est celui que vous mentionnez: fixe de 2 octets par caractère, mais comme inconvénient qu'il ne peut pas encoder tous les points de code.
InformationsquelleAutor Anatoly

Vous devez vous connecter pour publier un commentaire.