est-ce que (w) ifstream supporte différents encodages

Quand je lis un fichier texte pour une chaîne de caractères larges (std::wstring) à l'aide d'un wifstream, le flux d'appui à l'application de différents codages - c'est à dire peut-il être utilisé pour lire par exemple ASCII, UTF-8 et UTF-16 fichiers?

Si non, qu'aurais-je à faire?

(J'ai besoin de lire le fichier en entier, si cela fait une différence)

source d'informationauteur peterchen

c++character-encoding stl unicode wifstream

21

C++ prend en charge l'encodage des caractères par le biais de std::locale et la facette std::codecvt. L'idée générale est qu'un locale objet décrit les aspects du système qui peuvent varier d'une culture à l'autre, (l'homme) de la langue. Ces aspects sont décomposées en facetqui sont des arguments de modèle qui définissent la manière dont la localisation des objets dépendants (inclure les flux e/S) sont construits. Quand vous lisez à partir d'un istream ou écrire à un ostreaml'écriture réel de chaque personnage est filtré par les paramètres régionaux de facettes. Les facettes de couvrir non seulement le codage d'Unicode types, mais ces fonctionnalités variées que la façon dont un grand nombre sont écrites (par exemple, avec les virgules ou les points), les devises, l'heure, la capitalisation, et une foule d'autres détails.

Cependant, juste parce que les installations existent encodages ne signifie pas que la bibliothèque standard gère en fait tous les encodages, ni de code simple à réaliser. Même ces choses de base comme la taille de caractère, vous devriez être en train de lire (sans parler de l'encodage) est difficile, comme wchar_t peut être trop petit (modificateur de vos données), ou trop grand (gaspiller de l'espace), et le plus commun des compilateurs (par exemple, Visual C++ et C++ de Gnu) ne diffèrent sur la façon dont leur mise en œuvre. Donc, vous aurez généralement besoin de trouver des bibliothèques externes pour faire le codage réel.
- iconv est généralement reconnaissez être correcte, mais des exemples de la façon de lier le C++ mécanisme sont difficiles à trouver.
- jla3ep mentionne libICUqui est très complet mais le API C++ ne pas essayer de jouer gentiment avec la norme (pour autant Que je peux dire: vous pouvez numériser la exemples pour voir si vous pouvez faire mieux).
Le plus simple exemple je peux trouver qui couvre toutes les bases, est de Stimuler la UTF-8 facette codecvtavec un exemple qui essaie notamment d'encoder en UTF-8 (UCS4) pour une utilisation par IO ruisseaux. Ça ressemble à ça, bien que je ne suggère pas que de le copier mot à mot. Il faut un peu plus de creuser dans la source à comprendre (et je ne prétends pas):
```
typedef wchar_t ucs4_t;

std::locale old_locale;
std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);

...

std::wifstream input_file("data.utf8");
input_file.imbue(utf8_locale);
ucs4_t item = 0;
while (ifs >> item) { ... }
```
Pour comprendre plus au sujet de paramètres régionaux, et la façon dont ils utilisent les facettes (y compris codecvt), jetez un oeil à ce qui suit:
- Nathan Myers a un explication détaillée des paramètres régionaux et facettes. Myers a été l'un des concepteurs de l'endroit concept. Il a de plus, la documentation officielle si vous voulez wade à travers elle.
- Apache Standard de mise en œuvre de Bibliothèque (anciennement RogueWave) a un liste complète des facettes.
- Nicolai Josuttis' Le C++ Standard Library Chapitre 14 est consacré à la question.
- Angelika Langer et Klaus Kreft de Standard C++ IOStreams et Locales consacre un livre entier.
4

ifstream ne se soucie pas de l'encodage du fichier. Simplement, il lit les caractères(octets) à partir d'un fichier. wifstream lit large octets(wchar_t), mais il ne sait rien au sujet d'encodage de fichier. wifstream est assez bon pour UCS-2 — fixe-longueur de codage de caractères Unicode (chaque personnage représenté avec deux octets).

Vous pouvez utiliser IBM Soins intensifs bibliothèque de traiter les fichiers Unicode.

Le Volet International de l'Unicode (ICU) est un âge mûr, portable ensemble de C/C++ et Java bibliothèques de support de l'Unicode, logiciel d'internationalisation (I18N) et la mondialisation (G11N), donnant des applications les mêmes résultats sur toutes les plateformes.

Unité de soins intensifs est publié sous une non limitatifs de licence open source, qui est adapté pour une utilisation avec des logiciels commerciaux et open source ou logiciel libre.
1

La conception de la chaîne de caractères larges et large de flux de caractères pré-dates de l'UTF-8, UTF-16 et Unicode. Si vous souhaitez obtenir des techniques, le standard de la chaîne et le flux standard ne sont pas nécessairement fonctionner sur de l'ASCII (c'est juste que, fondamentalement, tous les ordinateurs y utiliser l'ASCII; vous pourriez potentiellement avoir un EBCDIC de la machine).

Raymond Chen une fois a écrit une série illustrant comment travailler avec différents caractères larges flux/types de chaînes.

Vous devez vous connecter pour publier un commentaire.