problème à l'aide de getline avec un fichier unicode

Mise à JOUR: Merci à @Potatoswatter et @Jonathan Leffler pour commentaires - plutôt embarrassante j'ai été surpris par l'outil de débogage de la pointe ne montrant pas la valeur d'un wstring correctement - mais il n'est toujours pas assez de travail pour moi et j'ai mis à jour la question ci-dessous:

Si j'ai un petit multi-octets du fichier que je veux lire une chaîne de caractères-je utiliser l'astuce suivante - je utiliser getline avec un délimiteur de '\0' par exemple

std::string contents_utf8;
std::ifstream inf1("utf8.txt");
getline(inf1, contents_utf8, 'std::string contents_utf8;
std::ifstream inf1("utf8.txt");
getline(inf1, contents_utf8, '\0');
');

Ce lit dans l'ensemble du dossier, y compris les retours à la ligne.

Cependant, si j'essaie de faire la même chose avec un caractère large de fichier ne fonctionne pas - mon wstring ne lit à la première ligne.

std::wstring contents_wide;
std::wifstream inf2(L"ucs2-be.txt");
getline( inf2, contents_wide, wchar_t(0) ); //doesn't work

Par exemple si mon fichier unicode contient les caractères A et B séparés par un CRLF, la tête ressemble à ceci:

FE FF 00 41 00 0D 00 0A 00 42

Basé sur le fait que, avec un multi-octets du fichier getline avec '\0' lit le fichier en entier j'ai cru que getline( inf2, contents_wide, wchar_t(0) ) peut lire l'intégralité du fichier unicode. Cependant, il n'est pas - avec l'exemple au-dessus de ma grande chaîne contiendra les deux wchar_ts: FF FF

(Si je retire la wchar_t(0) on lit à la première ligne, comme prévu (c'est à dire FE FF 00 41 00 0D 00)

Pourquoi ne pas wchar_t(0) travaillent en délimitant wchar_t de sorte que getline s'arrête sur 00 00 (ou lit à la fin du fichier, qui est ce que je veux)?

Merci

Le multi-octets fichier doit lire à '\n', n'est-ce pas? Idem pour les caractères larges de la version, il convient de lire pour le grand caractère de saut de ligne.
UCS-2 ne devrait pas faire de traduction, de sorte qu'il ne peut pas être la machine de l'etat. Cela fonctionne correctement si vous n'avez pas de \0 s?
Leffler la MO fichier se lit à l'EOF (y compris \n) parce que j'ai dit que le délimiteur de s'arrêter sur est 0
même résultat pour le widechar version résultat, si je retire la whar_t(0) arrête la lecture à la première de 0 octet.
non, je veux dire ce qui se passe si il n'y a pas de 0 octets dans le fichier. Aussi, n'est-ce pas "arrêt de la lecture à la première de 0 octet" ce que vous avez demandé? Il serait utile si vous avez été plus précis. Faut-il agir comme le 0 de l'octet est la fin du fichier? Ce n'est pas ce que votre description ressemble.
La Correction (j'ai été surpris par le débogueur pas en me montrant la chaîne correctement) si je retire la wchar_t(0) ensuite, il lit à la fin de la première ligne que l'on pourrait attendre

InformationsquelleAutor hamishmcn | 2010-04-27

c++getline unicode wstring

2

Votre UCS-2 decoder est défaillante. Le résultat de getline( inf2, contents_wide ) sur FE FF 00 41 00 0D 00 0A 00 42 devrait être 0041 0000 = L"A". En supposant que vous êtes sur Windows, les caractères de fin de ligne doit être converti correctement, et la marque d'ordre d'octet ne devrait pas apparaître dans la sortie.

Suggérons de vérifier votre documentation du système d'exploitation à l'égard de la façon dont vous définissez les paramètres régionaux.

EDIT: Avez-vous définissez les paramètres régionaux?
```
locale::global( locale( "something if your system supports UCS-2" ) );
```
ou
```
locale::global( encoding_support::ucs2_bigendian_encoding );
```
où encoding_support est une bibliothèque.
- Non, je n'ai pas de définir les paramètres régionaux - je vais le tester (mais je ne comprends pas pourquoi cela devrait changer si getline lit 1 octet ou 2 octets lorsque les paramètres sont wchar_ts). Je ne comprends pas ce que vous voulez dire quand vous dites "encoding_support est une bibliothèque" - tout ce que je veux faire est de lire un fichier en wchar_ts?
- Potatoswatter je suis coincé, je ne sais pas quoi mettre comme paramètre de la locale. Je suppose que vous voulez me remplacer "quelque chose de si votre système prend en charge l'UCS-2" avec un autre paramètre, mais je ne sais pas quoi. Devrait-il être un nom de langue? Sûrement le point de l'utilisation de l'échelle de caractères est pour éviter d'avoir à définir des pages de code et ainsi de suite? Je suis sous WinXP SP3. Sûrement C++ peut lire wchar_ts à partir d'un fichier, sans avoir à spécifier une langue?
- Je voudrais bien savoir quoi vous dire. J'ai brièvement regardé autour de MSDN de la documentation, mais ils sont concentrés entièrement sur l'internationalisation de la langue et non sur l'encodage des données. Essayez d'élargir votre recherche à UTF-16 et les bibliothèques de tiers... ou envisager l'amerrissage forcé la bibliothèque standard et de la lecture du fichier vous-même. Peut-être vous pouvez contacter le développeur du logiciel qui a produit le fichier que vous tentez de lire et de se demander comment ils ont fait.
- J'apprécie tous vos commentaires et le temps que vous mettez dans cette. Pour l'enregistrement, ce n'est pas un gros problème pour moi (je suis le créateur du fichier, je suis en train de lire et je peut lire par la lecture dans un tableau de char) ça me dérange qu'il ne fonctionne pas de la façon que j'attendais - je voulais un moyen rapide et facile C++ façon (avec std::les chaînes de caractères et ifstreams) pour le faire 🙂
InformationsquelleAutor Potatoswatter
1

Voir cette question: Pourquoi l'échelle de fichier en C++ étroit écrites données par défaut?, où l'affiche est surpris par la wchar_t -> char de conversion lors de l'écriture.

Les réponses données à cette question s'applique à la lecture des cas aussi. En un mot: au niveau le plus bas, e/S de fichier est toujours fait en termes d'octets. Un basic_filebuf (ce que l' fstream utilise pour effectuer réellement les I/O) utilise une codecvt facette à la traduction entre les "internes" de l'encodage (le type char vu par le programme, et utilisé pour instancier le flux, wchar_t dans votre cas) et "externes" de l'encodage du fichier (qui est toujours char).

La codecvt est obtenu à partir du flux locale. Si aucune localisation n'est imbue()-d sur le flux, le mondial locale est utilisée. Par défaut, le mondial locale est le "classique" (ou "C") paramètres régionaux. Que les paramètres régionaux de l' codecvt facette est assez basique. Je ne sais pas ce que dit la norme à ce sujet, mais, dans mon expérience, sur Windows, il suffit simplement de "jette" entre char et wchar_t, un par un. Sur Linux, il le fait aussi, mais échoue si le caractère de la valeur est en dehors de la plage ASCII.

Donc, si vous ne touchez pas à la locale (soit par imbue()-ing un sur la rivière ou de la modification de la global), ce qui arrivera probablement dans votre cas est que chars sont lus à partir du fichier et de lancer pour wchar_t un par un. Ainsi, il lit d'abord FF, puis FE, puis 00, et getline(..., 0) s'arrête là.
- Ceci est en accord avec ce que j'ai vu quand j'ai copié le code pour getline et remplacé l'basés sur des modèles types des types, je suis en utilisant ce que j'ai pu étape à travers à essayer de comprendre ce qui se passait sur le wifstream a été la lecture d'un octet à la fois dans mon wchar_t
InformationsquelleAutor Éric Malenfant
0

L"ucs2-be.txt" regarde-moi comme un drapeau pour big endian, mais la matrice FE FF 00 41 00 0D 00 0A 00 42 ressemble little-endian. Je suppose que c'est pourquoi la FE FF caractère a été lu dans votre tableau au lieu d'être ignorée. Je ne peux pas comprendre pourquoi la présence ou l'absence de wchar(0) affecte les résultats si.
- L"ucs2-be.txt" c'est juste le nom du fichier. FE FF est big-endian.
- Vous avez raison, le nom de fichier est là pour induire en erreur les lecteurs tout en n'ayant aucun effet sur les machines. Mais quelque chose est toujours mal. FE FF est en big endian, mais après tout c'est little-endian.
- Tout le reste est big-endian trop. Les zéros venir avant, une partie importante vient après.
- Vous savez ce que font les gens quand ils polluent aussi mal que je l'ai fait ici. Ils suppriment leurs réponses 🙂
- Merci - le dernier commentaire m'a fait rire 🙂
InformationsquelleAutor Windows programmer

Vous devez vous connecter pour publier un commentaire.