Streamreader et les caractères étrangers

Qui l'encodage doit-je utiliser pour lire ĉ,Ĝ,å,ä,ö,ü etc?

InformationsquelleAutor | 2009-02-26

9

Vous devez utiliser quel que soit le codage des données d'origine est. Où êtes-vous d'obtenir les données à partir de, et avez-vous des informations à codage il en est? Si vous essayez de le lire avec le mauvais encodage, vous aurez la mauvaise réponse: même si votre encodage peut gérer les caractères, ça va de mal interpréter les données binaires.

Si vous arrivez à choisir l'encodage, puis UTF-8 est un bon pari. Il est mauvais en termes de taille, si vous avez beaucoup de caractères d'extrême-orient, mais bien du contraire. En particulier, ASCII vient encore à un octet par caractère.
- Comment puis-je lire ce que l'encodage du fichier? Le programme utilise de nombreux fichiers à partir de plusieurs endroits. Merci
- Vous ne pouvez pas, de façon fiable. Un fichier ne contient pas de codage. Vous avez besoin de le savoir. Par exemple, tous est un fichier valide pour Windows-1252 fichier, mais si c'est "vraiment" UTF-8, puis les résultats seront très différents.
- Fichiers Unicode sont supposons que pour contenir un BOM (byte order mark), que l'on (et StreamReader) peuvent utiliser pour détecter l'encodage.
- Il n'y a pas "censé" - ils à contient une NOMENCLATURE, mais ils ne doivent certainement pas. Et qui peut encore obtenir l'encodage de mal - il pourrait encore être un Windows-1252 fichier qui arrive à démarrer avec les octets pour UTF-16 ou UTF-8 BOM. En d'autres termes, vous ne pouvez pas le faire de manière fiable.
- La NOMENCLATURE est exigée pour tous, mais UTF-8.
- Veuillez point d'un cahier des charges qui exige que. Pas seulement pour le XML, mais un universel spécification pour tous fichiers texte. Je ne crois pas qu'il y a est de ces spécifications.
- Vous êtes correct. Bien sûr, la NOMENCLATURE n'est pertinente que pour les fichiers Unicode. Il est peu probable que vous trouverez toutes les Fenêtres de fichiers texte Unicode sans elle, alors pourquoi ne pas la chercher? Je n'ai pas trouvé que c'était nécessaire, il n'est probablement pas.
- Il n'est pas nécessaire car il n'y a pas de standard pour les fichiers texte. Oui, à la recherche pour vous donner quelques heuristiques, mais vous ne pouvez pas fiable détecter chaque encodage. Il y a des fichiers qui sont valables dans plusieurs codages.
InformationsquelleAutor Jon Skeet

Aussi, vous pouvez mettre la culture à lire étrange carachteres comme ç á á etc.

CultureInfo pt = CultureInfo.GetCultureInfo("pt-BR");
StreamReader fileReader = new StreamReader("C:\temp\test.txt",Encoding.GetEncoding(pt.TextInfo.ANSICodePage),true);

InformationsquelleAutor Vagner

4

Vous avez besoin d'utiliser le codage approprié, comme toutes les autres réponses mentionnées.

Le problème est de savoir comment découvrir l'encodage. Cela dépend de la source de votre fichier:
1. Si c'est un fichier XML, il devrait y avoir un <?xml> instruction de traitement au début du fichier qui spécifie l'encodage. Si il n'existe pas, vous devez supposer que c'est de l'utf-8.
2. Si c'est un fichier texte, vous pouvez essayer de l'encodage UTF8, ou, si cela échoue, vous devriez essayer les paramètres régionaux du système de la machine que vous utilisez. Si cela échoue, vous êtes à peu près sur votre propre, sauf si vous connaissez quelqu'un qui peut vous indiquer les paramètres régionaux du système de la machine, le fichier a été créé à.
Dans tous les cas, vous devriez être en mesure de couvrir environ 90% de tous les fichiers à l'aide de l'UTF8 avec un repli de UTF16. Presque tous les programmes ou les langues dans les cinq dernières années, support de l'Unicode. Toutefois, si vous allez consommer beaucoup de fichiers à partir de la Chine, vous pouvez essayer d'abord UTF16, qui est un peu plus répandue pour l'encodage GB18030.
- De ce que j'entends de la part de personnes travaillant dans l'entreprise-à-entreprise de systèmes de messagerie, les codages unicode ne sont pas encore aussi répandu que vous avez de l'état. À tous. Hacks comme la détection et la fixation de mauvais décodage effectué par d'autres systèmes sont courantes dans l'industrie.
InformationsquelleAutor Franci Penov
3

Codages tous se résument au fait que si vous utilisez les 8 bits d'un caractère, vous ne pouvez traiter 256 caractères distincts. Voyant que le royaume-UNI et de mettre en place les conventions, les 256 caractères ASCII standard sont pour la plupart non accentuées caractères occidentaux.

C'est là UTF8 et UTF16 entrent en jeu. UTF8 est un peu comme l'ASCII - il utilise un octet pour la plupart des caractères occidentaux. Cependant, il existe des octets qui indiquent un personnage de la normale de la plage ASCII - les deux octets qui suivent immédiatement la spéciale d'octets, puis d'indiquer le véritable caractère.

UTF16 (aussi connu comme Unicode) l'indicateur d'octets, et juste utilise 16 bits pour chaque personnage. Comme nous le savons tous, de 16 bits, vous donne 65536 caractères distincts, ce qui n'est pas tout à fait assez pour couvrir tous les mondes de l'écrit, des personnages, mais il a surtout fait le travail.

Donc, pour répondre à votre question: si la plupart de vos personnages sont atones, de l'ouest de caractères UTF8 sera le plus compact de la représentation pour vous (et plus lisibles dans de nombreux éditeurs). Si l'essentiel de vos personnages non-ouest (disons, Chinois), vous voudrez probablement utiliser Unicode (aka UTF16).

Bonne chance!

InformationsquelleAutor Mike
1

Encodage.UTF8 ou de Codage.Unicode.

La classe StreamReader a un bool paramètre de son constructeur lui permettre de détection automatique de l'encodage.
- Pas nécessairement. Il dépend de l'encodage en entrée.
- Si vous voulez enregistrer un fichier Unicode sans BOM, alors c'est votre problème 🙂
- La question est à propos de la lecture, pas d'écriture d'un ruisseau 😉
- Alors, que pensez-vous de la StreamReader n'? Vous êtes celui qui a commencé à parler d'entrée...
- Je ne suis pas sûr de ce que vous parlez 😉 L'OP veut lire de données à partir d'un flux, et que Jon et d'autres ont dit, vous aurez besoin de savoir l'encodage de la chaîne d'entrée. À l'aide de l'UTF8, ce serait justement une bonne estimation mais peut être faux.
InformationsquelleAutor leppie
1

Il n'est pas complètement fiable méthode, mais vous pouvez utiliser des heuristiques pour deviner l'encodage.
1. Recherchez un marque d'ordre d'octet.
2. Si vous ne trouvez pas une NOMENCLATURE, supposons que le fichier est en UTF-8 et d'essayer de l'analyser. Si c'est un fichier XML, la déclaration peut contenir un codage. De même, un fichier HTML peut contenir une méta encodage de la balise.
3. À défaut de tous les ci-dessus, supposons que c'est de l'UTF-8 (ou ANSI -- votre choix).
Rick Strahl a une pratique de l'article sur la détection des codages par la NOMENCLATURE. C'est un peu datée-Système.Texte.L'encodage a maintenant un GetPreamble méthode et StreamReader a une surcharge qui va essayer de détecter l'encodage pour vous.

InformationsquelleAutor Ishmael
0

Unicode => UTF-8/UTF-16 ? 🙂
- Vous l'avez manqué, avec 8 secondes 🙂
- J'ai besoin de travailler sur mon saisie rapide des compétences ^^
InformationsquelleAutor cwap

Vous devez vous connecter pour publier un commentaire.