décoder un flux de fichier en UTF-8

J'ai un document XML, ce qui est très grand (environ 120M), et je ne veux pas charger en mémoire à la fois. Mon but est de vérifier si ce fichier est valide à l'aide de l'encodage UTF-8.

Toutes les idées pour une vérification rapide sans avoir à lire tout le fichier en mémoire sous la forme d' byte[]?

Je suis à l'aide de VSTS 2008 et C#.

Lors de l'utilisation de XMLDocument pour charger un document XML, qui contient non valide les séquences d'octets, il y a une exception, mais lors de la lecture de tous les contenus dans un tableau d'octets et puis de vérifier, à l'encontre de l'UTF-8, il n'y a pas d'exception, des idées?

Voici une capture d'écran montrant le contenu de mon fichier XML, ou vous pouvez télécharger une copie du fichier de ici

décoder un flux de fichier en UTF-8

EDIT 1:

class Program
{
    public static byte[] RawReadingTest(string fileName)
    {
        byte[] buff = null;

        try
        {
            FileStream fs = new FileStream(fileName, FileMode.Open, FileAccess.Read);
            BinaryReader br = new BinaryReader(fs);
            long numBytes = new FileInfo(fileName).Length;
            buff = br.ReadBytes((int)numBytes);
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.Message);
        }

        return buff;
    }

    static void XMLTest()
    {
        try
        {
            XmlDocument xDoc = new XmlDocument();
            xDoc.Load("c:\\abc.xml");
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.Message);
        }
    }

    static void Main()
    {
        try
        {
            XMLTest();
            Encoding ae = Encoding.GetEncoding("utf-8");
            string filename = "c:\\abc.xml";
            ae.GetString(RawReadingTest(filename));
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.Message);
        }

        return;
    }
}

EDIT 2: Lors de l'utilisation de new UTF8Encoding(true, true) il y aura une exception, mais lors de l'utilisation de new UTF8Encoding(false, true), il n'y a aucune exception n'est levée. Je suis confus, car il devrait être le 2ème paramètre qui détermine si une exception est levée (si il y a des invalides les séquences d'octets), pourquoi le 1er paramètre questions?

    public static void TestTextReader2()
    {
        try
        {
            //Create an instance of StreamReader to read from a file.
            //The using statement also closes the StreamReader.
            using (StreamReader sr = new StreamReader(
                "c:\\a.xml",
                new UTF8Encoding(true, true)
                ))
            {
                int bufferSize = 10 * 1024 * 1024; //could be anything
                char[] buffer = new char[bufferSize];
                //Read from the file until the end of the file is reached.
                int actualsize = sr.Read(buffer, 0, bufferSize);
                while (actualsize > 0)
                {
                    actualsize = sr.Read(buffer, 0, bufferSize);
                }
            }
        }
        catch (Exception e)
        {
            //Let the user know what went wrong.
            Console.WriteLine("The file could not be read:");
            Console.WriteLine(e.Message);
        }

    }

N'est-ce pas presque tout de la séquence d'octets, même aléatoire valeurs d'octets, valide UTF8? Ou il y a quelques octets de la valeur des séquences qui ne sont pas valides UTF8?
Pas tous d'entre eux, il y a quelques exceptions, veuillez consulter ici, en.wikipedia.org/wiki/UTF-8#Invalid_code_points
Absolument pas; UTF-8 est un codage spécifique des règles.
Singe, je trouve que c'est très étrange que l'utilisation de XMLDocument à charge et à l'aide de BinaryReader à charger puis de contre-vérifier l'encodage UTF-8, il y aura des résultats différents. Des idées?
par défaut l'encodage UTF-8 utilise un remplacement de secours, RTFM.
veuillez voir EDIT1 section de mon post original pour trouver le contenu du fichier XML que j'utilise. Ma confusion est, XMLDocument.La méthode de chargement va le traiter comme non valide codé en UTF-8 document, mais UTF-8 TextReader va le traiter comme encodage valide (pas d'exception), les idées de ce qui est mal?
Lorsque vous l'Encodage.GetEncoding("utf-8"), vous obtenez un encodage avec le remplacement de secours de fonction non valide les personnages se traduit par "?" ou quelque chose comme ça. XMLDocument.Charge de toute évidence crée un encodage avec un lancer-sur-erreur de secours de la fonction.
votre réponse est tellement génial! 1. Avez-vous des documents (MSDN ou quelque chose ro prouver vos points)? Je veux en savoir plus sur ce sujet. 2. Donc, si je veux avoir une exception lors de l'utilisation de l'Encodage.GetEncoding, je dois définir le remplacement de secours de la fonction null?
1. Voir MSDN à l'Encodage.GetEncoding(string,XxxFallback,YyyFallback), l'utilisation du réflecteur. 2. Vous ne devriez pas régler la fonction de secours pour les nuls, au mieux, vous obtiendrez quelques quelconque valeur par défaut. Ce que vous avez besoin est un DecoderExceptionFallback objet, mais l'appel à la UTF8Encoding(true,true) dans mon extrait de le crée pour vous.
"mais l'appel à la UTF8Encoding(true,true) dans mon extrait crée" -- qui extrait de code que tu veux dire?
J'ai écrit un code par moi-même, et s'il vous plaît se référer à EDIT2 section de mon post original, je l'ai essayé lors de l'utilisation de nouveaux UTF8Encoding(true, true) il y aura des exceptions, mais lors de l'utilisation de nouveaux UTF8Encoding(faux, vrai), il n'y a aucune exception n'est levée. Je suis confondu parce que ça devrait être le 2ème paramètre qui contrôle si une exception est levée lorsqu'il n'est pas valide séquences d'octets, pourquoi le 1er paramètre questions?
J'ai trouvé la solution sur la façon de filtrer les invalides séquences d'octets UTF-8, mais il a rencontré un nouveau problème ici, stackoverflow.com/questions/877338/where-is-leak-in-my-code apprécié si vous pouviez jeter un oeil et de partager des points de vue. 🙂

InformationsquelleAutor George2 | 2009-05-18

c#encoding utf-8 validation

6
```
var buffer = new char[32768] ;

using (var stream = new StreamReader (pathToFile, 
    new UTF8Encoding (true, true)))
{
    while (true)
    try
    {
        if (stream.Read (buffer, 0, buffer.Length) == 0)
            return GoodUTF8File ;
    }
    catch (ArgumentException)
    {
        return BadUTF8File ;
    }
}
```
- Mais si un caractère à l'aide de plusieurs octets durée des morceaux, comment gérez-vous cette situation?
- le lecteur se livrer décodé morceaux, que vous venez de jeter. Si l'ensemble du flux de déchets décode, il était valide. Pas question de codé octets, couvrant les morceaux de caractères vous lire.
- Singe, je suis confus au sujet de ce que tu veux dire "le lecteur se livrer" -- pourriez-vous montrer votre extrait de code s'il vous plaît?
- Il suffit de garder appel TextReader.Read(char[], int, int), en réutilisant le même tampon. Le lecteur permet de s'assurer qu'elle gère les caractères multi-octets.
- Copnfused. TextReader n'a pas un constructeur qui prend en charge la lecture de fichiers. BTW: pourriez-vous montrer un exemple simple extrait de code s'il vous plaît?
- Skeet et @Anton Tykhyy, je trouve que c'est très étrange que l'utilisation de XMLDocument à charge et à l'aide de BinaryReader à charger puis de contre-vérifier l'encodage UTF-8, il y aura des résultats différents. Des idées?
- Vous pouvez créer un FileStream et passer à TextReader. c'est la façon dont vous utilisez les flux efficacement avec les lecteurs.
- Non, Spence: TextReader est une classe de base abstraite pour StreamReader et StringReader.
- et @ChrisW, veuillez consulter EDIT1 section de mon post original pour trouver le contenu du fichier XML que j'utilise. Ma confusion est, XMLDocument.La méthode de chargement va le traiter comme non valide codé en UTF-8 document, mais UTF-8 TextReader va le traiter comme encodage valide (pas d'exception), les idées de ce qui est mal?
- J'ai trouvé la solution sur la façon de filtrer les invalides séquences d'octets UTF-8, mais il a rencontré un nouveau problème ici, stackoverflow.com/questions/877338/where-is-leak-in-my-code apprécié si vous pouviez jeter un oeil et de partager des points de vue. 🙂
InformationsquelleAutor Anton Tykhyy
3

@George2 je pense qu'ils signifient une solution comme la suite (que je n'ai pas testé).

De la manipulation de la transition entre les tampons (c'est à dire la mise en cache des octets supplémentaires/partielle de caractères entre les lectures) est le responsibillity et une mise en œuvre interne de détail de la StreamReader mise en œuvre.
```
using System;
using System.IO;
using System.Text;

class Test 
{
    public static void Main() 
    {
        try 
        {
            //Create an instance of StreamReader to read from a file.
            //The using statement also closes the StreamReader.
            using (StreamReader sr = new StreamReader(
                "TestFile.txt",
                Encoding.UTF8
                ))
            {
                const int bufferSize = 1000; //could be anything
                char[] buffer = new char[bufferSize];
                //Read from the file until the end of the file is reached.
                while (bufferSize == sr.Read(buffer, bufferSize, 0)) 
                {
                    //successfuly decoded another buffer's-worth of data
                }
            }
        }
        catch (Exception e) 
        {
            //Let the user know what went wrong.
            Console.WriteLine("The file could not be read:");
            Console.WriteLine(e.Message);
        }
    }
}
```
- un petit bug, Read(buffer, bufferSize, 0), doit être Lu(buffer, 0, bufferSize). 🙂 Un autre problème est, je trouve votre méthode et à l'aide de XMLDocument.Charge aura des résultats différents. Votre méthode ne jamais jeter de toute exception, même s'il est invalide les séquences d'octets UTF-8 dans le fichier sous-jacent (p. ex. TestFile.txt), mais XMLDocument.Charge jeter l'exception. Veuillez vous référer à EDIT1 section de mon post original. Toutes les idées de ce qui est mal?
- Je ne sais pas (je ne faisais que donner un exemple de code pour parrot les suggestions ci-dessous). Quel exception êtes-vous attraper? Savez-vous (de façon indépendante) de savoir si ou de ne pas l'UTF8 dans le fichier est correct? Si vous êtes sûr que c'est incorrect, et le code ci-dessus n'est pas à défaut, essayez d'exécuter du code avec Visual Studio pour intercepter des exceptions quand ils sont jetés, au lieu de seulement lorsqu'ils sont non gérée? Parce que peut-être (mais je ne sais pas pourquoi) le StreamReader mise en œuvre silencieusement captures de n'importe quel Encodage des exceptions.
- mon fichier XML est simple et petit, le contenu est, i42.tinypic.com/wioc9c.jpg lors de l'utilisation de XMLDocument.Charger le fichier xml sera considérée comme invalide l'encodage UTF-8, mais lors de l'utilisation de votre méthode, il sera considéré comme valide encodage -- aucune exception, toutes les idées?
- Si vous souhaitez lire le fichier à l'aide de XmlDocument.Charge, je voudrais essayer de retirer le début de fichier marque: les trois premiers 0xEF 0xBB 0xBF octets.
- lors de l'utilisation de XMLDocument.Charge, vous pouvez trouver les invalides octets ne sont pas le début 3. J'ai téléchargé mes fichiers d'origine pour le débogage, filefactory.com/file/ag00da3/n/a_xml vous pouvez voir que c'est si étrange! XmlDocument.Des rapports de chargement comme invalide UTF-8 séquences d'octets, mais votre rapport la méthode est comme un aliment sain. 🙂 Toutes les idées de ce qui est mal?
- catch (Exception e) est une très mauvaise idée.
- Je suis d'accord, et je veux juste savoir ce qui est mal. Toutes les idées sur la façon de modifier le comportement par défaut du système (convertir invalide caractère '?'), et d'appeler mon propre en remplacement de secours de la fonction (je veux remplacer tous les caractères non valides à vide)?
- dans ce cas de catch(Exception), vous aurez aussi l'attraper fichier n'est pas trouvé, l'accès est refusé, etc. ce qui n'est probablement pas ce que vous avez besoin. Re changement de comportement par défaut: créer votre propre DecoderReplacementFallback objet.
- Je suis totalement d'accord et j'accepte vos commentaires lors de la conversion d'un prototype de code dans le niveau de la production de code. 🙂 J'ai écrit un code par moi-même, et s'il vous plaît se référer à EDIT2 section de mon post original, je l'ai essayé lors de l'utilisation de nouveaux UTF8Encoding(true, true) il y aura des exceptions, mais lors de l'utilisation de nouveaux UTF8Encoding(faux, vrai), il n'y a aucune exception n'est levée. Je suis confondu parce que ça devrait être le 2ème paramètre qui contrôle si une exception est levée lorsqu'il n'est pas valide séquences d'octets, pourquoi le 1er paramètre questions?
- J'ai trouvé la solution sur la façon de filtrer les invalides séquences d'octets UTF-8, mais il a rencontré un nouveau problème ici, stackoverflow.com/questions/877338/where-is-leak-in-my-code apprécié si vous pouviez jeter un oeil et de partager des points de vue. 🙂
InformationsquelleAutor ChrisW

Ne serait-ce pas le travail?

StreamReader reader = new StreamReader(file);

Console.WriteLine(reader.CurrentEncoding.ToString()); //You get the default encoding
reader.Read();

Console.WriteLine(reader.CurrentEncoding.ToString()); //You get the right encoding. 
reader.Close();

Pas si quelqu'un peut aider à expliquer pourquoi?

InformationsquelleAutor Sajay

Vous devez vous connecter pour publier un commentaire.