Comment écrire des super-rapide de fichiers de streaming de code en C#?

Je dois diviser un énorme fichier en plusieurs fichiers plus petits. Chacun des fichiers de destination est défini par un décalage et la longueur est le nombre d'octets. Je suis en utilisant le code suivant:

private void copy(string srcFile, string dstFile, int offset, int length)
{
    BinaryReader reader = new BinaryReader(File.OpenRead(srcFile));
    reader.BaseStream.Seek(offset, SeekOrigin.Begin);
    byte[] buffer = reader.ReadBytes(length);

    BinaryWriter writer = new BinaryWriter(File.OpenWrite(dstFile));
    writer.Write(buffer);
}

Considérant que j'ai appeler cette fonction à environ 100 000 fois, il est extrêmement lente.

Est-il un moyen de faire de l'Écrivain connecté directement au Lecteur? (Qui est, sans charger le contenu dans la mémoire Tampon dans la mémoire).

Fichier.OpenRead et Fichier.OpenWrite de 100 000 sera lente bien...
Êtes-vous le fractionnement du fichier parfaitement, c'est à dire pourriez-vous reconstruire un fichier volumineux par juste de rejoindre tous les petits fichiers? Si donc il y a des économies à avoir là. Si non, les gammes de petits fichiers se chevauchent? Ils sont triés dans l'ordre de décalage?

InformationsquelleAutor ala | 2009-06-05

c#cpu performance streaming utilization

46

Je ne crois pas qu'il y ait quelque chose à l'intérieur .NET pour permettre la copie d'une section d'un fichier sans mise en mémoire tampon en mémoire. Cependant, il me semble que c'est inefficace de toute façon, comme il a besoin pour ouvrir le fichier d'entrée et de chercher de nombreuses fois. Si vous êtes juste de scinder le fichier, pourquoi ne pas ouvrir le fichier d'entrée une fois, et puis il suffit d'écrire quelque chose comme:
```
public static void CopySection(Stream input, string targetFile, int length)
{
    byte[] buffer = new byte[8192];

    using (Stream output = File.OpenWrite(targetFile))
    {
        int bytesRead = 1;
        //This will finish silently if we couldn't read "length" bytes.
        //An alternative would be to throw an exception
        while (length > 0 && bytesRead > 0)
        {
            bytesRead = input.Read(buffer, 0, Math.Min(length, buffer.Length));
            output.Write(buffer, 0, bytesRead);
            length -= bytesRead;
        }
    }
}
```
Cela a un mineur de l'inefficacité dans la création d'un tampon à chaque invocation - vous pouvez créer le tampon une fois et le passer dans la méthode ainsi:
```
public static void CopySection(Stream input, string targetFile,
                               int length, byte[] buffer)
{
    using (Stream output = File.OpenWrite(targetFile))
    {
        int bytesRead = 1;
        //This will finish silently if we couldn't read "length" bytes.
        //An alternative would be to throw an exception
        while (length > 0 && bytesRead > 0)
        {
            bytesRead = input.Read(buffer, 0, Math.Min(length, buffer.Length));
            output.Write(buffer, 0, bytesRead);
            length -= bytesRead;
        }
    }
}
```
Noter que cette ferme également le flux de sortie (en raison de l'utilisation de déclaration) que votre code d'origine n'a pas.

Le point important est que cela permettra d'utiliser le système d'exploitation du fichier de mise en mémoire tampon de manière plus efficace, parce que vous réutilisez le même flux d'entrée, au lieu de rouvrir le fichier au début et puis en cherchant.

Je pense il va être beaucoup plus rapide, mais évidemment, vous aurez besoin de l'essayer pour voir...

Cela suppose contiguë morceaux, bien sûr. Si vous avez besoin d'ignorer les bits du fichier, vous pouvez le faire à partir de l'extérieur de la méthode. Aussi, si vous écrivez des fichiers de très petite taille, vous pouvez optimiser pour que la situation de trop - la meilleure façon de le faire serait probablement à introduire un BufferedStream enveloppant le flux d'entrée.
- Je sais que c'est un deux ans post, juste me demandais... est-ce encore le moyen le plus rapide? (c'est à dire Rien de nouveau .Net pour être au courant?). Aussi, serait-il plus rapide pour effectuer les Math.Min avant d'entrer dans la boucle? Ou mieux encore, à supprimer le paramètre de durée, car il peut être calculée au moyen de la mémoire tampon? Désolé d'être pointilleux et nécro ce! Merci à l'avance.
- Étant donné que c'est l'exécution IO, l'appel aux Mathématiques.Min est certainement pas va être pertinents en termes de performances. Au point d'avoir à la fois la longueur du paramètre et de la longueur de la mémoire tampon est de vous permettre de réutiliser un peut-surdimensionné de la mémoire tampon.
- Gotcha, et merci de revenir vers moi. Je déteste commencer une nouvelle question quand il y a probablement un assez bon droit de réponse ici, mais que voulez-vous dire, que si vous voulez lire le premier x octets d'un grand nombre de fichiers (dans le but de s'emparer de la des métadonnées XMP à partir d'un grand nombre de fichiers), l'approche ci-dessus (avec quelques ajustements) est toujours recommandé?
- Bien le code ci-dessus est pour copie. Si vous ne souhaitez que lire le premier x octets, je serais encore en boucle ronde, mais viens de lire dans un de la bonne taille de la mémoire tampon, l'incrémentation de l'indice à partir duquel la lecture d'écrire dans la mémoire tampon de façon appropriée à chaque itération.
- Yup, je suis moins intéressé à l'écriture de la partie, je voulais juste confirmer que le moyen le plus rapide pour lire un fichier est également le moyen le plus rapide de lire de nombreux fichiers. J'ai imaginé être capable de P/Invoke pour les pointeurs de fichiers/décalages et à partir de là, être en mesure de numériser à travers plusieurs fichiers avec le même ou moins de flux/tampons, qui dans mon monde imaginaire de le faire croire, serait peut-être encore plus rapide pour ce que je veux atteindre (si non applicable à l'OP). Si je ne suis pas aboiements fou, probablement le meilleur, je commence une nouvelle question. Si je le suis, pourriez-vous me faire savoir si je n'ai pas de déchets encore plus des peuples de temps? 🙂
- Pensez-vous réellement avoir un rendement problème aujourd'hui? Avez-vous écrit le code le plus simple qui fonctionne et a constaté que c'est trop lent? Gardez à l'esprit que beaucoup de choses peuvent dépendre du contexte de lecture en parallèle peuvent vous aider si vous êtes à l'aide de l'état solide, mais pas sur un disque dur normal, par exemple.
- DONC, je conseille de prendre cela pour un chat, je pense que je vais commencer une nouvelle question. Merci donc à présent!
InformationsquelleAutor Jon Skeet
26

Le moyen le plus rapide pour faire des e/S de fichier à partir de C# est d'utiliser le Windows ReadFile et WriteFile fonctions. J'ai écrit une classe C# qui encapsule cette capacité ainsi que d'un programme d'étalonnage qui regarde provenant de plusieurs méthodes d'e/S, y compris BinaryReader et BinaryWriter. Voir mon billet de blog à:

http://designingefficientsoftware.wordpress.com/2011/03/03/efficient-file-io-from-csharp/
- Merci pour le blog détaillée de l'information. Avoir une "bonne Réponse" badge!
InformationsquelleAutor Bob Bryan

Quelle est la taille de length? Vous pouvez faire mieux ré-utiliser un fixe de taille moyenne (d'assez grande taille, mais pas obscène) de la mémoire tampon, et d'oublier BinaryReader... il suffit d'utiliser Stream.Read et Stream.Write.

(edit) quelque chose comme:

private static void copy(string srcFile, string dstFile, int offset,
     int length, byte[] buffer)
{
    using(Stream inStream = File.OpenRead(srcFile))
    using (Stream outStream = File.OpenWrite(dstFile))
    {
        inStream.Seek(offset, SeekOrigin.Begin);
        int bufferLength = buffer.Length, bytesRead;
        while (length > bufferLength &&
            (bytesRead = inStream.Read(buffer, 0, bufferLength)) > 0)
        {
            outStream.Write(buffer, 0, bytesRead);
            length -= bytesRead;
        }
        while (length > 0 &&
            (bytesRead = inStream.Read(buffer, 0, length)) > 0)
        {
            outStream.Write(buffer, 0, bytesRead);
            length -= bytesRead;
        }
    }        
}

Aucune raison de le rincer à la fin? La fermeture devrait le faire. Aussi, je pense que vous voulez soustraire de la longueur de la première boucle 🙂
De bons yeux Jon! La Chasse était la force de l'habitude; partir d'un grand nombre de code quand je passe des flux plutôt que de les ouvrir/fermer dans la méthode - c'est pratique (si l'écriture d'un montant non négligeable de données) pour le rincer avant de le retourner.

InformationsquelleAutor Marc Gravell

3

Vous ne devriez pas ré-ouvrir le fichier source à chaque fois que vous faites un copier, mieux de l'ouvrir une fois et de passer l'résultant BinaryReader à la fonction de copie. Aussi, il pourrait aider si vous commandez votre cherche, afin de ne pas faire de grands sauts à l'intérieur du fichier.

Si les longueurs ne sont pas trop gros, vous pouvez également essayer de regrouper plusieurs copie des appels par le groupement des décalages qui se trouvent à proximité les uns des autres et de la lecture de l'ensemble du bloc dont vous avez besoin pour eux, par exemple:
```
offset = 1234, length = 34
offset = 1300, length = 40
offset = 1350, length = 1000
```
peuvent être regroupées de manière à lire:
```
offset = 1234, length = 1074
```
Vous n'avez alors qu'à "chercher" dans votre tampon et peut écrire les trois nouveaux fichiers à partir de là sans avoir à lire de nouveau.

InformationsquelleAutor schnaader

Avez-vous considéré l'utilisation de la CCR depuis que vous êtes à l'écriture dans des fichiers séparés, vous pouvez tout faire en parallèle (lecture et écriture) et la CCR, il est très facile à faire.

static void Main(string[] args)
    {
        Dispatcher dp = new Dispatcher();
        DispatcherQueue dq = new DispatcherQueue("DQ", dp);

        Port<long> offsetPort = new Port<long>();

        Arbiter.Activate(dq, Arbiter.Receive<long>(true, offsetPort,
            new Handler<long>(Split)));

        FileStream fs = File.Open(file_path, FileMode.Open);
        long size = fs.Length;
        fs.Dispose();

        for (long i = 0; i < size; i += split_size)
        {
            offsetPort.Post(i);
        }
    }

    private static void Split(long offset)
    {
        FileStream reader = new FileStream(file_path, FileMode.Open, 
            FileAccess.Read);
        reader.Seek(offset, SeekOrigin.Begin);
        long toRead = 0;
        if (offset + split_size <= reader.Length)
            toRead = split_size;
        else
            toRead = reader.Length - offset;

        byte[] buff = new byte[toRead];
        reader.Read(buff, 0, (int)toRead);
        reader.Dispose();
        File.WriteAllBytes("c:\\out" + offset + ".txt", buff);
    }

Ce code des postes de compensations pour un port CCR qui provoque un Thread à être créé pour exécuter le code dans la méthode de Fractionnement. Ce qui vous fait ouvrir le fichier plusieurs fois, mais se débarrasser de la nécessité pour la synchronisation. Vous pouvez la rendre plus efficace en terme de mémoire, mais vous aurez à sacrifier la vitesse.

Rappelez-vous avec cette (ou tout le filetage de la solution), vous pouvez atteindre un stade où vous serez au maximum de votre IO: vous avez atteint votre meilleur débit(c'est à dire si la tentative d'écriture des centaines/milliers de petits fichiers dans le même temps, plusieurs grands dossiers, etc). J'ai toujours trouvé que si je peux faire un fichier en lecture/écriture efficacement, il est le peu que je peux faire pour l'améliorer par parallelising (Assemblée peut aider beaucoup, faire de la lecture/écrit en assembleur et il peut être spectaculaire, jusqu'à la IO limites, cependant, il peut être une douleur à écrire, et vous devez être sûr que vous voulez directement au matériel ou au niveau du BIOS accès à vos appareils

InformationsquelleAutor HasaniH

1

La première chose que je recommande est de prendre des mesures. Où en êtes-vous perdre votre temps? Est-il dans la lecture ou l'écriture?

Plus de 100 000 accès (somme pour l'époque):
Comment beaucoup de temps est consacré à l'allocation de la mémoire tampon de tableau?
Comment beaucoup de temps est consacré à l'ouverture du fichier pour le lire (c'est le même fichier à chaque fois?)
Comment beaucoup de temps est passé dans les opérations de lecture et écriture?

Si vous ne faites pas n'importe quel type de transformation sur le fichier, vous avez besoin d'un BinaryWriter, ou vous pouvez utiliser un filestream pour l'écrit? (essayez, vous obtenez l'identique de sortie? ne fait-il gagner du temps?)

InformationsquelleAutor JMarsch
1

À l'aide de FileStream + StreamWriter je sais que c'est possible de créer des fichiers en peu de temps (moins de 1 min 30 secondes). J'ai créer trois fichiers totalisant plus de 700 méga-octets d'un fichier à l'aide de cette technique.

Votre principal problème avec le code que vous utilisez est que vous ouvrez un fichier à chaque fois. C'est la création d'un fichier I/O frais généraux.

Si vous connaissait les noms des fichiers que vous serait de générer à l'avance, vous pouvez extraire le Fichier.OpenWrite dans une méthode distincte; il va augmenter la vitesse. Sans voir le code qui détermine la façon dont vous êtes fractionner les fichiers, je ne pense pas que vous pouvez obtenir beaucoup plus rapide.

InformationsquelleAutor mcauthorn
0

Personne ne suggère threading? L'écriture de petits fichiers ressemble livre de texte exemple de l'endroit où les fils sont utiles. Configurer un tas de fils pour créer des fichiers plus petits. de cette façon, vous pouvez créer toutes en même temps et vous n'avez pas besoin d'attendre pour que chacun se terminer. Mon hypothèse est que la création des fichiers(disque de l'opération) prendra beaucoup plus de temps que de diviser les données. et bien sûr, vous devez vérifier d'abord qu'une approche séquentielle n'est pas adéquate.
- Le filetage peut aider, mais son goulot d'étranglement est sûrement sur le I/O-le CPU est probablement passer beaucoup de temps d'attente sur le disque. Cela ne veut pas dire que le filetage ne serait pas faire une différence (par exemple, si les écritures sont différentes broches, alors il peut obtenir un meilleur gain de performance qu'il aurait s'il était sur un seul disque)
InformationsquelleAutor TheSean
-1

(Pour référence future.)

Peut-être la façon la plus rapide de le faire serait d'utiliser les fichiers mappés en mémoire (principalement de la copie de la mémoire et de l'OS de la manipulation du fichier de lit/écrit par l'intermédiaire de sa pagination/gestion de la mémoire).

Les fichiers Mappés en mémoire sont pris en charge dans du code managé dans .NET 4.0.

Mais comme indiqué, vous avez besoin de profil et attendre pour passer en code natif pour des performances maximales.
- Les fichiers mappés en mémoire de page sont alignés de façon à ce qu'ils sont. Le problème ici est plus susceptible de disque de temps d'accès, et les fichiers mappés en mémoire wouldnt aider avec cela de toute façon. L'OS va gérer la mise en cache des fichiers s'ils sont mappés en mémoire ou non.
InformationsquelleAutor Richard

Vous devez vous connecter pour publier un commentaire.