Combinez plusieurs fichiers en un seul fichier

Code:

static void MultipleFilesToSingleFile(string dirPath, string filePattern, string destFile)
{
    string[] fileAry = Directory.GetFiles(dirPath, filePattern);

    Console.WriteLine("Total File Count : " + fileAry.Length);

    using (TextWriter tw = new StreamWriter(destFile, true))
    {
        foreach (string filePath in fileAry)
        {
            using (TextReader tr = new StreamReader(filePath))
            {
                tw.WriteLine(tr.ReadToEnd());
                tr.Close();
                tr.Dispose();
            }
            Console.WriteLine("File Processed : " + filePath);
        }

        tw.Close();
        tw.Dispose();
    }
}

J'ai besoin pour optimiser ce qu'elle est extrêmement lente: prend 3 minutes pour 45 fichiers de taille moyenne de 40 — 50 Mo fichier XML.

Veuillez noter: 45 fichiers d'une moyenne de 45 MO est juste un exemple, il peut être n nombre de fichiers de m la taille, où n est en milliers & m peut-être de la moyenne de 128 Ko. En bref, il peut varier.

Pourriez-vous nous apporter des points de vue sur l'optimisation?

Avez-vous besoin d'attendre cette méthode fait? Si pas, essayez de async
45 fichiers d'une moyenne de 45 MO chacun soit un total d'un peu plus de 2 GO. Combien de temps pensez-vous que prendre? Disk I/O sera prise en compte pour une grande partie du temps, c'est prenant.
L'appel de Dispose est superflu, comme les objets que vous êtes l'élimination sont déjà à l'aide du bloc (qui prendra soin de Disposer pour vous).
Vous êtes en train de charger dans la mémoire de chaque fichier. Ces grandes chaînes d'aller dans le grand tas d'objets, pourquoi ne pas vous lire les petits morceaux de données (réutilisation de la mémoire tampon)? Fermer/Débarrasser sont inutiles en raison de l'utilisation de déclaration. Un raw Flux est assez parce que vous n'avez pas à gérer/modifier n'importe quel encodage. Après avoir fait tout cela...vous verrez, la performance ne sera pas trop changé, sans doute parce que la plupart du temps est passé en I/O. Si le fichier de sortie n'est pas sur le même disque que les entrées alors vous pourriez même essayer de faire de la lecture et de l'écriture asynchrone (pré-lecture du fichier suivant/morceau lors de l'écriture).
45 fichiers d'une moyenne de 45 MO est juste un exemple, il peut être 'n' nombres de fichiers de 'm' de taille n, où n est dans milliers & m peut être de avg. 128 ko. En bref, il peut varier.
Nope, Pas d'attente du tout.J'ai juste besoin de faire l'mentionnées activité en un minimum de temps, c'est de l'optimisation, je suis à la recherche d'
Vous avez manqué mon point. 🙂 Encore une fois, les e/S disque va être une très grande partie du temps, et la plus grande n est plus il va prendre juste pour les i/o disque. En plus de cela, vous avez les frais généraux réels de création d'objet, de l'allocation de mémoire, GC, et ainsi de suite.
oui vrai,de sorte que toute chose comme parallèle de la lecture est possible d'assurer l'ordre d'écriture reste inchangé. Sera-ce plus rapide?
Merci, Disposer est considéré comme une meilleure pratique, donc j'avais gardé, sera certainement l'enlever maintenant. Merci pour les précisions!
une dernière remarque: si vous avez+ de 1000 fichiers, vous pouvez envisager d'utiliser un Répertoire.EnumerateFiles au lieu de Répertoire.GetFiles. Pour la même raison, je vous suggère de vérifier la taille du fichier de décider quelle méthode de copie est meilleure (une seule lecture ou plusieurs petits morceaux). Enfin, ne pas utiliser la fonction d'assistance AppendAllText: il s'ouvre et fermer le fichier pour chaque écriture.
Est-il conseillé d'utiliser quelques conseils & code unsafe pour fixer le processus?
non, la plupart du temps est consacré à la (lente) I/O disque, vous ne serez pas obtenir quelque chose pour utiliser le code unsafe. Il est préférable de simplement restructurer le code afin de ne pas gaspiller la mémoire/CPU et d'améliorer l'algorithme (ok, même le multithreading pour les e/S est d'une certaine manière empirique). Eh bien, vous pouvez envisager de réécrire votre code pour utiliser ReadFileScatter et WriteFileGather mais franchement je ne sais pas combien de boost de performance, vous aurez (par rapport à l'effort de les utiliser, au moins jusqu'à très grande vitesse des disques Ssd sera assez commun).
Double Possible de moyen Efficace de combiner plusieurs fichiers de texte

InformationsquelleAutor Pratik | 2013-01-25

.net c#copy file-io

31

Pourquoi ne pas simplement utiliser le Stream.CopyTo() méthode?
```
private static void CombineMultipleFilesIntoSingleFile(string inputDirectoryPath, string inputFileNamePattern, string outputFilePath)
{
    string[] inputFilePaths = Directory.GetFiles(inputDirectoryPath, inputFileNamePattern);
    Console.WriteLine("Number of files: {0}.", inputFilePaths.Length);
    using (var outputStream = File.Create(outputFilePath))
    {
        foreach (var inputFilePath in inputFilePaths)
        {
            using (var inputStream = File.OpenRead(inputFilePath))
            {
                //Buffer size can be passed as the second argument.
                inputStream.CopyTo(outputStream);
            }
            Console.WriteLine("The file {0} has been processed.", inputFilePath);
        }
    }
}
```
- Comment peut-on écrire une valeur distincte dans le fichier, supposons que textFile1.le texte a des lignes comme "test, test, test" et "abc, pqr, xyz" et textFile2.le texte a des lignes comme "test, test, test" et "pqr, xyz, abcde" dans textFile3.le texte doit avoir des lignes comme "test, test, test", "abc, pqr, xyz", "pqr, xyz, abcde"
- pourriez-vous s'il vous plaît créer de la question appropriée et fournir le lien vers la question?
- comment puis-je séparer de ce "fichier unique" pour obtenir les fichiers en arrière ?
- n'hésitez pas à créer une autre question ici, sur un Débordement de Pile. Longue histoire courte, vous avez besoin pour stocker les métadonnées quelque part. Les métadonnées peuvent être représentés sous la table des matières: le décalage de chaque fichier associé au sein de l'résultant (unique) d'un.
- Ce n'est pas l'utilisation de la vidéo (webm extension) des fichiers. Et aussi de ne pas donner la moindre erreur
InformationsquelleAutor Sergey Brunov
2

Une option est d'utiliser le copie de commande, et de le laisser faire ce qui est bien.

Quelque chose comme:
```
static void MultipleFilesToSingleFile(string dirPath, string filePattern, string destFile)
{
    var cmd = new ProcessStartInfo("cmd.exe", 
        String.Format("/c copy {0} {1}", filePattern, destFile));
    cmd.WorkingDirectory = dirPath;
    cmd.UseShellExecute = false;
    Process.Start(cmd);
}
```
- Ce travail? Mon exigence est, j'ai répertoire, il a 100 de fichiers, 50 d'entre eux *.xml j'ai besoin de combiner le tout sous un seul fichier.Sera au-dessus de la chose pour moi?
- Oups alors je suppose que ce PAS ce que je cherche! Par la si il copie tout le contenu du fichier dans un fichier unique.Il peut travailler pour moi, Est-ce le cas?
- Merci pour vos explications, j'ai fait une recherche pour ms-dos pour faire cette activité, mais ne pouvait pas trouver Donc j'ai choisi d'écrire un .NET code.Mais ne laissez-moi savoir si ses possible en MS DOS commandes (SSI il offre des performances supérieures .NET approche. Merci
- Il suffit d'ajouter le /b interrupteur pour forcer copy de les traiter comme des binaire fichiers (puis il va ajouter eux). Si vous avez besoin d'une ligne de commande solution c'est bon (ce n'est pas le mieux solution de point de vue des performances, mais l'effort à faire de ce bien est assez élevé).
- Blanc Ce n'ajouter chaque fichier dans un fichier unique. Testés.
- Je corrige la position des mains. Ce doit être un changement dans cmd.exe je n'avais pas pris. Je vais supprimer mes commentaires, mais heureusement, je n'ai pas downvote. 🙂 Merci pour la correction, je l'ai toujours aimé apprendre des choses, même si je suis en tort dans le processus. (Et +1, pendant que j'y suis.)
- J'ai eu tort, Eren était correct. Mon erreur. 🙁
- Lancez utilitaire de ligne de commande pour combiner le contenu de fichiers à l'aide de C#? Vous plaisantez?
- C'est une LAME approche. Je doute qu'il allait s'en sortent mieux que l'OP du code, il implique le lancement d'un nouveau processus qui peuvent avoir des frais généraux, il n'est pas décent de l'option de gestion d'erreur (code de sortie n'est pas une bonne option). En outre, il semble archaïque. Boiteux.
- Je n'aurais jamais lancer un processus avec unsanitized entrées en tant que paramètres.
InformationsquelleAutor Eren Ersönmez

Je voudrais utiliser un BlockingCollection de lecture vous permet de lire et d'écrire en même temps.

Clairement écrivez à un disque physique distinct pour éviter de matériel de contention.
Ce code permet de préserver l'ordre.

Lire va être plus rapide que d'écrire, donc pas besoin de lire en parallèle.

De nouveau, car lire est va être plus rapide limite la taille de la collection afin de lire n'obtient pas plus loin, d'écrire qu'il en a besoin.

Une tâche simple à lire le seul côté en parallèle, alors que l'écriture de la actuel a le problème des différentes tailles de fichier - écrire un fichier de petite taille est plus rapide que de lire un grand.

- Je utiliser ce modèle à lire et à analyser le texte sur T1 et puis l'insérer à SQL sur T2.

public void WriteFiles()
{
using (BlockingCollection<string> bc = new BlockingCollection<string>(10))
{
//play with 10 if you have several small files then a big file
//write can get ahead of read if not enough are queued
TextWriter tw = new StreamWriter(@"c:\temp\alltext.text", true);
//clearly you want to write to a different phyical disk 
//ideally write to solid state even if you move the files to regular disk when done
//Spin up a Task to populate the BlockingCollection
using (Task t1 = Task.Factory.StartNew(() =>
{
string dir = @"c:\temp\";
string fileText;      
int minSize = 100000; //play with this
StringBuilder sb = new StringBuilder(minSize);
string[] fileAry = Directory.GetFiles(dir, @"*.txt");
foreach (string fi in fileAry)
{
Debug.WriteLine("Add " + fi);
fileText = File.ReadAllText(fi);
//bc.Add(fi);  for testing just add filepath
if (fileText.Length > minSize)
{
if (sb.Length > 0)
{ 
bc.Add(sb.ToString());
sb.Clear();
}
bc.Add(fileText);  //could be really big so don't hit sb
}
else
{
sb.Append(fileText);
if (sb.Length > minSize)
{
bc.Add(sb.ToString());
sb.Clear();
}
}
}
if (sb.Length > 0)
{
bc.Add(sb.ToString());
sb.Clear();
}
bc.CompleteAdding();
}))
{
//Spin up a Task to consume the BlockingCollection
using (Task t2 = Task.Factory.StartNew(() =>
{
string text;
try
{
while (true)
{
text = bc.Take();
Debug.WriteLine("Take " + text);
tw.WriteLine(text);                  
}
}
catch (InvalidOperationException)
{
//An InvalidOperationException means that Take() was called on a completed collection
Debug.WriteLine("That's All!");
tw.Close();
tw.Dispose();
}
}))
Task.WaitAll(t1, t2);
}
}
}

BlockingCollection Classe

Si d'entrée et de sortie viennent du même disque, alors chaque lecture devra attendre (ou il va être lent à cause de) l'écriture...
trop de code pour trop peu d'une tâche. le multithreading ne l'aidera pas à diviser le disque RW tête en deux
Quelle partie de "Clairement écrivez à un disque physique distinct pour éviter de matériel de contention" n'était pas claire?
donc, en plus de ce que vous avez écrit ici, nous allons écrire une autre pièce de l'écriture d'un seul disque?
Code de ne pas échouer sur un seul disque. À lire et à écrire de la mise en cache, il sera probablement de même en parallèle. Je ne voudrais pas optimiser différemment pour un seul disque. De sorte que vous feriez différemment - c'est ce qui ressort de votre réponse.

InformationsquelleAutor paparazzo

2

Plusieurs choses que vous pouvez faire:
- J'ai mon expérience de la mémoire tampon par défaut la taille peut être augmentée avec des prestations jusqu'à environ 120K, je soupçonne que la définition d'un grand tampon sur tous les cours d'eau sera la plus simple et la plus notable de la performance de rappel:
```
new System.IO.FileStream("File.txt", System.IO.FileMode.Open, System.IO.FileAccess.Read, System.IO.FileShare.Read, 150000);
```
- Utiliser le Stream de la classe, pas le StreamReader classe.
- Lire le contenu dans une mémoire tampon de grande taille, les jeter dans le flux de sortie à la fois — ce qui va accélérer de petits fichiers d'opérations.
- Pas besoin d'être redondant fermer/jeter: vous avez le using déclaration.
InformationsquelleAutor Sten Petrov

    //Binary File Copy
public static void mergeFiles(string strFileIn1, string strFileIn2, string strFileOut, out string strError)
{
strError = String.Empty;
try
{
using (FileStream streamIn1 = File.OpenRead(strFileIn1))
using (FileStream streamIn2 = File.OpenRead(strFileIn2))
using (FileStream writeStream = File.OpenWrite(strFileOut))
{
BinaryReader reader = new BinaryReader(streamIn1);
BinaryWriter writer = new BinaryWriter(writeStream);
//create a buffer to hold the bytes. Might be bigger.
byte[] buffer = new Byte[1024];
int bytesRead;
//while the read method returns bytes keep writing them to the output stream
while ((bytesRead =
streamIn1.Read(buffer, 0, 1024)) > 0)
{
writeStream.Write(buffer, 0, bytesRead);
}
while ((bytesRead =
streamIn2.Read(buffer, 0, 1024)) > 0)
{
writeStream.Write(buffer, 0, bytesRead);
}
}
}
catch (Exception ex)
{
strError = ex.Message;
}
}

InformationsquelleAutor Miguelito

Vous devez vous connecter pour publier un commentaire.