Comment diviser un fichier et de le garder à la première ligne de chacune des pièces?

Donné: Un grand texte-fichier de données (par exemple, le format CSV) avec un "spécial" de la première ligne (par exemple, les noms de champ).

Voulais: Un équivalent de la coreutils split -l de commande, mais avec la condition supplémentaire que la ligne d'en-tête du fichier d'origine, apparaissent au début de chacune des pièces ainsi produites.

Je devine que certains concoction de split et head fera l'affaire?

Il semble raisonnable que quelqu'un doit ajouter que, comme une fonctionnalité intégrée de split, n'est-ce pas?
Probablement le facteur le plus important, contre ce devenu un haut-c'est que vous, en général, de reconstruire un fichier divisé par faire cat a b c > reconstructed. Étrangères lignes dans le fichier, la reconstruction approche ne permet pas de reproduire le fichier d'origine.
C'est ce que la prochaine (pas) "unsplit --remove-header" utilitaire est fait pour! Mais sérieusement, split, si elle devait avoir un "répétez-d'en-tête" option, faut-il encore défaut à son comportement actuel. Vous ne utiliser l'en-tête des trucs si vous avez vraiment voulu.
Oui, je pense que --keep-first N serait sympa de faire une option pour split qui serait utile à la fois pour ligne et mode octet
Je pense que c'est une bonne idée, absolument très utile pour le fractionnement d'un fichier à des fins de distribution plutôt que de la reconstruction. C'est l'un de ceux "c'est simple, comment est-il pas encore là" dispose d'un utilitaire Unix, si vieux, que je suis sceptique quant aux "personnes à charge" n'ont pas refusé les propositions précédentes pour ce faire exactement la fonctionnalité pour une raison ou une autre.
Sans aucun doute.
Je pense que le raisonnement peut être tout simplement dû à la POSIX spec pour le split n'ayant pas cette option. Je peux seulement imaginer combien il est difficile d'ajouter des fonctionnalités aux normes de POSIX! opengroup.org/onlinepubs/009695399/utilities/split.html
J'ai mis à jour ma réponse avec une fonction cool que GNU split fournit.

InformationsquelleAutor Arkady | 2009-09-11

49

C'est robhruska de script nettoyé un peu:
```
tail -n +2 file.txt | split -l 4 - split_
for file in split_*
do
    head -n 1 file.txt > tmp_file
    cat "$file" >> tmp_file
    mv -f tmp_file "$file"
done
```
J'ai enlevé wc, cut, ls et echo dans les lieux où ils sont inutiles. J'ai changé certains des noms de fichiers pour les rendre un peu plus utile. Je l'ai cassé sur plusieurs lignes seulement pour la rendre plus facile à lire.

Si vous voulez obtenir la fantaisie, vous pouvez utiliser mktemp ou tempfile pour créer un nom de fichier temporaire au lieu d'utiliser une codés en dur un.

Modifier

De l'utilisation de GNU split il est possible de le faire:
```
split_filter () { { head -n 1 file.txt; cat; } > "$FILE"; }; export -f split_filter; tail -n +2 file.txt | split --lines=4 --filter=split_filter - split_
```
Éclaté pour des raisons de lisibilité:
```
split_filter () { { head -n 1 file.txt; cat; } > "$FILE"; }
export -f split_filter
tail -n +2 file.txt | split --lines=4 --filter=split_filter - split_
```
Quand --filter est spécifié, split exécute la commande (une fonction dans ce cas, qui doit être exporté) pour chaque fichier de sortie et définit la variable FILE, dans la commande de l'environnement, du nom de fichier.

Un filtre de script ou de la fonction pourrait faire toute manipulation, il voulait la sortie de contenu ou même le nom de fichier. Un exemple de ce dernier pourrait être pour la sortie d'un fixe nom de fichier dans une variable répertoire: > "$FILE/data.dat" par exemple.
- Ce sera certainement le travail. J'espérais juste pour certains de la nappe de one-liner comme for $part in (split -l 1000 myfile); cat <(head -n1 myfile) $part > myfile.$part; done
- Qui ne peuvent pas travailler parce que split, de nécessité, n'a pas de sortie sur stdout.
- split pourrait la sortie de la noms des fichiers sur la sortie standard, mais (aussi longtemps que nous sommes en train de discuter split doit à voir 🙂
- Vous avez raison. Qui pourrait être pratique. Désolé j'ai mal lu votre one-liner.
- Mac OS X 10.10.4 travaillé avec l'original de l'extrait, mais pas le seul-liner GNU version séparée.
- Notez que les utilitaires GNU sont disponibles pour mac OS X. à l'Aide de Homebrew, par exemple.
- stackoverflow.com/a/30005262/1014710 a des instructions pour les Homebrew GNU coreutils instructions
InformationsquelleAutor Paused until further notice.
13

Vous pouvez utiliser la nouvelle --la fonctionnalité filtre dans GNU coreutils split >= 8.13 (2011):
```
tail -n +2 FILE.in |
split -l 50 - --filter='sh -c "{ head -n1 FILE.in; cat; } > $FILE"'
```
- J'aime les one-liner version. Juste pour le rendre plus générique pour bash, j'ai fait: tail -n +2 FILE.in | split -d --lines 50 - --filter='bash -c "{ head -n1 ${FILE%.*}; cat; } > $FILE"' FILE.in.x
InformationsquelleAutor pixelbeat
10

Vous pouvez utiliser [mg]awk:
```
awk 'NR==1{
        header=$0; 
        count=1; 
        print header > "x_" count; 
        next 
     } 

     !( (NR-1) % 100){
        count++; 
        print header > "x_" count;
     } 
     {
        print $0 > "x_" count
     }' file
```
100 est le nombre de lignes de chaque tranche.
Il ne nécessite pas de fichiers temporaires et peut être mis sur une seule ligne.
- Upvoting pour m'enseigner quelque chose de nouveau, mais si je vais écrire un petit script, je pourrais aussi bien le faire en Perl ou Python 🙂
InformationsquelleAutor marco
7

Je suis un novice quand il s'agit de Bash-fu, mais j'ai réussi à concocter ce deux-commande de la monstruosité. Je suis sûr qu'il y a de plus élégant des solutions.
```
$> tail -n +2 file.txt | split -l 4
$> for file in `ls xa*`; do echo "`head -1 file.txt`" > tmp; cat $file >> tmp; mv -f tmp $file; done
```
C'est en supposant que votre fichier d'entrée est file.txt, vous n'êtes pas à l'aide de la prefix argument split, et vous travaillez dans un répertoire qui n'a pas d'autres fichiers qui commencent par splitpar défaut de xa* format de sortie. Aussi, remplacer le '4' avec votre choix de scission de la ligne de taille.

InformationsquelleAutor Rob Hruska
3

Cela permettra de diviser le grand csv en morceaux de 999 lignes, avec l'en-tête en haut de chaque
```
cat bigFile.csv | parallel --header : --pipe -N999 'cat >file_{#}.csv'
```
Basés sur Ole Tange de réponse.
(re Ole réponse: Vous ne pouvez pas utiliser la ligne de comptage avec pipepart)
- Simple, à droite, le point et il fonctionne.
- veuillez noter que si l'on considère la ligne d'en-tête de chaque fichier, puis chaque fichier plus petit aura 1000 lignes de cette solution.
- C'est pourquoi j'utilise 999 🙂
InformationsquelleAutor Tim Richardson
2

C'est une version plus robuste de Denis Williamsons'script. Le script crée beaucoup de fichiers temporaires, et ce serait une honte si ils ont été laissés traîner si la course était incomplète. Donc, nous allons ajouter un signal de piégeage (voir http://tldp.org/LDP/Bash-Beginners-Guide/html/sect_12_02.html et puis http://tldp.org/LDP/abs/html/debugging.html) et de supprimer de nos fichiers temporaires; c'est une meilleure pratique de toute façon.
```
trap 'rm split_* tmp_file ; exit 13' SIGINT SIGTERM SIGQUIT 
tail -n +2 file.txt | split -l 4 - split_
for file in split_*
do
    head -n 1 file.txt > tmp_file
    cat $file >> tmp_file
    mv -f tmp_file $file
done
```
Remplacer le " 13 " avec ce code de retour que vous souhaitez. Oh, et vous devriez probablement utiliser des mktemp de toute façon (comme certains l'ont déjà suggéré), donc aller de l'avant et d'enlever tmp_file" de la rm dans le piège de la ligne. Voir le signal de la page de manuel pour plus de signaux à attraper.

InformationsquelleAutor Sam Bisbee
1

Je ne suis jamais sûr de les règles de la copie des scripts directement à partir de sites d'autres personnes, mais Geekology a une belle script pour faire ce que vous voulez, avec quelques commentaires de confirmer qu'elle fonctionne. Assurez-vous de ne tail -n +2 comme indiqué dans un commentaire à proximité du fond.

InformationsquelleAutor Mark Rushakoff
1

J'ai aimé le awk version de marco, adoptés de cette simplifié one-liner où vous pouvez facilement spécifier le split fraction granulaire comme vous le souhaitez:
```
awk 'NR==1{print $0 > FILENAME ".split1";  print $0 > FILENAME ".split2";} NR>1{if (NR % 10 > 5) print $0 >> FILENAME ".split1"; else print $0 >> FILENAME ".split2"}' file
```
- J'aime bien cette solution, mais il est limité à seulement deux fichiers
- Si vous l'aimez, il y a le upvote fonctionnalité pour elle 😉 Il peut facilement être ajustée pour plus de fichiers, mais oui c'est pas aussi souple que le split -l
- "one liner" pshh ...
InformationsquelleAutor DreamFlasher
1

J'ai vraiment aimé Rob et Dennis versions, tellement que je voulais améliorer.

Voici ma version:
```
in_file=$1
awk '{if (NR!=1) {print}}' $in_file | split -d -a 5 -l 100000 - $in_file"_" # Get all lines except the first, split into 100,000 line chunks
for file in $in_file"_"*
do
    tmp_file=$(mktemp $in_file.XXXXXX) # Create a safer temp file
    head -n 1 $in_file | cat - $file > $tmp_file # Get header from main file, cat that header with split file contents to temp file
    mv -f $tmp_file $file # Overwrite non-header containing file with header-containing file
done
```
Différences:
1. in_file est le fichier argument que vous souhaitez diviser le maintien des en-têtes de
2. Utilisation awk au lieu de tail en raison de awk avoir de meilleures performances
3. divisé en 100 000 ligne des fichiers au lieu de 4
4. Split nom de fichier nom de fichier d'entrée ajoutée avec un trait de soulignement et des nombres (jusqu'à 99999 - à partir de l'option "-d-5" split argument)
5. Utilisation mktemp pour gérer en toute sécurité les fichiers temporaires
6. Usage unique head | cat ligne au lieu de deux lignes
InformationsquelleAutor Garren S

L'utilisation de GNU Parallèle:

parallel -a bigfile.csv --header : --pipepart 'cat > {#}'

Si vous avez besoin d'exécuter une commande sur chacune des pièces, puis GNU Parallèle peut aider à le faire, aussi:

parallel -a bigfile.csv --header : --pipepart my_program_reading_from_stdin
parallel -a bigfile.csv --header : --pipepart --fifo my_program_reading_from_fifo {}
parallel -a bigfile.csv --header : --pipepart --cat my_program_reading_from_a_file {}

Si vous voulez diviser en 2 parties par cœur de PROCESSEUR (par exemple, 24 cores = 48 de taille égale pièces):

parallel --block -2 -a bigfile.csv --header : --pipepart my_program_reading_from_stdin

Si vous voulez diviser en 10 MO blocs:

parallel --block 10M -a bigfile.csv --header : --pipepart my_program_reading_from_stdin

InformationsquelleAutor Ole Tange

1

Ci-dessous est un 4 de revêtement qui peut être utilisé pour préserver les csv en-tête (à l'aide de : la tête, le split, find, grep, xargs, et sed)
```
 
csvheader= " head -1 bigfile.csv` 
split -d-l10000 bigfile.csv smallfile_ 
trouver .|grep smallfile_ | xargs-sed-i "1s/^/$csvheader\n/" 
sed -i '1d' smallfile_00 
```
Explication:
- Capturer l'en-tête à une variable nommée csvheader
- Diviser le bigfile dans un certain nombre de petits fichiers (avec le préfixe smallfile_)
- Trouver tous smallfiles et insérez le csvheader dans la PREMIÈRE ligne à l'aide de xargs et sed-i. Notez que vous devez utiliser sed dans des "guillemets" dans le but d'utiliser des variables.
- Le premier fichier nommé smallfile_00 maintenant une redondance dans les en-têtes sur les lignes 1 et 2 (à partir de l'origine des données ainsi que de la sed insérer en-tête à l'étape 3). On peut enlever le redondante-tête avec sed -i '1d' de la commande.
InformationsquelleAutor Thyag
1

Inspiré par @Arkady commentaire sur un one-liner.
- MYFILE variable simplement de réduire standard
- split ne montre pas de nom de fichier, mais le --additional-suffix option nous permet de facilement contrôler ce à quoi s'attendre
- suppression de fichiers intermédiaires via rm $part (n'assume pas de fichiers avec le même suffixe)
MYFILE=mycsv.csv && for part in $(split -n4 --additional-suffix=foo $MYFILE; ls *foo); do cat <(head -n1 $MYFILE) $part > $MYFILE.$part; rm $part; done

Preuve:
```
-rw-rw-r--  1 ec2-user ec2-user  32040108 Jun  1 23:18 mycsv.csv.xaafoo
-rw-rw-r--  1 ec2-user ec2-user  32040108 Jun  1 23:18 mycsv.csv.xabfoo
-rw-rw-r--  1 ec2-user ec2-user  32040108 Jun  1 23:18 mycsv.csv.xacfoo
-rw-rw-r--  1 ec2-user ec2-user  32040110 Jun  1 23:18 mycsv.csv.xadfoo
```
et bien sûr head -2 *foo pour voir l'en-tête est ajouté.

InformationsquelleAutor user1043620

Vous devez vous connecter pour publier un commentaire.