comment puis-je comparer deux fichiers texte qui a plusieurs champs dans unix

j'ai deux fichiers texte

fichier 1

number,name,account id,vv,sfee,dac acc,TDID
7000,john,2,0,0,1,6
7001,elen,2,0,0,1,7
7002,sami,2,0,0,1,6
7003,mike,1,0,0,2,1
8001,nike,1,2,4,1,8
8002,paul,2,0,0,2,7

fichier 2

number,account id,dac acc,TDID
7000,2,1,6
7001,2,1,7
7002,2,1,6
7003,1,2,1

je veux comparer ces deux fichiers texte. si les quatre colonnes de fichier 2 est-il dans le fichier 1 et de l'égalité de moyens je souhaite de sortie, comme cette

7000,john,2,0,0,1,6
7001,elen,2,0,0,1,7
7002,sami,2,0,0,1,6
7003,mike,1,0,0,2,1

nawk -F"," 'NR==FNR {a[$1];next} ($1 in a)' file2.txt file1.txt.. cela fonctionne bien pour la comparaison de deux colonne unique dans les deux fichiers. je veux comparer plusieurs colonnes. quelqu'un a une suggestion?

EDIT: a Partir de l'OP commentaires:

nawk -F"," 'NR==FNR {a[$1];next} ($1 in a)' file2.txt file1.txt

.. cela fonctionne bien pour la comparaison de deux colonne unique dans les deux fichiers. je veux comparer plusieurs colonnes. vous avez une suggestion?

Qui langage de programmation comptez-vous utiliser?
Unix. je l'ai mentionné avant de lui-même
Unix n'est pas un langage de programmation.
ok merci, je ne suis pas bon dans les langages de programmation. mais je suis à l'aide de sun solaris serveur
La sortie que vous avez fourni ressemble exactement comme le fichier 1 (moins l'en-tête). Pouvez-vous donner l'exemple de lignes dans les fichiers d'entrée qui ne sera pas apparaître dans la sortie?
j'ai édité ce que vous voulez. 8001,8002 n'est pas présent dans le fichier 2.
Merci de considérer mon awk 1-liner ici --> stackoverflow.com/questions/3186215/... je serais très surpris si le Perl réponse vous donne de meilleures performances. Si vous exécutez ce contre les fichiers dans le go de la taille, la performance est très important. De Plus, c'est beaucoup plus lisible =)
pour donner exactement ce que je veux. @pdehaan, merci pour votre contribution. Merci à tous ceux qui m'ont aidé à résoudre mon problème

InformationsquelleAutor gyrous | 2010-07-06

Ce awk one-liner qui fonctionne pour multi-colonne sur non triés fichiers:

awk -F, 'NR==FNR{a[$1,$2,$3,$4]++;next} (a[$1,$3,$6,$7])' file1.txt file2.txt

Dans l'ordre pour que cela fonctionne, il est impératif que le premier fichier utilisé pour l'entrée (file1.txt dans mon exemple) le fichier qui a seulement 4 champs comme suit:

file1.txt

7000,2,1,6
7001,2,1,7
7002,2,1,6
7003,1,2,1

file2.txt

7000,john,2,0,0,1,6
7000,john,2,0,0,1,7
7000,john,2,0,0,1,8
7000,john,2,0,0,1,9
7001,elen,2,0,0,1,7
7002,sami,2,0,0,1,6
7003,mike,1,0,0,2,1
7003,mike,1,0,0,2,2
7003,mike,1,0,0,2,3
7003,mike,1,0,0,2,4
8001,nike,1,2,4,1,8
8002,paul,2,0,0,2,7

De sortie

$ awk -F, 'NR==FNR{a[$1,$2,$3,$4]++;next} (a[$1,$3,$6,$7])' file1.txt file2.txt
7000,john,2,0,0,1,6
7001,elen,2,0,0,1,7
7002,sami,2,0,0,1,6
7003,mike,1,0,0,2,1

Sinon, vous pouvez également utiliser la syntaxe suivante qui correspond de plus près à celui dans votre question, mais n'est pas très lisible à mon humble avis

awk -F, 'NR==FNR{a[$1,$2,$3,$4];next} ($1SUBSEP$3SUBSEP$6SUBSEP$7 in a)' file1.txt file2.txt

InformationsquelleAutor SiegeX

1

TxtSushi ressemble à ce que vous voulez. Il permet de travailler avec des fichiers CSV à l'aide de SQL.
- pouvez-vous m'aider pour ce faire, dans unix,parce que ma taille de fichier est énorme, plus de 2 go.
- En effet, je ne suis pas sûr que TxtSushi a été créé avec une telle ampleur dans l'esprit. Alors peut-être que l'importation d'un vrai SGBD aurait du sens?
InformationsquelleAutor Roman Cheplyaka
1

Ce n'est pas un élégant one-liner, mais vous pourriez le faire avec perl.
```
#!/usr/bin/perl
open A, $ARGV[0];
while(split/,/,<A>) {
    $k{$_[0]} = [@_];
}
close A;

open B, $ARGV[1];
while(split/,/,<B>) {
    print join(',',@{$k{$_[0]}}) if
        defined($k{$_[0]}) &&
        $k{$_[0]}->[2] == $_[1] &&
        $k{$_[0]}->[5] == $_[2] &&
        $k{$_[0]}->[6] == $_[3];
}
close B;
```
- désolé! je ne comprends pas pouvez-vous expliquer d'où je donne mes deux fichiers d'entrée. veuillez mentionner comme fichier1 et fichier2 est alors facile pour moi de comprendre
- Enregistrez le script ci-dessus, quelque chose comme "cmp_csv.pl". Rendre le script exécutable chmod +x cmp_csv.pl. Et enfin exécuter le script: ./cmp_csv.pl file1 file2 > outfile.
- ./cmp_csv.pl: ligne 4: ouvrir: commande introuvable ./cmp_csv.pl: ligne 5: erreur de syntaxe près de jeton inattendu )' ./cmp_csv.pl: line 5: while(split/,/,<A>) {"alors que je suis en cours d'exécution du script, il affiche l'erreur je l'ai mentionné ci-dessus
- Quelle version de perl utilisez-vous? perl -v
- désolé, ce que vous voulez le v5.8.4 construit pour sun4-solaris-64int
- Désolé, mais je ne suis pas un expert en perl c'est pourquoi je ne suis pas sûr de ce que votre problème est (les trucs ci-dessus fonctionne très bien sur mon linux). Peut-être que si vous balisez votre question avec 'perl' ou 'awk' quelqu'un avec plus d'expérience va vous aider avec votre question.
- L'idée de ce qui est mauvais, c'est la "ligne 4" de l'erreur ci-dessus. gyrous, copier le script perl exactement comme l'a écrit. Le premier caractère du fichier doit être le caractère"#".
- et @ Borealid, il fonctionne très bien. merci beaucoup, Mais j'ai été peu confus,le script, ce qui a donné est de travail, par exemple pour les fichiers j'ai donné. mais en vrai j'ai beaucoup de colonnes. Je ne comprends pas comment vous avez mentionné les champs entre les deux fichiers dans votre script.kinldy préciser si ce script ne fonctionne que pour les eg fichiers que j'ai donné ou comment puis-je modifier le champ j'ai voulu comparer.
- Les lignes comme k ${$_[0]}->[2] == $_[1] faites la colonne des comparaisons. Le côté gauche (k ${$_[0]}->[x]) correspond à une colonne dans le premier fichier, le côté droit ($_[x]) correspond à une colonne dans le second fichier. La première colonne de ces deux fichiers est utilisé comme un indice (valeur supposée être unique). Ceci est représenté par $_[0].
InformationsquelleAutor pdehaan
0

Réponse rapide: Utilisation cut pour séparer les champs dont vous avez besoin et diff de comparer les résultats.
- merci pour votre commentaire. mais ce n'est pas ce que je recherche... je sais comment comparer deux fichier texte entre deux colonnes. mais je veux comparer plusieurs colonnes..
- Rien ne vous empêche de l'extraction de plusieurs colonnes avec cut pour votre comparaison. Ou ai-je raté quelque chose?
- nawk -F"," 'NR==FNR {a[$1];suivant} ($1)' file2.txt file1.txt.. cela fonctionne bien pour la comparaison de deux colonne unique dans les deux fichiers. je veux comparer plusieurs colonnes. vous avez une suggestion?
- Après avoir relu votre question, mon approche ne pas faire exactement ce que vous voulez, désolé. L'awk déclaration vous donner peut être tripoté de travailler avec plusieurs champs, mais je ne suis pas suffisamment compétent avec awk l'écrire pour vous. Je vous suggère d'inclure cette ligne de code dans une édition de votre question, il va donner à des gens beaucoup plus de travail avec une bonne réponse.
InformationsquelleAutor Carl Smotricz
0

Pas vraiment testé, mais cela peut fonctionner:
```
join -t, file1 file2 | awk -F, 'BEGIN{OFS=","} {if ($3==$8 && $6==$9 && $7==$10) print $1,$2,$3,$4,$6,$7}'
```
(Bien sûr, cela suppose que les fichiers d'entrée sont triés).
- grâce ninjalj, sa fonctionne très bien, mais mon problème est que j'ai la taille de fichier de plus de 2GO. il n'est pas possible de sorte que énorme fichier. vous avez des suggestion pour cela?
InformationsquelleAutor ninjalj
0

Ce n'est ni efficace ni assez il faudra cependant faire le travail. Il n'est pas le plus efficace de mise en œuvre qu'il analyse fichier1 plusieurs fois mais il n'y pas de lire l'intégralité du fichier dans la RAM soit donc a certains avantages par rapport à la simple script approches.
```
sed -n '2,$p' file1 | awk -F, '{print $1 "," $3 "," $6 "," $7 " " $0 }' | \
sort | join file2 - |awk '{print $2}'
```
Cela fonctionne comme suit
1. sed -n '2,$p' file1 envoie fichier1 STDOUT sans la ligne d'en-tête
2. La première awk commande permet d'afficher la 4 "la clef des champs" de fichier1 dans le même format qu'ils sont dans fichier2 suivi d'un espace suivi par le contenu de fichier1
3. La commande de tri assure que fichier1 est dans le même ordre que fichier2
4. La commande join rejoint fichier2 et STDOUT écrit seulement les enregistrements qui ont un enregistrement correspondant dans fichier2
5. La finale de la commande awk imprime seulement la partie d'origine fichier1
Dans l'ordre pour que cela fonctionne, vous devez vous assurer que fichier2 est trié avant d'exécuter la commande.

Cours d'exécution par rapport à votre exemple de données a donné les résultats suivants
```
7000,john,2,0,0,1,6 
7001,elen,2,0,0,1,7 
7002,sami,2,0,0,1,6 
7003,mike,1,0,0,2,1 
```
MODIFIER

Je prends note de vos commentaires, vous obtenez une erreur de tri. Si cette erreur se produit lors du tri fichier2 avant d'exécuter la commande pipeline ensuite, vous pouvez diviser le fichier, trier chaque partie, puis de chat entre eux.

Quelque chose comme ce serait le faire pour vous
```
mv file2 file2.orig
for i in 0 1 2 3 4 5 6 7 8 9
do
  grep "^${i}" file2.orig |sort > file2.$i
done
cat file2.[0-9] >file2
rm file2.[0-9] file2.orig
```
Vous devrez peut-être modifier les variables passées à de si votre fichier n'est pas répartie uniformément sur toute la gamme des premiers chiffres.
- merci steve weet, sa fonctionne très bien, mais mon problème est que j'ai la taille de fichier de plus de 2GO. il n'est pas possible de sorte que énorme fichier. vous avez des suggestion pour cela?
- La réponse évidente est de demander à celui qui est fourni les fichiers pour vous si ils peuvent trier quand ils génèrent. Autres que que, alors pas de réelles idées, j'ai peur.
- Êtes-vous à court de RAM et d'espace disque. Quand êtes-vous d'obtenir une erreur et quelle est l'erreur. Voir MODIFIER pour obtenir des suggestions sur le tri des fichier2
InformationsquelleAutor Steve Weet
0

Le logiciel de statistiques R gère le traitement de plusieurs tables csv vraiment facilement.
Voir Une Intro. pour R ou R pour les Débutants.

InformationsquelleAutor Jeff Burdges

Vous devez vous connecter pour publier un commentaire.