bien joindre deux fichiers basé sur 2 colonnes en commun

J'ai deux fichiers que je suis en train de jointure de fusion basés sur des colonnes 1 et 2. Ils ressembler à quelque chose comme ça, avec file1 (58210 lignes) étant beaucoup plus courte que file2 (815530 lignes) et j'aimerais trouver l'intersection de ces deux fichiers sur la base des champs de 1 et 2 comme un indice:

file1:

2L      25753   33158
2L      28813   33158
2L      31003   33158
2L      31077   33161
2L      31279   33161
3L      32124   45339
3L      33256   45339
...

file2:

2L      20242   0.5     0.307692307692308
2L      22141   0.32258064516129        0.692307692307692
2L      24439   0.413793103448276       0.625
2L      24710   0.371428571428571       0.631578947368421
2L      25753   0.967741935483871       0.869565217391304
2L      28813   0.181818181818182       0.692307692307692
2L      31003   0.36    0.666666666666667
2L      31077   0.611111111111111       0.931034482758621
2L      31279   0.75    1
3L      32124   0.558823529411765       0.857142857142857
3L      33256   0.769230769230769       0.90625
...

J'ai été en utilisant le couple suivant de commandes, mais avec différents nombres de lignes:

awk 'FNR==NR{a[$1$2]=$3;next} {if($1$2 in a) print}' file1 file2 | wc -l
awk 'FNR==NR{a[$1$2]=$3;next} {if($1$2 in a) print}' file2 file1 | wc -l

Je ne suis pas sûr de savoir pourquoi cela se passe, et j'ai essayé de tri préalable à la comparaison, juste au cas où j'ai des lignes dupliquées (basés sur des colonnes 1 et 2) dans les fichiers, mais il ne semble pas aider. (Pourquoi il en est ainsi sont aussi appréciés)

Comment puis-je fusionner les fichiers de façon à ce que les lignes de file2 qui ont les colonnes correspondantes 1 et 2 dans file1 imprimée, avec la colonne 3 de file1 ajouté, à ressembler à quelque chose comme ceci:

2L      25753   0.967741935483871       0.869565217391304    33158
2L      28813   0.181818181818182       0.692307692307692    33158
2L      31003   0.36    0.666666666666667    33158
2L      31077   0.611111111111111       0.931034482758621    33161
2L      31279   0.75    1    33161
3L      32124   0.558823529411765       0.857142857142857    45339
3L      33256   0.769230769230769       0.90625    45339

Pouvez-vous donner quelques exemples où la première colonne varie?
ce champ(s) doit être utilisé pour joindre les rangs?
Ou ils devraient être rejoints ligne par ligne?
Vos données de l'échantillon n'a pas de lignes de correspondance...
Vous devez avoir un fichier qui a été créé sur le DOS et un sur UNIX ou quelque chose comme il y a eu une sorte de caractères de contrôle à la fin des lignes dans un ou deux fichiers qui sont gâcher avec de la sortie. Essayez le "chat -v" sur les deux fichier pour voir les caractères de contrôle, et d'essayer dos2unix sur les deux à la corriger.

OriginalL'auteur suegene | 2012-10-21

awk 'NR==FNR{a[$1,$2]=$3;next} ($1,$2) in a{print $0, a[$1,$2]}' file1 file2

Look:

$ cat file1
2L      5753   33158
2L      8813   33158
2L      7885   33159
2L      1279   33159
2L      5095   33158
$
$ cat file2
2L      8813    0.6    1.2
2L      5762    0.4    0.5
2L      1279    0.5    0.9
$
$ awk 'NR==FNR{a[$1,$2]=$3;next} ($1,$2) in a{print $0, a[$1,$2]}' file1 file2
2L      8813    0.6    1.2 33158
2L      1279    0.5    0.9 33159
$

Si ce n'est pas ce que vous voulez, veuillez préciser et peut-être avec un peu plus d'un échantillon représentatif d'entrée/sortie.

Version commentée du code ci-dessus pour lui fournir des explications:

awk ' # START SCRIPT

# IF the number of records read so far across all files is equal
#    to the number of records read so far in the current file, a
#    condition which can only be true for the first file read, THEN 
NR==FNR {

   # populate array "a" such that the value indexed by the first
   # 2 fields from this record in file1 is the value of the third
   # field from the first file.
   a[$1,$2]=$3

   # Move on to the next record so we don't do any processing intended
   # for records from the second file. This is like an "else" for the
   # NR==FNR condition.
   next

} # END THEN

# We only reach this part of the code if the above condition is false,
# i.e. if the current record is from file2, not from file1.

# IF the array index constructed from the first 2 fields of the current
#    record exist in array a, as would occur if these same values existed
#    in file1, THEN
($1,$2) in a {

   # print the current record from file2 followed by the value from file1
   # that occurred at field 3 of the record that had the same values for
   # field 1 and field 2 in file1 as the current record from file2.
   print $0, a[$1,$2]

} # END THEN

' file1 file2 # END SCRIPT

Espère que ça aide.

Ensuite, vous n'avez pas de lignes correspondantes dans votre entrée. La solution fonctionne pour le problème que vous avez décrit. Sinon peut-être que vous êtes en utilisant de vieux, cassé awk (/usr/bin/awk sur Solaris). Qu'est-ce que awk --version dites-vous?
Vous avez raison, votre solution fonctionne. J'ai vérifié sur votre dossier que vous avez donné comme exemple. J'ai essayé de déposer le post ci-dessus. Désolé pour l'erreur.
voir modifiée la réponse ci-dessus.
J'ai appris de nombreuses astuces de vous. et cette réponse avec explication complète méritent nice answer badge! +1!
Belle réponse! Bravo pour être 20K, entièrement mérité pour votre awk guru-ism 🙂

OriginalL'auteur

6

Si vous souhaitez rejoindre le fichiers ligne par ligne, puis utiliser cette commande:
```
join -o 1.2,1.3,2.4,2.5,1.4 <(cat -n file1) <(cat -n file2)
```
Que vous avez mis à jour la question:
```
join -o 1.1,2.2,2.3,1.2 <(sed 's/[[:space:]]\+/@/' file1|sort) \
    <(sed 's/[[:space:]]\+/@/' file2|sort)|sed 's/@/\t/'
```
Tout d'abord remplacer le premier délimiteur dans chaque ligne avec un certain caractère non espace et triez les deux fichiers d'entrée. Ensuite, utilisez join pour effectuer le rejoindre. Filtre de sa sortie, afin de remplacer le non-espace de char avec de l'espace.

C'est la sortie à partir des fichiers comme dans la question:
```
xyz]$ join -o 1.1,2.2,2.3,1.2 <(sed 's/[[:space:]]\+/@/' file1|sort) \
<(sed 's/[[:space:]]\+/@/' file2|sort)|sed 's/@/\t/'

2L  25753 0.967741935483871 0.869565217391304 33158
2L  28813 0.181818181818182 0.692307692307692 33158
2L  31003 0.36 0.666666666666667 33158
2L  31077 0.611111111111111 0.931034482758621 33161
2L  31279 0.75 1 33161
3L  32124 0.558823529411765 0.857142857142857 45339
3L  33256 0.769230769230769 0.90625 45339
```
La jointure doit être sur les colonnes 1 et 2, n'est-ce pas? Et join ne semble fonctionner avec une seule colonne.
Je n'ai pas eu de réponse de l'OP sur mes questions, donc j'ai simplement supposé que la jointure à faire ligne par ligne, donc je ne la jointure sur la numérotation des lignes produites par chat
OK — juste assez; je ne pense pas que c'est ce que l'OP avait en tête, mais j'avais raté le -n sur le cat commandes (mais puis-je m'abonner à la New Jersey à l'école pour la conception de cat et " cat revint de Berkeley, agitant des drapeaux` (une paraphrase d'un devis adressé par Ken Thompson) m'agace).
J'arrive même pas à comprendre pourquoi il n'est pas surpris d'obtenir une seule ligne de sortie à condition que les données et l'obligation d'adhérer sur les colonnes 1 & 2.
consultez la mise à jour alors

OriginalL'auteur

Vous pouvez utiliser le join de commande, mais vous avez besoin pour créer un seul champ de jointure dans chaque tableau de données. En supposant que vous avez des valeurs autres que 2L dans la colonne 1, ce code devrait fonctionner indépendamment de la triés ou non triées de la nature des deux fichiers d'entrée:

tmp=${TMPDIR:-/tmp}/tmp.$$
trap "rm -f $tmp.?; exit 1" 0 1 2 3 13 15

awk '{print $1 ":" $2, $0}' file1 | sort > $tmp.1
awk '{print $1 ":" $2, $0}' file2 | sort > $tmp.2

join -o 2.2,2.3,2.4,2.5,1.4 $tmp.1 $tmp.2

rm -f $tmp.?
trap 0

Si vous avez bash et de processus de substitution", ou si vous savez que les données sont déjà triées de manière appropriée, vous pouvez simplifier le traitement.

Je ne suis pas entièrement sûr de savoir pourquoi votre code ne fonctionnait pas, mais je serais probablement à l'aide de a[$1,$2] pour les indices; il vous donnera moins de problèmes si certains de vos la colonne 1, les valeurs sont de purs numérique et peut donc être confus quand vous concaténer les colonnes 1 et 2. C'est pourquoi la "création de la clé' awk scripts utilisés une virgule entre les champs.

Révision des fichiers de données comme indiqué:

fichier1

2L      5753   33158
2L      8813   33158
2L      7885   33158
2L      7885   33159
2L      1279   33158
2L      5095   33158
2L      3256   33158
2L      5372   33158
2L      7088   33161
2L      5762   33161

fichier2

2L      5095    0.666666666666667       1
2L      5372    0.5     0.925925925925926
2L      5762    0.434782608695652       0.580645161290323
2L      5904    0.571428571428571       0.869565217391304
2L      5974    0.434782608695652       0.694444444444444
2L      6353    0.785714285714286       0.84
2L      7088    0.590909090909091       0.733333333333333
2L      7885    0.714285714285714       0.864864864864865
2L      7902    0.642857142857143       0.810810810810811
2L      8263    0.833333333333333       0.787878787878788

(Inchangé par rapport à la question.)

De sortie

2L 5095 0.666666666666667 1 33158
2L 5372 0.5 0.925925925925926 33158
2L 5762 0.434782608695652 0.580645161290323 33161
2L 7088 0.590909090909091 0.733333333333333 33161
2L 7885 0.714285714285714 0.864864864864865 33158
2L 7885 0.714285714285714 0.864864864864865 33159

OriginalL'auteur

Vous devez vous connecter pour publier un commentaire.