sort | uniq | xargs grep ... où les lignes contiennent des espaces

J'ai un fichier délimité par des virgules "monfichier.csv" où la 5ème colonne est un timbre de date/heure. (mm/jj/aaaa hh:mm). j'ai besoin de la liste de toutes les lignes qui contiennent des doublons de dates (il y en a beaucoup)

Je suis en utilisant un shell bash via cygwin pour WinXP

$ cut -d, -f 5 myfile.csv | sort | uniq -d

correctement renvoie une liste des doubles dates

01/01/2005 00:22
01/01/2005 00:37
[snip]    
02/29/2009 23:54

Mais je ne peux pas comprendre comment nourrir ce grep pour me donner toutes les lignes.
Évidemment, je ne peux pas utiliser xargs droite depuis la sortie contient des espaces. J'ai pensé que je pouvais faire uniq -z -d mais pour une raison quelconque, la combinaison de ces drapeaux causes uniq pour (apparemment) renvoie rien.

Donc, étant donné que

 $ cut -d, -f 5 myfile.csv | sort | uniq -d -z | xargs -0 -I {} grep '{}' myfile.csv

ne fonctionne pas... que puis-je faire?

Je sais que je pourrais le faire dans perl ou un autre langage de script... mais mon entêtement insiste sur le fait que je devrais être capable de le faire dans bash standard en utilisant des outils en ligne de commande comme sort, uniq, find, grep, cut, etc.

apprends-moi, oh bash gourous. Comment puis-je obtenir la liste des lignes j'ai besoin d'aide typiques des outils cli?

OriginalL'auteur Sukotto | 2009-03-04

10
1. tri -k5,5 va faire le tri sur les champs et éviter de les couper;
2. uniq -f 4 ignorera les 4 premiers champs de l'uniq;
3. Plus a-D sur l'uniq, vous obtiendrez tous de la répétition de lignes (vs-d, ce qui vous obtient juste un);
4. mais uniq va attendre délimité par des tabulations au lieu de csv, donc tr '\t' ',' pour résoudre ce problème.
Problème est que si vous avez les champs après les #5 qui sont différents. Vos dates sont tous de la même longueur? Vous pourriez être en mesure d'ajouter un-w 16 (notamment en temps), ou -w 10 (juste pour les dates), à l'uniq.

Donc:
```
tr '\t' ',' < myfile.csv | sort -k5,5 | uniq -f 4 -D -w 16
```
Oui +1. et tr '\t' ',' à la fin si le format CSV est important.

OriginalL'auteur Andrew Barnett

La -z option de uniq besoins de l'entrée pour être NUL séparés. Vous pouvez filtrer la sortie de cut par:

tr '\n' 'tr '\n' '\000'
0'

Pour obtenir zéro séparés lignes. Puis sort, uniq et xargs avoir des options pour gérer cela. Essayez quelque chose comme:

cut -d, -f 5 myfile.csv | tr '\n' 'cut -d, -f 5 myfile.csv | tr '\n' '\000' | sort -z | uniq -d -z | xargs -0 -I {} grep '{}' myfile.csv
0' | sort -z | uniq -d -z | xargs -0 -I {} grep '{}' myfile.csv

Edit: la position de tr dans la conduite était mauvaise.

tr '\n' '\000' --- exactement ce que je cherchais

OriginalL'auteur kmkaplan

1

Essayer de s'échapper de la espaces avec sed:
```
echo 01/01/2005 00:37 | sed 's//\\ /g'
cut -d, -f 5 myfile.csv | sort | uniq -d | sed 's//\\ /g' | xargs -I '{}' grep '{}' myfile.csv
```
(Encore une autre façon serait de lire la double date de lignes dans un IFS=$'\n' tableau et l'itération d'une boucle for.)

Correction: devrait être de deux barres obliques inverses dans l'expression sed echo 01/01/2005 00:37 | sed 's/ /\\\\ /g'

OriginalL'auteur
0

Vous pouvez dire xargs utilisation de chaque ligne comme un argument dans son intégralité à l'aide de l'option-d de. Essayez:
```
cut -d, -f 5 myfile.csv | sort | uniq -d | xargs -d '\n' -I '{}' grep '{}' myfile.csv
```
OriginalL'auteur Andru Luvisi
0

C'est un bon candidat pour awk:
```
BEGIN { FS="," }
{ split($5,A," "); date[A[0]] = date[A[0]] " " NR }
END { for (i in date) print i ":" date[i] }
```
1. Définir le champ séparateur ',' (CSV).
2. Split cinquième champ sur l'espace, le bâton de résultat dans A.
3. Concaténer le numéro de la ligne à la liste de ce que nous avons déjà enregistrés pour cette date.
4. Imprimer les numéros de ligne pour chaque date.
OriginalL'auteur porges

Vous devez vous connecter pour publier un commentaire.