Comment compter les différences entre les deux fichiers sur linux?

J'ai besoin de travailler avec des fichiers volumineux et doit trouver des différences entre les deux. Et je n'ai pas besoin les différents bits, mais le nombre de différences.

De trouver le nombre de lignes différentes je viens avec

diff --suppress-common-lines --speed-large-files -y File1 File2 | wc -l

Et il fonctionne, mais est-il une meilleure manière de le faire?

Et comment compter le nombre exact de différences (avec des outils standard comme bash, diff, awk, sed certains ancienne version de perl)?

InformationsquelleAutor Zsolt Botykai | 2009-10-14

42
```
diff -U 0 file1 file2 | grep -v ^@ | wc -l
```
Que moins de 2 pour les deux noms de fichier en haut de la diff inscription. Format unifié est probablement un peu plus vite que les côte-à-côte.
- Cela ne fonctionne pas, comme je le définir "travail" pastie.org/pastes/3179433/text Il n'y a qu'un seul caractère dans chaque fichier, ce qui représente le chiffre "4", concernent?
- Ce n'travail. Pour votre exemple, vous avez quatre lignes: les deux premiers sont le nom de chaque fichier (comme expliqué dans la réponse), et les deux autres sont les deux différences, 1 ligne avec un " a " enlevé et 1 ligne avec 'b' ajouté.
- Cela dépend de la façon de compter les différences. Dans cet exemple, pastie.org/5553254, je considère qu'il à 2 lignes qui diffèrent, c'est à dire je suis d'accord avec sequoia mcdowell. Il est également gênant d'avoir à soustraire 2 à partir du résultat (en raison de l'impression de l'2 diff:ed fichiers). Donc, je pense que Josh réponse est la bonne. Il peut être raccourcie légèrement à l'aide de la –c (comte) option sur grep, au lieu de la tuyauterie wc –l, comme ceci: diff -U 0 file1 file2 | grep -c ^@
- diff -U 0 file1 file2 | grep -v ^@ | tail -n +3 | wc -l doit donner le nombre correct. Il exclut les noms de fichiers en haut de la sortie de la commande diff.
- la bonne solution est ici unix.stackexchange.com/questions/53719/... comme a accepté de répondre à
- Pourquoi ne fais-tu pas qu'une réponse (pointant vers l'autre réponse)? Sinon, il est enterré ici en milliers de commentaires! Aussi, je remarque que la réponse est presque le même que le code en question (avec une petite correction).
- Il me semble que la question initiale n'était pas à la recherche de cette façon de compter ou de Josh façon de compter, compte tenu de l'exemple de code dans la question, "Pour trouver le nombre de lignes différentes". Bien que je suppose qu'ils n'ont accepter cette réponse!
- fait
InformationsquelleAutor John Kugelman
45

Si vous voulez compter le nombre de lignes qui sont différentes d'utiliser ce:
```
diff -U 0 file1 file2 | grep ^@ | wc -l
```
N'est pas John la réponse de compter deux fois les différentes lignes?
- Oui, il double compte. Voir mon commentaire sur la accepté de répondre. La commande de cette réponse est correcte.
- Cela semble potentiellement double-comptage des lignes aussi bien pour moi, à la fois sur Mac et Ubuntu. Lots contigus lignes peuvent être regroupés en un seul bloc, et cela dépend de votre tâche quant à savoir si ou non que doit être une différence ou plusieurs.
- N'oubliez pas de couleur de sortie des lignes de commencer avec une séquence d'échappement! A utiliser convertir à la figure que l'on sort.
- Comme @khedron souligne lots contigus lignes peuvent être regroupés en un seul bloc. Je réalisai que cela signifie de cette méthode est sujette à des sous-dénombrement.
- Vous pouvez écrire grep -c ^@ au lieu de grep ^@ | wc -l
- "Enclin à sous-dénombrement" est de mettre le moins - exécutez cette commande sur deux fichiers différents, et il vous donnera un résultat de 1.
InformationsquelleAutor Josh
6

Si vous utilisez Linux/Unix, ce sujet de comm -1 file1 file2 pour imprimer les lignes dans fichier1 qui ne sont pas dans fichier2, comm -1 file1 file2 | wc -l de les compter, et de même pour comm -2 ...?
- Comme sureshw points dans une autre réponse, comm attend de ses arguments triés fichiers. Si cette suggestion ne peut être invoqué dans des cas particuliers. (Je pense qu'il serait facile d'écrire votre propre version de comm utilisation de awk qui a travaillé pour ne pas triés à l'entrée, trop, mais doute que ce qui remplit l'esprit de la question d'origine plus.)
InformationsquelleAutor dubiousjim
5

Puisque chaque ligne de sortie diffère commence avec < ou > caractère, je dirais ceci:
```
diff file1 file2 | grep ^[\>\<] | wc -l
```
En utilisant uniquement \< ou \> dans la ligne de script, vous pouvez compter les différences dans l'un des fichiers.
- Cette double compte les lignes comme "<" et ">" peuvent être imprimés pour la même ligne.
InformationsquelleAutor Michal Nemec
1

Je crois que la bonne solution est dans ce réponse, c'est:
```
$ diff -y --suppress-common-lines a b | grep '^' | wc -l
1
```
InformationsquelleAutor tsusanka

Si vous travaillez avec des fichiers avec des analogues de contenu qui doivent être triées de la même ligne-par-ligne (comme les fichiers CSV décrivant des choses similaires) et vous souhaitez trouver 2 différences dans les fichiers suivants:

File a:    File b:
min,max    min,max
1,5        2,5
3,4        3,4
-2,10      -1,1

vous pouvez implémenter en Python comme ceci:

different_lines = 0
with open(file1) as a, open(file2) as b:
    for line in a:
        other_line = b.readline()
        if line != other_line:
            different_lines += 1

InformationsquelleAutor Daniel Lee

Vous devez vous connecter pour publier un commentaire.