Quel est le moyen le plus rapide pour vérifier si les fichiers sont identiques?

Si vous avez 1,000,0000 fichiers source, vous pensez qu'ils sont tous les mêmes, et que vous voulez comparer, ce qui est le courant à jeun méthode pour comparer ces fichiers? Supposons qu'ils sont les fichiers Java et de la plateforme où la comparaison est faite n'est pas important. cksum est de me faire pleurer. Quand je veux dire identiques je veux dire, TOUTES identiques.

Mise à jour: - je savoir sur la génération de sommes de contrôle. diff est risible ... je veux de la vitesse.

Mise à jour: Ne restez pas coincé sur le fait qu'ils sont des fichiers source. Prétendre par exemple que vous avez pris un million de pistes d'un programme avec de très réglementé de sortie. Vous voulez prouver à tous les 1 000 000 de versions de la sortie sont les mêmes.

Mise à jour: lire le nombre de blocs plutôt qu'en octets? Immédiatement jeter ceux-là? Est que plus rapide que de trouver le nombre d'octets?

Mise à jour: Est-ce si différent de la façon la plus rapide pour comparer deux fichiers?

diff est risible seulement parce que c'est le mauvais outil, il vous donne calculé les différences. Si vous voulez simplement savoir si les deux fichiers sont identiques, l'utilisation du cpm.
1,000,0000 fichiers source, comparer, j'ai juste ne suis pas en mesure de visualiser l'endroit où 1 Million de fichiers source sont utilisés.
Vous dire que ce sont les fichiers Java. Avez-vous besoin d'un outil qui peut aussi ignorer les espaces et les différences de mise en forme?
Disons que vous exécutez un programme d'un million de fois... absolue de la même ness est nécessaire... Vous voulez comparer des millions de produits différents...
Utiliser des threads... zoundsss d'entre eux.

InformationsquelleAutor ojblass | 2009-04-24

23

Je préfère quelque chose comme l'approche adoptée par le cmp programme: ouvrir deux fichiers (dire le fichier 1 et le fichier 2), lire un bloc de chacune, et de les comparer, octet par octet. Si elles correspondent, de lire le prochain bloc de chacun, de les comparer octet-par-octet, etc. Si vous arrivez à la fin de ces deux fichiers sans détecter d'éventuelles différences, de retourner au début du fichier 1, fermer le fichier 2 et ouvrir le fichier 3 à sa place, et répétez jusqu'à ce que vous avez vérifié tous les fichiers. Je ne pense pas qu'il existe un moyen d'éviter de lire tous les octets de tous les fichiers s'ils sont tous identiques, mais je pense que cette approche est (ou proche de) la façon la plus rapide de détecter toute différence qui pourrait exister.

Modification de l'OP: Levé important commentaire de Marque Bessey

"une autre optimisation évidente si les fichiers sont censés être la plupart du temps identiques, et s'ils sont relativement petits, est de garder l'un des fichiers entièrement en mémoire. Qui coupe bas sur l'écroulement d'essayer de lire les deux fichiers à la fois."
- Je pense que comparer a un paramètre pour renoncer à un écart est constaté.
- Je me demande si le système de fichiers pourrait vous donner à bas prix des sommes de contrôle si l'on a utilisé quelque chose comme ZFS.
- déplacer vers un système de fichiers ZFS... pouvez-vous développer ce que?
- Je ne peux pas parler sur ZFS, il suffit de penser de charge. Mais ZFS a été intégrée à la vérification de l'intégrité des sommes pour tous les fichiers (ils travaillent également sur la dé-duplication). Je me demande si ceux qui sont exposés à l'espace utilisateur, de sorte qu'on a pu vérifier de manière efficace si les fichiers sont identiques.
- Vous pouvez comparer les tailles avant de lire les fichiers.
- une autre optimisation évidente si les fichiers sont censés être la plupart du temps identiques, et s'ils sont relativement petits, est de garder l'un des fichiers entièrement en mémoire. Qui coupe bas sur l'écroulement d'essayer de lire les deux fichiers à la fois.
- Il n'y a pas de moyen plus rapide pour prouver que les deux fichiers sont identiques que les comparant octet-par-octet (duh), mais pour le type de fichiers il existe de manière probabiliste des manières plus rapides pour prouver qu'ils sont pas sur le même. L'échantillonnage au début et à la fin des fichiers de la première consisterait à trouver des différences plus rapide si les fichiers sont essentiellement les mêmes, mais différents dans une seule partie (généralement au début ou à la fin).
- Vous êtes spot sur sur rapide échouer. J'ai fourni un lien vers le Knuth-Morris-Pratt méthode de résolution de ce problème exact (oui, Donald Knuth) de retour en 2009, mais apparemment, les gens ne lisent que les réponses les plus fréquentes, car c'est évidemment la meilleure réponse a obtenu son premier upvote aujourd'hui.
InformationsquelleAutor David Z
14

La plupart des gens dans leurs réponses sont en ignorant le fait que les fichiers doivent être comparés à plusieurs reprises. Ainsi, les sommes de contrôle sont plus rapides que la somme de contrôle est calculée une fois et stockées dans la mémoire (au lieu de lire les fichiers de manière séquentielle n fois).
- Ne fait pas sens, nous avons encore besoin de calculer la somme de contrôle pour toutes les un million de fichiers. Le calcul de la somme de contrôle prendrait beaucoup plus de temps qu'une comparaison directe.
- L'OP ne demande qu'à savoir si TOUS les fichiers sont identiques. Ainsi, vous pouvez sélectionner un seul fichier sur lequel tous les n-1. les fichiers peuvent être comparés. Ainsi, vous avez seulement besoin de lire, tout au plus, tous les fichiers à la fin, si ils sont en fait identiques. Si l'OP a demandé quels fichiers sont identiques, j'aurais calculé les totaux de contrôle et triés à regrouper les fichiers avec la même somme.
InformationsquelleAutor Doug Bennett
8

En supposant que l'espoir est que les fichiers sont les mêmes (ce que le scénario), puis traiter avec les sommes de contrôle/hachages est une perte de temps - il est probable qu'ils vont être la même et que vous auriez à re-lire les fichiers pour obtenir la preuve finale (je suis aussi en supposant que, puisque vous voulez pour "prouver ... ce sont les mêmes", ont eux hachage à la même valeur n'est pas assez bon).

Si c'est le cas, je pense que la solution proposée par David est assez proche de ce que vous devez faire. Un couple de choses qui peut être fait pour optimiser la comparaison, une augmentation du niveau de complexité:
- vérifier si les tailles des fichiers sont les mêmes avant de faire la comparaison
- d'utiliser le plus rapide memcmp() que vous pouvez (en comparant les mots au lieu d'octets plus C temps de fonctionnement devrait le faire déjà)
- d'utiliser plusieurs threads pour faire le bloc de mémoire compare (jusqu'au nombre de processeurs disponibles sur le système, en allant sur qui serait la cause de votre fils à se battre les uns les autres)
- utilisation superposé/asynchronous I/O pour garder les canaux I/O aussi occupé que possible, mais aussi attentivement le profil de sorte que vous thrash entre les fichiers aussi peu que possible (si les fichiers sont répartis entre plusieurs disques et des ports d'e/S, d'autant mieux)
- Vérifier que les tailles des fichiers sont les mêmes d'abord est exactement le genre de chose qui est tellement évident que c'est facile d'oublier de le faire — merci!
InformationsquelleAutor Michael Burr
5

Mise à jour: Ne restez pas coincé sur le fait qu'ils sont des fichiers source. Prétendre par exemple que vous avez pris un million de pistes d'un programme avec de très réglementé de sortie. Vous voulez prouver à tous les 1 000 000 de versions de la sortie sont les mêmes.

si vous avez le contrôle sur la sortie du programme de création des fichiers de sortie /créer un md5 sur la volée et de les intégrer dans le fichier ou d'un flux de sortie ou même de rediriger la sortie à travers un programme qui crée le md5 sur le chemin et magasins le long de côté les données d'une certaine manière, le point est de faire les calculs lorsque les octets sont déjà en mémoire.

si vous ne pouvez pas y arriver alors, comme d'autres l'ont dit, de vérifier les tailles de fichier puis faire un tout droit octet par octet de comparaison sur la même taille de fichiers, je ne vois pas comment n'importe quelle sorte de division binaire ou md5 calcul est mieux qu'une comparaison directe, vous devrez toucher chaque octet de prouver l'égalité de la manière que vous le couper de sorte que vous pourriez ainsi réduire la quantité de calcul nécessaire par octet et d'acquérir la capacité de couper dès que vous trouvez une erreur.

le md5 de calcul serait utile si vous prévoyez de les comparer plus tard pour de nouvelles sorties, mais votre fondamentalement revenir à mon premier point de calcul du md5 dès que possible

InformationsquelleAutor
3

Il y a un certain nombre de programmes qui permettent de comparer un ensemble de fichiers, en général, de trouver des images identiques. FDUPES est bonne: Lien. Un million de fichiers shoudln pas être un problème, en fonction de la nature exacte de l'entrée. Je pense que FDUPES nécessite Linux, mais il existe d'autres programmes de ce type pour d'autres plates-formes.

J'ai essayé d'écrire un programme plus rapide de moi-même, mais à l'exception de cas particuliers, FDUPES a été plus rapide.

De toute façon, l'idée générale est de commencer par vérifier la taille des fichiers. Les fichiers qui ont des tailles différentes ne peuvent pas être égaux, de sorte que vous avez seulement besoin de considérer les groupes de fichiers avec la même taille. Ensuite, il devient plus compliqué si vous souhaitez obtenir des performances optimales: Si les fichiers sont susceptibles d'être différents, nous vous conseillons de comparer les petites pièces des dossiers, dans l'espoir de trouver des différences dès le début afin que vous n'avez pas à lire le reste d'entre eux. Si les fichiers sont susceptibles d'être identiques, même si, il peut être plus rapide à lire par le biais de chaque fichier pour calculer une somme de contrôle, parce que vous pouvez lire dans l'ordre à partir du disque, au lieu de sauter en arrière et vient entre deux ou plusieurs fichiers. (Cela suppose que les disques normaux, alors SSD:s peut être différent.)

Dans mes repères lorsque l'on essaie de faire un programme plus rapide c' (un peu à ma grande surprise) s'est avéré pour être plus rapide à lire d'abord par le biais de chaque fichier pour calculer une somme de contrôle, et puis si les sommes sont égales, comparer les fichiers directement par la lecture d'un des blocs alternativement de chaque fichier, plutôt que de lire des blocs en alternance, sans les précédents calculs de somme de contrôle! Il s'est avéré que lors du calcul des sommes de contrôle, de Linux à la fois les fichiers mis en cache dans la mémoire principale, la lecture de chaque fichier séquentiellement, et la deuxième lectures étaient alors très rapide. Lors du démarrage d'une alternance de lit, les fichiers ne sont pas (physiquement) lire dans l'ordre.

EDIT:

Certaines personnes ont exprimé leur surprise de fin de doute même qu'il pourrait être plus rapide pour lire les fichiers deux fois plus que la lecture seule fois. Peut-être que je n'ai pas réussi à expliquer très clairement ce que je faisais. Je parle de cache de pré-chargement, afin d'avoir les fichiers dans le cache du disque lorsque, plus tard, d'accéder de manière à être lent à faire sur le lecteur de disque physique. Ici est une page web où j'ai essayé d'expliquer plus en détail, avec des images, du code C et des mesures.

Cependant, ce qui a (au mieux) marginal de la pertinence de la question d'origine.
- Oui. J'étais un peu gêné, en fait.
- Même si les fichiers ont été mis en cache, il doit prendre plus de temps pour lire tous les octets de hachage et puis retraiter pour les comparer à ce qu'elle serait de se contenter de lire et de comparer entre eux pour commencer. Ainsi, la comparaison peut abandonner sur la première incohérence. Par conséquent, votre test est défectueux ou votre mesure du temps a été.
- Étant donné deux fichiers de 1 000 000 d'octets, faire de 1 000 000 x "si(chr1!=chr2)" doit être plus rapide que de 1 000 000 x "de hachage.mise à jour(ch1)" plus de 1 000 000 x "de hachage.mise à jour(ch2)", même si le hachage est optimisée par l'utilisation d'une fonction update() qui prend un tableau ou un pointeur.
- Quel taille de la mémoire tampon avez-vous utilisé pour la lecture des fichiers pour la comparaison?
- La taille de lecture est de 4096 octets. J'ai pensé à une version qui a augmenté la taille de la mémoire tampon de façon exponentielle pour la suite lit, mais jamais mis en œuvre. Et maintenant, je pense que l'idée d'une autre réponse, avec des lectures dans des endroits aléatoires de fichiers, et alors la somme de contrôle, sera mieux.
- Les deux premiers commentaires ci-dessus par un Logiciel de Singe: n'oubliez pas la mise en cache. La lecture de deux fichiers de manière séquentielle dans la mémoire à partir du disque physique peut être plus rapide que la lecture en parallèle, en alternant entre eux (en déplaçant la tête de lecture en arrière). Tout ce que vous faire plus tard, avec toutes les données dans la mémoire cache, est relativement beaucoup plus rapide. Mais oui, il dépend des données, et c'est une moyenne. Deux fichiers qui en fait ne diffèrent que dans le début sera plus rapide pour comparer octet par octet.
- Je peux voir comment cette différence pourrait donner un bond surprenant dans la performance. Bon point.
- Je dois admettre, je me disais, plus de 1 mo de tampons, pas de 4K.
InformationsquelleAutor Thomas Padron-McCarthy
2

Bien la plus optimale de l'algorithme dépend du nombre de fichiers en double.

En supposant que quelques-uns sont les mêmes, mais la plupart sont différents et que les fichiers sont gros.

Filtre à ceux qui ne sont évidemment pas les mêmes à l'aide d'un simple fichier de contrôle de la longueur.

Choisir octets aléatoires à partir du fichier, de calculer une valeur de hachage et de les comparer (disque en minimisant les cherche)

Qui suivent avec plein de fichier SHA1.
- la cueillette de quelques bits aléatoires... très lumineux...
- Les tailles de fichier à partir du répertoire est une bonne idée, mais octets aléatoires est inutile, puisque vous avez encore de comparer l'ensemble de fichier pour être fiable. Et de toute sorte de somme de contrôle va être plus lent qu'un tampon, octet par octet, comparer.
- Comment au sujet de quelque chose comme regarder le dernier octet de l'ensemble d'un million d'entre eux?
- et allez en bas de la chaîne...
- octets aléatoires peut être plus rapide si vous avez une tonne de fichiers avec la même taille qui sont différents, vous pouvez utiliser les octets aléatoires pour éviter d'avoir à calculer une intégrale de hachage
- Octets aléatoires est une méthode peu fiable - vous pouvez consulter toutes mais un octet dans les deux fichiers, et toujours pas être sûr à 100% qu'elles sont identiques. Vous devez vérifier chaque octet et, aussi longtemps que vous êtes d'avoir à le faire, en tampon de lecture séquentielle sera supérieur à celui de l'accès aléatoire.
- D'où vous venez, je crois, est le même en début de stratégie de sortie si vous trouvez une différence dans le fichier. Mais un cmp solution possède déjà.
- c'est vrai, je suppose que vous pouvez avoir un léger avantage si une tonne de fichiers ont la même en-tête, avec une approche aléatoire ... il est difficile de concevoir une solution si vous ne connaissez pas le problème exact. cmp approche est de BAISER donc, il est bon
- J'aime beaucoup cette idée, en partie parce que je suis venu avec moi-même aussi. Je suis en train de comparer deux 50G+ fichiers, et la lecture de chaque octet des deux serait trop lent. En sélectionnant un de 10 octets du bloc de tous les 100M des fichiers et de leur comparaison octet par octet (pas besoin de hachage, même si tu peux), je peux être assez confiant que les deux fichiers sont égaux, puisque la probabilité que deux de 10 octets blocs sont identiques est de 256^-10 (sous certaines hypothèses qui peuvent ne pas s'appliquer ici). Et pour 500 blocs, 256^-5000
InformationsquelleAutor Sam Saffron
2

D'abord comparer le fichier des longueurs de tous les millions de dollars. Si vous avez un moyen pas cher pour ce faire, commencer par le plus grand des fichiers. Si ils passent tous que puis comparer chaque fichier à l'aide d'une division binaire de modèle; ceci ne fonctionnera pas plus rapide sur les fichiers qui sont similaires mais pas identiques. Pour plus d'informations sur cette méthode de comparaison voir Knuth-Morris-Pratt méthode.

InformationsquelleAutor Peter Wone
1

À l'aide de cksum n'est pas aussi fiable que d'utiliser quelque chose comme md5sum. Mais j'opterais pour un maximum de fiabilité, ce qui signifie un octet-par-octet de comparaison en utilisant les cmp.

Vous devez lire chaque octet dans les deux fichiers pour toutes les méthodes de vérification de sorte que vous pourriez aussi opter pour celui qui est le plus fiable.

Comme une première passe, vous pouvez vérifier l'inscription à l'annuaire pour voir si les tailles sont différentes. C'est un moyen rapide d'obtenir plus rapidement des commentaires pour les différents fichiers.
- Avez-vous vraiment lu tous les octets de chaque fichier? Pouvez-vous arrêter de lire si un fichier est hors de faveur?
- Oui, vous pouvez vous arrêter quand vous trouvez une différence, c'est la grand avantage d'un cmp solution à tout cksum/md5sum/toute-la somme de contrôle de la solution. Pour les fichiers identiques, vous devez lire le lot (même pour cmp).
InformationsquelleAutor paxdiablo
1

Je ne pense pas que le hachage va être plus rapide que l'octet par octet des comparaisons. La comparaison octet par octet peut être optimisé un peu en canalisant la lecture et la comparaison des octets, également plusieurs sections du fichier pourrait être comparé à fils parallèles. Il serait quelque chose comme ceci:
- Vérifier si les fichiers de tailles différentes
- Lire des blocs de fichiers dans la mémoire de manière asynchrone
- Poignée à des threads de travail de faire les comparaisons
Ou tout simplement courir un cmp (ou l'équivalent pour votre système d'exploitation) en parallèle. Cela pourrait être scripté facilement et vous obtenez toujours l'avantage de parallélisme.
- N'est-ce pas le disque de bus le col de la bouteille, ici? Peut-être que la dispersion des fichiers... Vous êtes sur quelque chose ici...
- Rappelez-vous que le disque physique est le goulot d'étranglement! Quand j'ai essayé octet par octet des comparaisons, il s'est avéré être plus lent que les sommes de contrôle, en raison des propriétés physiques de disques. Lorsque vous calculer une somme de contrôle d'un fichier, vous lire les blocs de façon séquentielle à partir du disque (en supposant que pas trop de fragmentation). Lorsque vous comparez des fichiers directement, et de les lire en parallèle, vous devez lire tous les blocs sur le disque.
- "Rappelez-vous que le disque physique est le goulot d'étranglement! Quand j'ai essayé octet par octet des comparaisons. " bien entendu, Vous lire raisonnable de gros morceaux du fichier à la fois. De petits fichiers serait en effet par slurped complètement. Ayant les deux ensembles de fichiers sur le disque serait l'idéal.
- Ça dépend vraiment de la façon dont vos disques sont disposés. Vous pouvez répartir vos fichiers entre de différents appareils, de sorte que les e/s pour les fichiers se trouvent sur différentes broches et des fichiers individuels sont susceptibles d'être contiguës. Vous pouvez même copier vos fichiers sur un ramdisk et de faire les comparaisons là.
- Après re-lecture de la question, si vous êtes continuellement en comparant la sortie d'un programme alors vous n'avez qu'à comparer la sortie des deux dernières courses.
InformationsquelleAutor BeWarned
1

Usage de la notion de Filtre de Bloom.
Une simple explication ici: http://crzyjcky.com/2013/01/03/the-magical-bloom-filter/

Il vous donne la constante de temps de comparer. Cependant, cette méthode ne peut pas être utilisé seul.
Apache Cassandra et HBase sont l'utilisation de cette technique à l'interne.

Il raconte essentiellement u les fichiers ne sont pas identiques dans moyen très rapide. Si il dit que le fichier sont identiques, que vous avez à faire un autre tour de la vérification à l'aide de méthode fiable.

InformationsquelleAutor janetsmith
0

Je voudrais exécuter quelque chose comme ceci
```
find -name \*.java -print0 | xargs -0 md5sum | sort
```
ensuite voir quels fichiers ont différentes sommes de contrôle MD5. Cela permettra de regrouper les fichiers par la somme de contrôle.

Vous pouvez remplacer md5sum qui sha1sum ou même rmd160 si vous le souhaitez.
- et vous avez encore besoin de comparer manuellement les 1 000 000 de paires de md5
- La première étape devrait consister à regrouper les fichiers par taille de fichier! Après cela, MD5, pour tous les groupes d'au moins deux fichiers de même longueur peut très bien être la méthode la plus rapide. (Et ne comparez pas les sommes de contrôle manuellement, vous disposez d'un ordinateur pour ça!)
InformationsquelleAutor Blair Zajac
0

Pourquoi réinventer la roue? Comment sur une application tierce? Accordée il n'a pas d'Api mais je ne peux pas imaginer que vous mettez votre auto dans cette situation souvent. J'aime cette application doublekiller il suffit de faire une sauvegarde avant de commencer. 🙂 C'est rapide et gratuit!

InformationsquelleAutor NitroxDM
0

au-delà de comparer, synchroniser deux dossiers, super rapide! nous l'utilisons tout le temps, tous les jours.

InformationsquelleAutor bo.
0

Je viens d'écrire une application en c# qui fait quelque chose de similaire à ce que vous voulez. Ce que mon code n'est présent.

Lire toutes les tailles de chaque fichier dans une liste ou d'une matrice.

Utiliser une boucle for pour vérifier si l'une de ces tailles sont les mêmes.
si ils sont de la même taille, comparer un octet d'un fichier à un octet de l'autre fichier. Si les deux octets sont les mêmes, se déplacer sur l'octet suivant. Si un écart est constaté, le retour que les fichiers sont différents.

Si la fin de ces deux fichiers est atteint, et les deux derniers octets sont les mêmes, les fichiers doivent être identiques.

J'ai expérimenté avec la comparaison des hachages MD5 de fichiers, plutôt que de passer par octet, et j'ai trouvé que les fichiers identiques sont souvent manquées avec cette méthode, cependant, il est nettement plus rapide.

InformationsquelleAutor Ryan
0

À mon avis, c'est un fichier de système d'exploitation. Alors d'abord, choisissez votre système de fichiers avec soin. Ensuite, dédoublonner. Puis comparer les inodes. Comme:
```
% find /-inum "$(ls -di "./test.file" | grep -E '^[0-9]*')"
<list of identical files provided in a few seconds to a minute>
```
InformationsquelleAutor mikeserv
0

Si vous voulez comparer des fichiers, un par un, utilisez ExamDiff.

InformationsquelleAutor md27
-1

Hachage MD5 serait plus rapide que la comparaison, mais elle est plus lente que la normale CRC-case. Vous devez comprendre le type de la fiabilité que vous voulez dans la comparaison.
- Pourquoi serait-MD5 être plus rapide que la comparaison? Elles ont toutes les deux à lire tous les octets dans les deux fichiers.
- En fait, la comparaison devrait être plus rapide, car il peut abandonner une fois qu'il frappe un autre octet. Et vérifiez la taille du fichier en premier.
- Ce (abandon après la première différents octets) était exactement l'idée que j'avais, mais il s'est avéré être faux, au moins lorsque l'on travaille avec de gros fichiers! Se ma réponse.
- Votre test doit avoir été vicié - voir mes commentaires sur vos réponses.
- Singe: Peut-être que nous comprenons mal les uns des autres, et de dire des choses différentes, mais les tests que j'ai couru sont claires: la Lecture de deux fichiers deux fois, c'est parfois plus rapide que la lecture seule fois! En fait je re-couru une version simplifiée de la tester maintenant, et (sur un ordinateur particulier, avec une paire particulière de fichiers), il a été presque deux fois plus rapide à lire les deux fichiers deux fois plus qu'à lire qu'une fois!
- Si vous lisez le fichier une fois, notez l'heure, puis lire le fichier deux fois, puis notez le temps. La dernière de lit sont plus rapides, car le fichier est mis en cache. Il ne peut pas être plus rapide de lire un fichier en double (dans les mêmes conditions) qu'une seule fois.
- Vérifier mes mises à jour de réponse et le lien.
InformationsquelleAutor sangupta

Vous devez vous connecter pour publier un commentaire.