La génération d'une somme de contrôle MD5 d'un fichier

Est-il un moyen simple de produire (et de la vérification) somme de contrôle MD5 d'une liste de fichiers en Python? (J'ai un petit programme que je suis en train de travailler sur, et je tiens à confirmer les sommes de contrôle des fichiers).

Pourquoi ne pas simplement utiliser les md5sum?
En gardant en Python rend plus facile la gestion de la compatibilité multiplate-forme.
Si vous voulez de la solution avec la "barre de progression* ou similaire (pour les très gros fichiers), envisager cette solution: stackoverflow.com/questions/1131220/...
Le lien que vous avez fourni le dit dans le deuxième paragraphe: "Le sous-jacent algorithme MD5 est plus considéré comme sûr" tout en décrivant md5sum. C'est pourquoi, soucieux de la sécurité des programmeurs ne doivent pas l'utiliser à mon avis.
Bon et valable. Les deux md5sum et de la technique décrite dans la présente DONC, la question doit être évitée - il est préférable d'utiliser SHA-2 ou SHA-3, si possible: en.wikipedia.org/wiki/Secure_Hash_Algorithms

InformationsquelleAutor Alexander | 2010-08-07

365

Vous pouvez utiliser hashlib.md5()

Noter que, parfois, vous ne serez pas en mesure de s'adapter à l'ensemble du fichier en mémoire. Dans ce cas, vous aurez à lire des morceaux de 4096 octets de façon séquentielle et de les nourrir à la fonction Md5:
```
def md5(fname):
    hash_md5 = hashlib.md5()
    with open(fname, "rb") as f:
        for chunk in iter(lambda: f.read(4096), b""):
            hash_md5.update(chunk)
    return hash_md5.hexdigest()
```
Remarque: hash_md5.hexdigest() sera de retour le chaîne hexadécimale de représentation pour le résumé, si vous avez juste besoin les paniers octets utilisation return hash_md5.digest(), de sorte que vous n'avez pas à convertir en arrière.
- Eh bien, si tous les fichiers sont supérieures à 1 mo, alors j'ai quelques problèmes. Merci bien. Je pense que cela résout mon problème.
- Pourquoi devrait-il être un problème pour les fichiers de plus de 1 MO?
- Qui a été écrit de 7,5 ans, la multiplier par 32 ou donc.
- J'ai lu les OP comme "je sais que tous les fichiers je vais le processus sera inférieur à 1 MO, donc si l'un d'entre eux sont plus de 1 MO, puis quelque chose a mal tourné"
- J'étais même fichier de hachage pour les deux fichiers xml à l'aide hashlib.md5() . Cependant, l'utilisation de votre solution , maintenant il fonctionne très bien. Merci 🙂
InformationsquelleAutor quantumSoup
284

Il y a un moyen qui est à peu de la mémoire inefficace.

seul fichier:
```
import hashlib
def file_as_bytes(file):
    with file:
        return file.read()

print hashlib.md5(file_as_bytes(open(full_path, 'rb'))).hexdigest()
```
liste des fichiers:
```
[(fname, hashlib.md5(file_as_bytes(open(fname, 'rb'))).digest()) for fname in fnamelst]
```
Rappeler cependant, que MD5 est connu cassé et ne doit pas être utilisé pour n'importe quel but, depuis l'analyse de la vulnérabilité peut être vraiment difficile, et l'analyse d'un avenir possible d'utiliser votre code pourrait être mis à pour les questions de sécurité est impossible. À mon humble avis, il devrait être à plat retirés de la bibliothèque et donc tout le monde qui utilise, il est forcé de mettre à jour. Donc, voici ce que vous devez faire à la place:
```
[(fname, hashlib.sha256(file_as_bytes(open(fname, 'rb'))).digest()) for fname in fnamelst]
```
Si vous ne voulez 128 bits de la valeur de digérer que vous pouvez faire .digest()[:16].

Cela vous donnera une liste de tuples, chaque tuple contenant le nom de son fichier et son hachage.

Je l'ai de nouveau fortement question de votre utilisation de MD5. Vous devez être au moins en utilisant SHA1, et compte tenu de les récentes failles découvertes dans SHA1, probablement même pas que. Certaines personnes pensent que, tant que vous n'êtes pas à l'aide de MD5 pour "cryptographique", vous êtes beaux. Mais les choses ont tendance à finir par être une portée plus large que prévu initialement, et votre décontracté analyse de la vulnérabilité peut s'avérer complètement bancal. Il suffit de prendre l'habitude de l'utilisation de l'algorithme de droite de la porte. C'est juste en tapant un autre des tas de lettres est tout. Il n'est pas difficile.

Ici est une façon qui est plus complexe, mais mémoire efficace:
```
import hashlib

def hash_bytestr_iter(bytesiter, hasher, ashexstr=False):
    for block in bytesiter:
        hasher.update(block)
    return hasher.hexdigest() if ashexstr else hasher.digest()

def file_as_blockiter(afile, blocksize=65536):
    with afile:
        block = afile.read(blocksize)
        while len(block) > 0:
            yield block
            block = afile.read(blocksize)


[(fname, hash_bytestr_iter(file_as_blockiter(open(fname, 'rb')), hashlib.md5()))
    for fname in fnamelst]
```
Et, de nouveau, depuis MD5 est cassé et ne devrait pas vraiment être jamais plus utilisés:
```
[(fname, hash_bytestr_iter(file_as_blockiter(open(fname, 'rb')), hashlib.sha256()))
    for fname in fnamelst]
```
Encore une fois, vous pouvez mettre [:16] après l'appel à hash_bytestr_iter(...) si vous ne voulez 128 bits vaut la peine de digérer.
- Je suis le seul à l'aide de MD5 pour confirmer le fichier n'est pas corrompu. Je ne suis pas si préoccupé qu'il soit cassé.
- Et malgré @Omnifarious avertissements effrayants, qui est parfaitement à la bonne utilisation de MD5.
- Oui, et la prochaine chose que vous savez que quelqu'un trouve un moyen d'utiliser ce fait à propos de votre application à cause d'un fichier pour être accepté comme correct, quand ce n'est pas le fichier, vous vous attendez à tous. Non, je maintiens mes avertissements effrayants. Je pense que MD5 doit être supprimé ou venir avec autodérision les avertissements.
- Alors que @quantumSoup a une réponse viable, je crois que celui-ci doit être choisi comme la méthode appropriée pour la récupération de fichiers somme de contrôle md5. Toutefois, il pourrait être simplifié pour "hashlib.md5(open(fname, "r").read()).digest()". Vous devriez noter que la "fichier" fonction a été changé pour "ouvrir" pour l'utiliser avec python 2.7+
- Ouais. J'ai corrigé-à-dire open. Je crois que c'est travaillé depuis hashlib a été introduit, et a toujours travaillé. Les vieilles habitudes ont la vie dure.
- Je serais probablement utiliser .hexdigest() au lieu de .digest() - c'est plus facile pour les humains à lire - ce qui est le but de l'OP.
- Je voudrais supprimer hexdigest de la norme hashlib fonction de hachage de l'interface. Je pense qu'il est inutile de verrue. Et j'aime faire de même de petites fonctions largement applicable. Il existe de nombreux cas dans lesquels l'hex de la table de hachage est tout à fait inutilement bavard et le plus facile à utiliser version est d'encourager les gens à être en clair quand ils n'ont pas à l'être. Mais oui, dans ce cas, pour ce but précis, il est probablement le meilleur choix. Je voudrais encore suffit d'utiliser binascii.hexlify à la place. 🙂
- J'ai utilisé cette solution mais il uncorrectly a donné le même hachage pour deux types de fichiers pdf. La solution a été d'ouvrir les fichiers en spécifiant le mode binaire, c'est: [(fname, hashlib.md5(open(fname, 'rb').read()).hexdigest()) pour fname dans fnamelst] C'est plus liée à la fonction d'ouverture de md5, mais j'ai pensé qu'il pourrait être utile de le signaler compte tenu de l'exigence de compatibilité multiplate-forme est indiqué ci-dessus (voir aussi: docs.python.org/2/tutorial/...).
- Oh, vous avez raison. J'aurais dû faire ça. Je suis tellement habitué à Unix, où les deux sont synonymes. Je vais corriger ça maintenant.
- En disant: "supprimer le MD5 de la bibliothèque Python" ou même juste en disant "ajouter warning de dépréciation à la bibliothèque Python", c'est comme dire "Python ne doit pas être utilisé, si existant nécessite MD5, veuillez utiliser quelque chose d'autre". Expliquer les implications en matière de sécurité dans les docs, c'est sûr, mais l'élimination ou même juste la dépréciation est fou suggestion.
- Quelque chose doit être fait pour inciter les gens à cesser d'utiliser cette stupide algorithme. J'ai eu des emplois où ils persistaient à les utiliser même après que j'ai démontré qu'il a créé des trous de sécurité (certes assez obscures) et que SHA avait une mise en œuvre plus rapide dans OpenSSL, qui était à la bibliothèque, nous avons été à l'aide. C'est de la folie.
- De toute façon pour que cela soit plus d'un ordre de grandeur inférieure à celle md5sum sur la ligne de commande?
- Pour les personnes utilisant les def hashfile la fonction ci-dessus à plusieurs reprises sur le même descripteur de fichier n'oubliez pas de réinitialiser le afile pointeur lorsque vous faites la lecture de chaque fichier. par exemple. afile.seek(0)
- Rappel: les faiblesses connues pour les MD5 sont les attaques par collision et pas preimage attaques, de sorte qu'il est adapté à certaines applications cryptographiques, mais pas d'autres. Si vous ne connaissez pas la différence, vous ne devriez pas l'utiliser, mais ne pas ignorer totalement. Voir vpnc.org/hash.html.
- est-il ok pour pas de fermer fichiers ouverts dans ces interprétations de la liste?
- Oui, je voulais vous demander la même chose. N'est-ce pas une close() qui manque ici?
- Non, il n'est pas correct. Les fichiers seront fermés sur la collecte des ordures, probablement à la fin de la fonction englobante. Si, par exemple, le nombre d'éléments dans fnamelist est supérieure à la limite fixée par votre système d'exploitation, il échouera. Mais c'est sans importance pour la question posée. Nous devrions utiliser AFIN de prendre connaissance de l'essentiel, pas la copie de l'extrait à l'aveuglette. 🙂
- Comment se fait-il que deux types de fichiers pdf a eu le même hash, même s'il est ouvert, sans mode=rb? Ne devrait pas rt simplement de convertir les sauts de ligne et autrement identique à rb? (Je suppose que c'est python 2, car en python 3 hashlib.md5 nécessite bytes, et vont tout simplement refuser d'accepter une chaîne)
- Je mise sur le décompte de références à la nature des objets Python. Après chaque élément de la liste de la compréhension est évaluée, il n'y a pas plus de références. Je suis d'accord que c'est plutôt ténue et en s'appuyant trop sur la mise en œuvre. :-/ J'aime l'interface pour hashfile bien, c'est plus souple car il gère tout ce qui a read.
- Je l'ai fixée de sorte qu'il n'a plus de potentiel de fuite de ressources, même si le courant Disponible de la mise en œuvre ne l'est pas. Je suis d'accord qu'il devrait éviter les fuites même sur Jython ou futures implémentations possibles de Disponible.
- Je peux coller ma main dans de l'azote liquide brièvement et il ne sera pas lésé. Cela ne signifie pas que je devrais le faire. Il y a beaucoup de solutions de rechange pour MD5 qui sont largement disponibles. Il n'y a pas plus de raison pour quiconque de l'utiliser qu'il y a pour moi de tenir ma main dans de l'azote liquide.
- Nope. Désolé. Mauvaise analogie.
- Pouvez-vous donner une raison rationnelle tout le monde devrait utiliser MD5 ce n'est pas l'une de ces deux: "eh Bien, je pense que je peux sortir avec elle dans cette circonstance." ou "je dois interagir avec quelque chose d'autre qui utilise MD5."?
- L'intégralité de la vie "je crois que je peux sortir avec elle dans cette circonstance" --- ou plus objectivement, a déclaré, la gestion des risques, qui s'applique à tous systèmes cryptographiques, MD5 et SHA1 inclus. Lire sur l'état-of-the-art sur MD5 preimage attaques. Je ne mets pas les barres sur toutes mes fenêtres à la maison, et je l'utilise MD5 quand je fais de jardin-variété des vérifications d'intégrité où un malveillant adversaire n'est pas présent (par exemple, copie des fichiers d'un PC à l'autre)
- web.archive.org/web/20150901084550/http://www.vpnc.org/... -- "La différence entre une collision attaque et que l'une des deux preimage attaques est crucial. Au moment d'écrire ces lignes, il n'existe pas de pratique preimage attaques, ce qui signifie que si votre utilisation de hachages est seulement sensible à preimage attaques, même MD5 est très bien parce qu'à l'attaquant devrait faire 2^128 devine, qui sera infeasable pour de nombreuses décennies (si jamais)."
- Et ce faisant, vous êtes à la perpétuation de l'utilisation et de l'existence d'un algorithme qui est rompu pour une grande variété d'autres utilisations. À l'aide d'un algorithme approprié n'est pas comme mettre les barres sur votre windows. À l'aide de l'algorithme de droite est une question de taper quelques lettres différemment. Il n'y a pas de bonne raison de l'utiliser MD5 pour quoi que ce soit. Il n'a pas la qualité qu'il recommande plus SHA256 dans une mesure raisonnable de la situation.
- Je ne suis pas poursuivre cette discussion, vous êtes juste être idéologique sur votre rejet de l'algorithme MD5.
- Je dirais que vous êtes idéologique dans votre refus de rejeter un algorithme qui a parfaitement viable, les remplacements qu'il n'y a aucune bonne raison pour pas que ce soit l'utilisation. "J'ai appris à type MD5 sacrément, et personne ne va me dire que je ne peux pas. Ces autres lettres, ils sont bizarre et mes doigts ne pouvez pas taper!"
- J'ai juste besoin de corriger la même image, donc, à l'aide de hashlib.md5(open(full_path, 'rb').read()).hexdigest() est assez bon. Merci!
- Est-md5 beaucoup plus facile à taper que sha256? Je suis juste piquer à cela, parce que c'est mieux pour oublier le cassé algorithme a jamais existé, peu importe comment il est sûr à utiliser dans certains contextes. Recycler vous-même de ne jamais même penser à l'aide de la brisure de l'algorithme, et ensuite, vous n'aurez pas à l'utiliser quand il le faut.
- Nous devons libérer les ressources. Ouvrir le fichier avec avec déclaration ou écrire du code pour fermer le fichier.
- Les ressources sont en train d'être libéré. Le fichier objet est immédiatement associée à un with déclaration à l'intérieur de file_as_blockiter.
- Je parle les 3 premiers extraits de code. EX import hashlib [(fname, hashlib.md5(open(fname, 'rb').read()).digest()) for fname in fnamelst]
- Ahh, celles que je veux dire en tant que de mauvais exemples. 🙂 Oui, je suppose que je devrais corriger ça. Ils ne sont pas censés être que type de mauvais exemple.
InformationsquelleAutor Omnifarious
30

Je suis clairement pas en ajoutant quelque chose de fondamentalement nouveau, mais il a ajouté que cette réponse avant j'étais à commenter le statut, plus le code des régions de rendre les choses plus clairement, de toute façon, spécifiquement pour répondre à @Nemo est question de Omnifarious réponse:

Il m'est arrivé de penser au sujet de sommes un peu (venu ici à la recherche de suggestions sur les tailles de bloc, plus précisément), et ont constaté que cette méthode peut être plus rapide que ce que vous attendez. La prise de la manière la plus rapide (mais assez typique) timeit.timeit ou /usr/bin/time en raison de plusieurs méthodes de calcul des sommes de contrôle d'un fichier d'env. 11MB:
```
$ ./sum_methods.py
crc32_mmap(filename) 0.0241742134094
crc32_read(filename) 0.0219960212708
subprocess.check_output(['cksum', filename]) 0.0553209781647
md5sum_mmap(filename) 0.0286180973053
md5sum_read(filename) 0.0311000347137
subprocess.check_output(['md5sum', filename]) 0.0332629680634
$ time md5sum /tmp/test.data.300k
d3fe3d5d4c2460b5daacc30c6efbc77f  /tmp/test.data.300k

real    0m0.043s
user    0m0.032s
sys     0m0.010s
$ stat -c '%s' /tmp/test.data.300k
11890400
```
Alors, ressemble Python et /usr/bin/md5sum prendre environ 30ms pour un 11MO fichier. Pertinentes md5sum fonction (md5sum_read dans la liste ci-dessus) est assez similaire à Omnifarious de l':
```
import hashlib
def md5sum(filename, blocksize=65536):
    hash = hashlib.md5()
    with open(filename, "rb") as f:
        for block in iter(lambda: f.read(blocksize), b""):
            hash.update(block)
    return hash.hexdigest()
```
Accordée, ce sont de simples pistes (la mmap sont toujours à imposer un brin plus rapide lorsqu'au moins une douzaine de séries sont faites), et la mienne est généralement un supplément de f.read(blocksize) après le tampon est épuisé, mais il est assez répétitif et montre que md5sum sur la ligne de commande n'est pas nécessairement plus rapide qu'un Python de mise en œuvre...

EDIT: Désolé pour le retard, n'ont pas regardé ce que dans quelques temps, mais pour répondre à @EdRandall de la question, je vais écrire une Adler32 mise en œuvre. Cependant, je n'ai pas couru les critères de référence pour elle. C'est essentiellement le même que le CRC32 aurait été: au lieu de l'init, mise à jour, et de digérer les appels, tout est une zlib.adler32() appel:
```
import zlib
def adler32sum(filename, blocksize=65536):
    checksum = zlib.adler32("")
    with open(filename, "rb") as f:
        for block in iter(lambda: f.read(blocksize), b""):
            checksum = zlib.adler32(block, checksum)
    return checksum & 0xffffffff
```
Notez que cela doit commencer avec la chaîne vide, comme Adler sommes diffèrent en effet lors du démarrage à partir de zéro par rapport à leur somme pour "", qui est 1 -- CRC pouvez commencer avec 0 à la place. Le AND-ing qui est nécessaire pour rendre un 32 bits entier non signé, qui fait d'elle retourne la même valeur à travers les versions de Python.
- Est-il possible d'ajouter quelques lignes de comparer SHA1, et aussi zlib.adler32 peut-être?
- La somme md5() la fonction ci-dessus suppose que vous avez accès en écriture au fichier. Si vous remplacez le "r+b" dans le open() avec "rb" cela fonctionnera très bien.
- fixe
- adler32 est vraiment pas la peine de s'embêter avec, par exemple. leviathansecurity.com/blog/analysis-of-adler32
InformationsquelleAutor rsandwick3
-2
```
hashlib.md5(pathlib.Path('path/to/file').read_bytes()).hexdigest()
```
- Salut! S'il vous plaît ajouter quelques explications à votre code: pourquoi c'est une solution au problème. En outre, ce post est assez vieux, donc vous devriez également ajouter quelques informations sur les raisons de votre solution ajoute quelque chose que les autres n'ont pas déjà été résolu.
InformationsquelleAutor johnson

Vous devez vous connecter pour publier un commentaire.