Python - mécanisme pour identifier le type de fichier compressé et décompresser

Un fichier compressé peuvent être classés en-dessous de groupes logiques

un. Le système d'exploitation qui vous travaillez (*ix, Win) etc.

b. Les différents types d'algorithme de compression (j'.e .zip,.Z,.bz2,.rar,.gzip). Au moins à partir d'une liste standard de principalement utilisé dans les fichiers compressés.

c. Ensuite, nous avons tar mécanisme où je suppose qu'il n'y a pas de compression. Mais il agit plus comme une concaténation.

Maintenant, si nous commençons à aborder la ci-dessus un ensemble de fichiers compressés

un. Option (a) serait pris en charge par python, car il est indépendant de la plateforme de la langue.

b. Option (b) et (c) semble avoir un problème.

De quoi ai-je besoin

Comment puis-je identifier le type de fichier (type de compression) et de l'ONU-les compresser?

Comme:

fileType = getFileType(fileName)  
switch(fileType):  
case .rar:  unrar....
case .zip:  unzip....

etc

Donc la question fondamentale est de savoir comment identifier l'algorithme de compression basé sur le fichier (en supposant que l'extension n'est pas fourni ou incorrecte)? Est-il une manière spécifique de le faire en python?

InformationsquelleAutor kumar_m_kiran | 2012-10-24

31

Cette page a une liste de "magie" des fichiers de signatures. Prenez ceux que vous avez besoin et de les mettre dans un dict comme ci-dessous. Ensuite, nous avons besoin d'une fonction qui correspond à la dict touches avec le début du fichier. J'ai écrit une suggestion, si elle peut être optimisée par le prétraitement de la magic_dict par ex. un géant compilé regexp.
```
magic_dict = {
    "\x1f\x8b\x08": "gz",
    "\x42\x5a\x68": "bz2",
    "\x50\x4b\x03\x04": "zip"
    }

max_len = max(len(x) for x in magic_dict)

def file_type(filename):
    with open(filename) as f:
        file_start = f.read(max_len)
    for magic, filetype in magic_dict.items():
        if file_start.startswith(magic):
            return filetype
    return "no match"
```
Cette solution devrait être de la croix-plattform et est bien sûr pas dépendants de l'extension de nom de fichier, mais il peut donner des faux positifs pour les fichiers à contenu aléatoire qui vient de se produire pour commencer avec certains de la magie octets.
- Ce bien identifie le type de fichier. Cependant, vous devez retourner dans l'objet créé par l'ouverture du fichier et permettant l'accès. Autrement vous finirez tester le type de fichier à nouveau pour vous voir elle doit être traitée. Ceci peut être évité par la création d'une commune à l'abstraction qui peut faire face à tous les types de fichiers supportés. Le motif est appelle "l'usine".
- Vous pouvez également utiliser ce site à la recherche pour les signatures que vous voulez: filesignatures.net/index.php
- Le fichier zip format permet arbitraire de données pour être ajouté au début du fichier, donc la vérification pour un nombre magique pour les fichiers zip n'est pas correct dans tous les cas.
- Autant que je sache, c'est RAR, pas de zip.
InformationsquelleAutor Lauritz V. Thaulow

Basé sur lazyr la réponse de mon commentaire, voici ce que je veux dire:

class CompressedFile (object):
magic = None
file_type = None
mime_type = None
proper_extension = None
def __init__(self, f):
# f is an open file or file like object
self.f = f
self.accessor = self.open()
@classmethod
def is_magic(self, data):
return data.startswith(self.magic)
def open(self):
return None
import zipfile
class ZIPFile (CompressedFile):
magic = '\x50\x4b\x03\x04'
file_type = 'zip'
mime_type = 'compressed/zip'
def open(self):
return zipfile.ZipFile(self.f)
import bz2
class BZ2File (CompressedFile):
magic = '\x42\x5a\x68'
file_type = 'bz2'
mime_type = 'compressed/bz2'
def open(self):
return bz2.BZ2File(self.f)
import gzip
class GZFile (CompressedFile):
magic = '\x1f\x8b\x08'
file_type = 'gz'
mime_type = 'compressed/gz'
def open(self):
return gzip.GzipFile(self.f)
# factory function to create a suitable instance for accessing files
def get_compressed_file(filename):
with file(filename, 'rb') as f:
start_of_file = f.read(1024)
f.seek(0)
for cls in (ZIPFile, BZ2File, GZFile):
if cls.is_magic(start_of_file):
return cls(f)
return None
filename='test.zip'
cf = get_compressed_file(filename)
if cf is not None:
print filename, 'is a', cf.mime_type, 'file'
print cf.accessor

Pouvez maintenant accéder aux données compressées à l'aide de cf.accessor. Tous les modules fournissent des méthodes similaires comme " read()', 'write (), etc. pour ce faire.

dans get_compressed_file la fonction que vous faites cls(f), f est un gestionnaire de fichier, tandis que d'ouvrir les fonctions attendent les noms de fichiers... j'ai modifié la fermeture de f, et de passer le nom de fichier à la place. est-il un meilleur moyen?
mon commentaire précédent peut être lié à la version de python...en python2 bz2.BZ2File n'accepte chaîne

InformationsquelleAutor Ber

4

C'est une question complexe qui dépend d'un certain nombre de facteurs: le plus important étant de savoir comment portable votre solution doit être.

Les principes de base derrière trouver le type de fichier donné un fichier est de trouver une identification d'en-tête dans le fichier, généralement quelque chose qui s'appelle un "la magie de la séquence ou de la signature de l'en-tête, qui indique qu'un fichier est d'un certain type. Son nom ou son extension est généralement pas utilisée si elle peut être évitée. Pour certains fichiers, Python a construit dans cette. Par exemple, pour faire face à .tar fichiers, vous pouvez utiliser le tarfile module, qui a une pratique is_tarfile méthode. Il y a un module semblable nommé zipfile. Ces modules vous permettra aussi d'extraire les fichiers dans le plus pur Python.

Par exemple:
```
f = file('myfile','r')
if zipfile.is_zipfile(f):
zip = zipfile.ZipFile(f)
zip.extractall('/dest/dir')
elif tarfile.is_tarfile(f):
...
```
Si votre solution est Linux ou OSX, seulement, il y a aussi le file de commande qui va faire beaucoup de travail pour vous. Vous pouvez également utiliser les outils intégrés pour décompresser les fichiers. Si vous êtes juste de faire un script simple, cette méthode est plus simple et vous donnera de meilleures performances.

InformationsquelleAutor Krumelur
0

"a" est complètement fausse.

"b" peut être facilement interprété mal ".zip" ne signifie pas que le fichier est un fichier zip. Il pourrait être un JPEG avec zip d'extension (dans la confusion entre les fins, si vous voulez).

Vous avez vraiment besoin de vérifier si les données du fichier ne correspond aux données qui devrait avoir par son extension.
Aussi jeter un oeil à la magie de l'octet.
- Avec l'option (a), je voulais dire seulement le code écrit en python à l'onu-compresser dire Unix, doit travailler pour le même fichier de l'onu de compression d'en GAGNER. Aucune raison spécifique que je me trompe?
- Un algorithme de compression est OS indépendant. Vous pouvez compresser un fichier sous Unix, puis décompressez-le sur WIndows, puis de l'envoyer à un Mac et de le compresser à nouveau, de comparer le fichier compressé à partir d'Unix et de celui de Mac et ils seront peu-a-peu égal.
- En général (le plus probable), vous pouvez utiliser le même code python pour décompresser un fichier à travers les systèmes d'exploitation en utilisant python. Vous destiné à classer basé sur le code python nécessaire pour décompresser sur différents systèmes d'exploitation(qui est ce que l'indépendance de plate-forme apporte) avec la (mauvaise) comprendre que les différents systèmes d'exploitation auront besoin de code python (qui est en général pas vrai). Mais vous l'avez dit avec un choix de mots qui signifie quelque chose d'autre et alexandernst corrigé vous.
InformationsquelleAutor alexandernst
0

Si l'exercice est d'identifier que c'est juste pour les fichiers d'étiquettes, vous avez beaucoup de réponses. Si vous souhaitez décompresser l'archive, pourquoi ne pas simplement essayer et attraper les execptions/des erreurs? Par exemple:
```
>>> tarfile.is_tarfile('lala.txt')
False
>>> zipfile.is_zipfile('lala.txt')
False
>>> with bz2.BZ2File('startup.bat','r') as f:
...    f.read()
...
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
IOError: invalid data stream
```
InformationsquelleAutor Burhan Khalid

Vous devez vous connecter pour publier un commentaire.