Fichiers compressés Hadoop gzip

Je suis nouveau sur hadoop et d'essayer de traiter wikipedia de vidage. C'est de 6,7 GO compressé avec gzip fichier xml. J'ai lu que hadoop prend en charge gzip fichiers compressés, mais ne peuvent être traitées que par les mapper sur une seule tâche, comme un seul mapper peut décompresser. Cela semble mettre une limitation sur le traitement. Est-il une alternative? comme la décompression et le fractionnement du fichier xml en plusieurs morceaux et de le recompresser ensuite avec gzip.

J'ai lu sur hadoop gzip de http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html

Merci pour votre aide.

source d'informationauteur Boolean

20

Un fichier compressé avec GZIP codec ne peut pas être fractionné en raison de la façon dont ce codec fonctionne.
Un SPLIT single dans Hadoop ne peut être traitée que par un seul mappeur; de sorte qu'un seul fichier GZIP ne peut être traitée que par un seul Mappeur.

Il y a au moins trois façons de contourner cette limitation:
1. Comme une étape de prétraitement: Décompresser le fichier et de le comprimer à l'aide d'un splittable codec (LZO)
2. Comme une étape de prétraitement: Décompresser le fichier, divisés en ensembles plus petits et de les recompresser. (Voir ce)
3. Utiliser ce patch pour Hadoop (qui je l'ai écrit) qui permet un moyen de contourner cela: Splittable Gzip
HTH
8

C'est l'un des plus grands manquer de compréhension dans HDFS.

Oui les fichiers compressés comme un fichier gzip ne sont pas splitable par MapReduce, mais cela ne signifie pas que GZip comme un codec n'a pas de valeur dans HDFS et ne peuvent pas être splitable.

GZip comme un Codec peut être utilisé avec RCFiles, les Fichiers de Séquence, Arvo Fichiers, et de nombreux autres formats de fichier. Lorsque le Gzip Codec est utilisé à l'intérieur de ces splitable formats vous obtenez la grande compression et d'assez bonne vitesse de Gzip, plus le splitable composant.
3

GZIP fichiers ne peuvent pas être partitionné en quelque sorte, en raison d'une limitation de la codec. 6.7 GO n'est vraiment pas grand, donc il suffit de le décompresser sur une seule machine (il faudra moins d'une heure) et de copier le code XML à HDFS. Ensuite, vous pouvez traiter le Wikipedia XML dans Hadoop.

Cloud9 contient un WikipediaPageInputFormat classe que vous pouvez utiliser pour lire le fichier XML dans Hadoop.
0

Pourquoi ne pas ungzip et de l'utiliser Splittable LZ compression à la place?m

http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

Vous devez vous connecter pour publier un commentaire.