Fichiers compressés Hadoop gzip

Je suis nouveau sur hadoop et d'essayer de traiter wikipedia de vidage. C'est de 6,7 GO compressé avec gzip fichier xml. J'ai lu que hadoop prend en charge gzip fichiers compressés, mais ne peuvent être traitées que par les mapper sur une seule tâche, comme un seul mapper peut décompresser. Cela semble mettre une limitation sur le traitement. Est-il une alternative? comme la décompression et le fractionnement du fichier xml en plusieurs morceaux et de le recompresser ensuite avec gzip.

J'ai lu sur hadoop gzip de http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html

Merci pour votre aide.

source d'informationauteur Boolean