Meilleur splittable compression pour Hadoop entrée = bz2?

Nous avons réalisé un peu trop tard que l'archivage de nos fichiers en format GZip pour Hadoop traitement n'est pas une bonne idée. GZip n'est pas splittable, et pour référence, voici les problèmes que je ne vais pas le répéter:

Ma question est: est-BZip2 le meilleur d'archives compression qui permettent à un seul fichier d'archive à être traitées en parallèle par Hadoop? Gzip est certainement pas, et à partir de ma lecture LZO a quelques problèmes.

Snappy est l'algorithme de compression par défaut utilisé par Étincelle pour Parquet fichiers et est une autre grande option.

OriginalL'auteur Suman | 2013-02-11