Spark SQL - différence entre gzip vs snappy vs formats de compression lzo

Je suis en train d'utiliser Spark SQL pour écrire parquet fichier.

Par défaut Spark SQL prend en charge gzip, mais il prend également en charge d'autres formats de compression comme snappy et lzo.

Quelle est la différence entre ces formats de compression et qui est le mieux pour travailler avec Hive de chargement.

  • Il semble que par défaut de l'Étincelle utilise "snappy" et non pas "gzip". Au moins, c'est ce que je vois sur s3: les fichiers créés avec la chaîne "snappy" dans le cadre de leur nom.
  • les versions récentes de spark changé le format par défaut à vif, jusqu'à ce que 1.6.1 je peux voir la valeur par défaut parquet format de compression est gzip.
InformationsquelleAutor Shankar | 2016-03-04