comment fusionner plusieurs parquet fichiers à un seul parquet fichier à l'aide de linux ou de hdfs commande?

J'ai plusieurs petites parquet les fichiers générés en sortie de la ruche ql travail, je voudrais fusionner les fichiers de sortie pour seul parquet fichier?

quelle est la meilleure façon de le faire à l'aide de certaines hdfs or linux commands?

nous avons utilisé pour fusionner les fichiers texte à l'aide cat commande, mais ce travail de parquet ainsi?
Peut-on faire à l'aide de HiveQL lui-même lors de l'écriture des fichiers de sortie, comme la façon dont nous le faisons à l'aide de repartition ou coalesc méthode dans spark?

  • À l'aide de "parquet-les outils de fusion" n'est pas recommandée. Parquet baisses de fichier dans row_groups qui correspondent à HDFS blocs. "Le Parquet outils de fusion" seuls endroits row_groups après row_groups sans la fusion. Finalement, vous avez le même problème. Vous pouvez trouver plus d'explication dans ce billet. Vous avez également plus d'explication sur "row_groups" pour le parquet dans ce blog.
  • Suivant le billet mentionné par @Nastasia, ce problème ne sera pas résolu (du moins pour l'instant). De toute façon, la solution fournie par la fusion-outils est maintenant à émettre un avertissement (github.com/apache/parquet-mr/pull/433).
InformationsquelleAutor Shankar | 2016-07-27