Comment faire pour convertir un fichier JSON pour le parquet à l'aide d'Apache Spark?
Je suis nouveau sur Apache Spark 1.3.1. Comment puis-je convertir un fichier JSON pour Parquet?
Vous pouvez également utiliser Apache Drill (peut-être plus facile pour l'installation), vous pouvez convertir en JSON à partir d'un local-système de fichiers HDFS Parquet en 1 ligne de SQL: "CRÉER une TABLE de dfs.de forage.
/test5/
As (SELECT * from dfs.gen./2016/10/*/*.json
e);", si vous êtes intéressé => drill.apache.org/docs/parquet-format.OriginalL'auteur eddard.stark | 2016-01-12
Vous devez vous connecter pour publier un commentaire.
Étincelle 1.4 et plus tard
Vous pouvez utiliser sparkSQL d'abord à lire le fichier JSON dans un DataFrame, alors l'écriture du DataFrame que le parquet de fichier.
ou
Vérifier ici et ici pour des exemples et plus de détails.
Étincelle 1.3.1
Problème lié à Windows et Étincelle 1.3.1
De l'enregistrement d'un DataFrame comme un parquet de fichier sur Windows va jeter un
java.lang.NullPointerException
, comme décrit ici.Dans ce cas, veuillez considérer que la mise à niveau vers une plus récente Spark version.
Je suis en utilisant scala
J'ai mis à jour ma réponse à inclure Étincelle 1.3.1
l'obtention d'un NullPointerException quand j'essaie de saveAsParquetFile
Êtes-vous essayer cette Spark Coquille ou dans certains IDE?
OriginalL'auteur Rami