Comment faire pour convertir un fichier JSON pour le parquet à l'aide d'Apache Spark?

Je suis nouveau sur Apache Spark 1.3.1. Comment puis-je convertir un fichier JSON pour Parquet?

Vous pouvez également utiliser Apache Drill (peut-être plus facile pour l'installation), vous pouvez convertir en JSON à partir d'un local-système de fichiers HDFS Parquet en 1 ligne de SQL: "CRÉER une TABLE de dfs.de forage./test5/ As (SELECT * from dfs.gen./2016/10/*/*.json e);", si vous êtes intéressé => drill.apache.org/docs/parquet-format.

OriginalL'auteur eddard.stark | 2016-01-12

12

Étincelle 1.4 et plus tard

Vous pouvez utiliser sparkSQL d'abord à lire le fichier JSON dans un DataFrame, alors l'écriture du DataFrame que le parquet de fichier.
```
val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")
```
ou
```
df.save("path/to/parquet/file", "parquet")
```
Vérifier ici et ici pour des exemples et plus de détails.

Étincelle 1.3.1
```
val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")
```
Problème lié à Windows et Étincelle 1.3.1

De l'enregistrement d'un DataFrame comme un parquet de fichier sur Windows va jeter un java.lang.NullPointerException, comme décrit ici.

Dans ce cas, veuillez considérer que la mise à niveau vers une plus récente Spark version.

Je suis désolé. Je suis en train de faire maintenant.
Je suis en utilisant scala
J'ai mis à jour ma réponse à inclure Étincelle 1.3.1
l'obtention d'un NullPointerException quand j'essaie de saveAsParquetFile
Êtes-vous essayer cette Spark Coquille ou dans certains IDE?

OriginalL'auteur Rami

Vous devez vous connecter pour publier un commentaire.