Erreur _corrupt_record lors de la lecture d'un fichier JSON dans Spark

J'ai ce fichier JSON

{
    "a": 1, 
    "b": 2
}

qui a été obtenu avec Python json.méthode de vidage.
Maintenant, je veux lire ce fichier dans un DataFrame Spark, à l'aide de pyspark. En suivant la documentation, je suis en train de faire ce

sc = SparkContext()

sqlc = SQLContext(sc)

df = sqlc.lire.json('my_file.json')

impression df.show()

L'instruction print crache sur ce bien:

+---------------+
|_corrupt_record|
+---------------+
|              {|
|       "a": 1, |
|         "b": 2|
|              }|
+---------------+

Quelqu'un sait ce qu'il se passe et pourquoi il n'est pas d'interpréter correctement le fichier?

source d'informationauteur mar tin

29

Vous avez besoin d'avoir un objet json par ligne dans votre fichier d'entrée, voir http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json

Si votre fichier json ressemble à cela, il va vous donner l'attend dataframe:
```
{ "a": 1, "b": 2 }
{ "a": 3, "b": 4 }

....
df.show()
+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  3|  4|
+---+---+
```
11

Si vous voulez laisser votre fichier JSON comme elle est (sans la dépouiller de nouvelles lignes de caractères \n), comprennent multiLine=True argument mot-clé
```
sc = SparkContext() 
sqlc = SQLContext(sc)

df = sqlc.read.json('my_file.json', multiLine=True)

print df.show()
```

L'ajout de @Bernhard grande réponse

# original file was written with pretty-print inside a list
with open("pretty-printed.json") as jsonfile:
    js = json.load(jsonfile)      

# write a new file with one object per line
with open("flattened.json", 'a') as outfile:
    for d in js:
        json.dump(d, outfile)
        outfile.write('\n')

0

Spark 2.2+ vous pouvez lire fichier json de multiligne utilisant la commande suivante.
```
val dataframe = spark.read.option("multiline",true).json( " filePath ")
```
si il n'y a d'objet json par ligne puis,
```
val dataframe = spark.read.json(filepath)
```

Vous devez vous connecter pour publier un commentaire.