Comment écrire pyspark dataframe de HDFS et puis comment le lire dans dataframe?

J'ai un très gros pyspark dataframe. Je tiens donc à effectuer le pré traitement sur des sous-ensembles, puis les stocker sur hdfs. Plus tard, j'ai envie de tous les lire et de les fusionner ensemble. Merci.

OriginalL'auteur Ajg | 2017-05-31

7
- écrit DataFrame de HDFS (Étincelle 1.6).
```
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
```
certaines des options de format sont csv, parquet, json etc.
- lecture DataFrame de HDFS (Étincelle 1.6).
```
sqlContext.read.format('parquet').load('/path/to/file') 
```
le format méthode prend en argument comme parquet, csv, json etc.

Hey je obtenir attributError : DataFrameWriter' objet n'a pas d'attribut " csv. Aussi j'ai besoin de lire que dataframe plus tard, c'est je pense dans la nouvelle étincelle de la session.
quelle est la version de votre étincelle de l'installation?
spark version 1.6.1
mise à jour de la réponse à réfléchir Étincelle de 1,6 API
Merci beaucoup. J'ai un doute, lors de la lecture de ce que si il y a plusieurs fichiers à cet emplacement. Comment spécifier le fichier à lire. Merci

OriginalL'auteur rogue-one

Vous devez vous connecter pour publier un commentaire.