Comment exporter DataFrame de csv en Scala?

Comment puis-je exporter Étincelle du DataFrame de fichier csv à l'aide de la Scala?

OriginalL'auteur Tong | 2015-09-11

11

Plus simple et la meilleure façon de le faire est d'utiliser spark-csv de la bibliothèque. Vous pouvez vérifier la documentation dans le lien fourni et ici est la scala exemple de la façon de charger et de sauvegarder des données depuis/vers DataFrame.

Code (Étincelle De 1,4+):
```
dataFrame.write.format("com.databricks.spark.csv").save("myFile.csv")
```
Edit:

Étincelle crée des fichiers lors de l'enregistrement des données au format csv, si vous souhaitez fusionner la partie des fichiers en un seul au format csv, veuillez consulter le texte suivant:

Fusion de la Spark CSV dossier de sortie en un Seul Fichier

OriginalL'auteur karthik manchala
7

Solution ci-dessus, les exportations csv comme plusieurs partitions. J'ai trouvé une autre solution par zero323 sur ce stackoverflow page que les exportations d'un dataframe en un seul fichier CSV lorsque vous utilisez coalesce.
```
df.coalesce(1)
  .write.format("com.databricks.spark.csv")
  .option("header", "true")
  .save("/your/location/mydata")
```
Cela permettrait de créer un répertoire nommé mydata où vous trouverez un csv fichier qui contient les résultats.

OriginalL'auteur Abu Shoeb
6

Dans Étincelle verions 2+ vous pouvez simplement utiliser la suivante;
```
df.write.csv("/your/location/data.csv")
```
Si vous voulez vous assurer que les fichiers ne sont plus partitionné puis ajouter un .coalesce(1) comme suit;
```
df.coalesce(1).write.csv("/your/location/data.csv")
```
Peut-on renommer le part_0000 fichier?
Vous pouvez facilement renommer après c'est écrit si vous le souhaitez en utilisant cp <old filepath> <new filepath> (ou hdfs dfs -cp <old filepath> <new filepath> si le fichier est toujours dans hdfs) pour copier le fichier à son emplacement actuel, mais avec le nouveau nom

OriginalL'auteur Taylrl

Vous devez vous connecter pour publier un commentaire.