Plus simple et la meilleure façon de le faire est d'utiliser spark-csv de la bibliothèque. Vous pouvez vérifier la documentation dans le lien fourni et ici est la scala exemple de la façon de charger et de sauvegarder des données depuis/vers DataFrame.
Étincelle crée des fichiers lors de l'enregistrement des données au format csv, si vous souhaitez fusionner la partie des fichiers en un seul au format csv, veuillez consulter le texte suivant:
Solution ci-dessus, les exportations csv comme plusieurs partitions. J'ai trouvé une autre solution par zero323 sur ce stackoverflow page que les exportations d'un dataframe en un seul fichier CSV lorsque vous utilisez coalesce.
Peut-on renommer le part_0000 fichier? Vous pouvez facilement renommer après c'est écrit si vous le souhaitez en utilisant cp <old filepath> <new filepath> (ou hdfs dfs -cp <old filepath> <new filepath> si le fichier est toujours dans hdfs) pour copier le fichier à son emplacement actuel, mais avec le nouveau nom
Plus simple et la meilleure façon de le faire est d'utiliser
spark-csv
de la bibliothèque. Vous pouvez vérifier la documentation dans le lien fourni etici
est la scala exemple de la façon de charger et de sauvegarder des données depuis/vers DataFrame.Code (Étincelle De 1,4+):
Edit:
Étincelle crée des fichiers lors de l'enregistrement des données au format csv, si vous souhaitez fusionner la partie des fichiers en un seul au format csv, veuillez consulter le texte suivant:
Fusion de la Spark CSV dossier de sortie en un Seul Fichier
OriginalL'auteur karthik manchala
Solution ci-dessus, les exportations csv comme plusieurs partitions. J'ai trouvé une autre solution par zero323 sur ce stackoverflow page que les exportations d'un dataframe en un seul fichier CSV lorsque vous utilisez
coalesce
.Cela permettrait de créer un répertoire nommé
mydata
où vous trouverez uncsv
fichier qui contient les résultats.OriginalL'auteur Abu Shoeb
Dans Étincelle verions 2+ vous pouvez simplement utiliser la suivante;
Si vous voulez vous assurer que les fichiers ne sont plus partitionné puis ajouter un
.coalesce(1)
comme suit;Vous pouvez facilement renommer après c'est écrit si vous le souhaitez en utilisant
cp <old filepath> <new filepath>
(ouhdfs dfs -cp <old filepath> <new filepath>
si le fichier est toujours dans hdfs) pour copier le fichier à son emplacement actuel, mais avec le nouveau nomOriginalL'auteur Taylrl