Comment écrire dans un fichier CSV dans Spark

J'essaie de trouver un moyen efficace de sauvegarder le résultat de mon Étincelle d'Emploi en tant que fichier csv. Je suis à l'aide d'Étincelle avec Hadoop et jusqu'à présent, tous mes fichiers sont enregistrés comme part-00000.

Des idées comment faire pour que mon étincelle enregistrement dans un fichier avec un nom de fichier spécifié?

Double Possible de Comment écrire le résultant CA dans un fichier csv dans Spark python
étant donné les circonstances, que la question d'un éventuel doublon de celui-ci :]
Le contenu des sujets a plus, que le calendrier, mais c'est très bien. Vous avez fait une grande question, c'est pourquoi je upvoted trop! 🙂
Double Possible de Écriture d'un seul fichier CSV à l'aide de l'étincelle-csv

InformationsquelleAutor Karusmeister | 2014-05-07

52

Depuis Étincelle utilise Hadoop Système de Fichiers de l'API pour écrire des données dans les fichiers, c'est en quelque sorte inévitable. Si vous ne
```
rdd.saveAsTextFile("foo")
```
Il sera enregistré en tant que "foo/part-XXXXX" avec un* fichier de chaque partition de la RDD vous essayez d'enregistrer. La raison pour chaque partition dans la RDD est écrit dans un fichier distinct est pour la tolérance de panne. Si la tâche de l'écriture de la 3ème partition (c'est à dire à part-00002) échoue, Étincelle, il suffit de ré-exécuter la tâche et de remplacer la partie écrite/endommagé part-00002, n'ayant pas d'effet sur d'autres parties. Si ils ont tous écrit pour le même fichier, il est beaucoup plus difficile de récupérer une seule tâche pour les échecs.

La part-XXXXX fichiers sont généralement pas un problème si vous allez consommer de nouveau dans Spark /Hadoop-fondé des cadres, parce que depuis qu'ils utilisent tous HDFS API, si vous leur demandez de lire "foo", ils seront tous de lire tous les part-XXXXX fichiers à l'intérieur de foo ainsi.
- Merci, c'est très agréable d'explications et de réponses à ma question complètement.
- Vous pouvez ensuite utiliser le hdfs commande de fusion et de les emballer dans un seul fichier: hdfs dfs -getmerge <src-directory> <dst-file>
- Si les données obtenues sont petites et d'un seul fichier de sortie serait de commodité, vous pouvez toujours répartition de vos données dans un seul fichier de sortie avec repartition(1). Qui devrait seulement être fait avec les données de petite taille, par exemple, lorsque vous souhaitez main sur un CSV à un analyste de regarder dans Excel.
- Vous pouvez aussi vérifier coalesce(1)
- La réponse @MFARID enregistre un shuffle étape.
InformationsquelleAutor Tathagata Das

Je vous suggère de le faire de cette manière (exemple Java):

theRddToPrint.coalesce(1, true).saveAsTextFile(textFileName);
FileSystem fs = anyUtilClass.getHadoopFileSystem(rootFolder);
FileUtil.copyMerge(
    fs, new Path(textFileName),
    fs, new Path(textFileNameDestiny),
    true, fs.getConf(), null);

Bonne réponse, y compris les informations requises.

InformationsquelleAutor adoalonso

3

Il est un autre approche basée sur Hadoop système de fichiers ops.
- s'il vous plaît ajouter des éléments essentiels de la réponse à la poste avec le lien. le lien peut être mort après quelque temps.
InformationsquelleAutor pls

L'extension de Tathagata Das réponse à Spark 2.x et Scala 2.11

Utilisant Spark SQL, nous pouvons le faire en un paquebot

//implicits for magic functions like .toDf
import spark.implicits._

val df = Seq(
  ("first", 2.0),
  ("choose", 7.0),
  ("test", 1.5)
).toDF("name", "vals")

//write DataFrame/DataSet to external storage
df.write
  .format("csv")
  .save("csv/file/location")

Ensuite, vous pouvez aller tête et de procéder à adoalonso's réponse.

InformationsquelleAutor mrsrinivas

1

J'ai une idée, mais n'est pas prêt extrait de code. En interne (comme le nom l'indique) Étincelle utilise Hadoop format de sortie. (ainsi que InputFormat lors de la lecture de HDFS).

Dans hadoop est FileOutputFormat il est membre protégé setOutputFormat, que vous pouvez appeler à partir de la classe héritée de définir un ensemble de nom de base.

InformationsquelleAutor David Gruzman
0

Ce n'est pas vraiment une solution propre, mais à l'intérieur d'un foreachRDD() vous pouvez faire ce que vous voulez, aussi créer un nouveau fichier.

Dans ma solution c'est ce que je fais: je enregistrer la sortie sur HDFS (pour la tolérance aux pannes raisons), et à l'intérieur d'un foreachRDD j'ai aussi créer un fichier TSV avec des statistiques dans un dossier local.

Je pense que vous pourriez probablement faire la même chose si c'est ce que vous avez besoin.

http://spark.apache.org/docs/0.9.1/streaming-programming-guide.html#output-operations

InformationsquelleAutor gprivitera

Vous devez vous connecter pour publier un commentaire.