Écriture d'un seul fichier CSV à l'aide de l'étincelle-csv

Je suis en utilisant https://github.com/databricks/spark-csv , je suis en train d'écrire un seul CSV, mais pas en mesure de le faire, c'est de faire un dossier.

Besoin d'un Scala fonction qui prendra en paramètre comme chemin d'accès et nom de fichier et écrire que fichier CSV.

InformationsquelleAutor user1735076 | 2015-07-28

134

C'est la création d'un dossier avec plusieurs fichiers, parce que chaque partition est enregistré individuellement. Si vous avez besoin d'un fichier de sortie unique (dans un dossier), vous pouvez repartition (de préférence si en amont des données est grande, mais nécessite une lecture aléatoire):
```
df
   .repartition(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")
```
ou coalesce:
```
df
   .coalesce(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")
```
bloc de données avant de les enregistrer:

Toutes les données seront écrites dans mydata.csv/part-00000. Avant d'utiliser cette option assurez-vous de comprendre ce qui se passe et quel est le coût de transfert de toutes les données à un seul travailleur. Si vous utilisez le système de fichiers distribués avec la réplication, les données seront transférées à de nombreuses reprises, d'abord extraites d'un seul travailleur et par la suite répartis sur les nœuds de stockage.

Alternativement, vous pouvez laisser votre code comme il est et l'utilisation à des fins générales des outils comme cat ou HDFS getmerge tout simplement de fusionner toutes les pièces par la suite.
- vous pouvez utiliser fusionnent également : df.fusionner(1).écrire.format("com.databricks.spark.csv") .option("en-tête", "true") .enregistrer("mydata.csv")
- spark 1.6 renvoie une erreur lorsque nous avons mis en .coalesce(1) il dit que certains FileNotFoundException sur _temporary répertoire. C'est encore un bug dans spark : issues.apache.org/jira/browse/SPARK-2984
- Peu probable. Plutôt qu'à une simple suite de coalesce(1) être très coûteux et généralement pas pratique.
- Convenu @zero323, mais si vous avez une exigence particulière de consolider en un seul fichier, il devrait toujours être possible étant donné que vous avez suffisamment de ressources et de temps.
- Je ne dis pas que cela n'existe pas. Si vous paramétrer correctement GC il devrait fonctionner très bien, mais c'est tout simplement un gaspillage de temps et probablement nuira à la performance globale. Donc personnellement je ne vois pas de raison de s'embêter surtout depuis qu'il est carrément simple de fusionner des fichiers à l'extérieur de l'Étincelle sans se soucier de l'utilisation de la mémoire à tous.
- Je suis nouveau sur des données de briques et d'essayer de sauver mon résultat dans le fichier CSV et sa fonctionne bien. Peut-on renommer ce fichier CSV tout en économisant de l'-il à présent le nom de fichier commence comme ça "part_0000" et je veux l'enregistrer en tant que "de l'échantillon.csv". Que dois-je faire pour cela?
- Et bien, j'ai ma solution en utilisant simplement la commande de déplacement dbutils.fs.mv(source, destination)
InformationsquelleAutor zero323
33

Si vous exécutez Étincelle avec HDFS, j'ai résolu le problème en écrivant des fichiers csv normalement et en tirant parti de HDFS pour faire la fusion. Je suis en train de faire que Spark (1.6) directement:
```
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

def merge(srcPath: String, dstPath: String): Unit =  {
   val hadoopConfig = new Configuration()
   val hdfs = FileSystem.get(hadoopConfig)
   FileUtil.copyMerge(hdfs, new Path(srcPath), hdfs, new Path(dstPath), true, hadoopConfig, null) 
   //the "true" setting deletes the source files once they are merged into the new output
}


val newData = << create your dataframe >>


val outputfile = "/user/feeds/project/outputs/subject"  
var filename = "myinsights"
var outputFileName = outputfile + "/temp_" + filename 
var mergedFileName = outputfile + "/merged_" + filename
var mergeFindGlob  = outputFileName

    newData.write
        .format("com.databricks.spark.csv")
        .option("header", "false")
        .mode("overwrite")
        .save(outputFileName)
    merge(mergeFindGlob, mergedFileName )
    newData.unpersist()
```
Ne me souviens pas où j'ai appris ce truc, mais il pourrait fonctionner pour vous.
- Cela peut-il fonctionner avec S3 banques de données?
- Je n'ai pas essayé - et suspect, il peut ne pas être simple.
- Merci. J'ai ajout d'une réponse qui travaille sur Databricks
- j'ai le même problème, mais pas en mesure de le faire correctement ..Pouvez-vous s'il vous plaît regardez cette question stackoverflow.com/questions/46812388/...
- Ma fonction ci-dessus fonctionne avec des données non compressées. Dans votre exemple, je pense que vous êtes en utilisant la compression gzip comme vous écrivez des fichiers - et puis après essayer de fusionner ces ensemble qui échoue. Ce n'est pas aller au travail, que vous ne pouvez pas fusionner des fichiers gzip ensemble. Gzip n'est pas Splittable algorithme de Compression, donc certainement pas "mergable". Vous pouvez faire le test "snappy" ou "bz2" compression - mais l'instinct est ceci ne fonctionnera pas trop sur la fusion. Probablement le meilleur, le mieux est de supprimer la compression, fusion des fichiers raw, puis de compresser à l'aide d'un splittable codec.
- et si je veux préserver l'en-tête? il reprend pour chaque fichier de la partie
- J'ai vu dans les dernières versions de spark que le databricks utilitaires peuvent répondre à cette question. Le Parquet est une excellente option si disponible pour vous.
InformationsquelleAutor Minkymorgan
22

Je suis peut-être un peu tard pour le jeu ici, mais à l'aide de coalesce(1) ou repartition(1) peut travailler pour de petits ensembles de données, mais de grands ensembles de données seront tous jetés dans une partition sur un nœud. C'est probablement à jeter OOM erreurs, ou, au mieux, processus lentement.

Je vous suggère fortement que vous utilisez le FileUtil.copyMerge() fonction de l'Hadoop API. Cela permettra de fusionner les sorties dans un fichier unique.

MODIFIER - Ce effectivement regroupe les données pour le conducteur plutôt que d'un exécuteur testamentaire nœud. Coalesce() serait bien si un seul exécuteur testamentaire a plus de RAM pour que le pilote.

EDIT 2: copyMerge() est retiré dans Hadoop 3.0. Voir la suite de débordement de pile dans l'article pour plus d'informations sur la façon de travailler avec la version la plus récente: Hadoop comment faire CopyMerge dans Hadoop 3.0
- Toute réflexion sur la façon d'obtenir un csv avec une ligne d'en-tête de cette façon? Ne voulez pas d'avoir le fichier de produire un en-tête, parce que ce serait intercaler des en-têtes dans le fichier, un pour chaque partition.
- Il y a une option que j'ai utilisé dans le passé documenté ici: markhneedham.com/blog/2014/11/30/...
- copyMerge est supprimé dans la version 3.0 libs.
- Merci @woot j'ai mis à jour la réponse
- Cool. Je n'ai toujours pas vraiment une bonne façon de le faire, malheureusement, car j'ai besoin d'être capable de le faire en Java (ou une Étincelle, mais dans un sens qui ne consomment pas beaucoup de mémoire, et permet de travailler avec de gros fichiers). Je ne peux toujours pas croire qu'ils ont enlevé cet appel d'API... c'est un très commun de l'utilisation, même si pas exactement utilisé par d'autres applications dans l'écosystème Hadoop.
InformationsquelleAutor etspaceman
14

Si vous utilisez Databricks et peut s'adapter à toutes les données dans la RAM sur un des travailleurs (et donc possible d'utiliser .coalesce(1)), vous pouvez utiliser dbfs pour trouver et déplacer le fichier CSV ainsi obtenu:
```
val fileprefix= "/mnt/aws/path/file-prefix"

dataset
  .coalesce(1)       
  .write             
//.mode("overwrite") //I usually don't use this, but you may want to.
  .option("header", "true")
  .option("delimiter","\t")
  .csv(fileprefix+".tmp")

val partition_path = dbutils.fs.ls(fileprefix+".tmp/")
     .filter(file=>file.name.endsWith(".csv"))(0).path

dbutils.fs.cp(partition_path,fileprefix+".tab")

dbutils.fs.rm(fileprefix+".tmp",recurse=true)
```
Si votre fichier ne rentre pas dans la RAM sur le travailleur, vous pourriez envisager de chaotic3quilibrium la suggestion d'utiliser FileUtils.copyMerge(). Je n'ai pas fait, et ne savons pas encore si c'est possible ou pas, par exemple, sur S3.

Cette réponse est construit sur les précédentes réponses à cette question ainsi que mes propres tests de l'extrait de code. J'ai posté à Databricks et je suis le rééditer ici.

La meilleure documentation pour dbfs du rm est récursif option que j'ai trouvé est sur un Databricks forum.

InformationsquelleAutor Josiah Yoder
2

repartitionner/fusionner pour 1 partition avant de vous enregistrer (si vous souhaitez toujours obtenir un dossier, mais il aurait une partie de fichier)

InformationsquelleAutor Arnon Rotem-Gal-Oz
2

vous pouvez utiliser rdd.coalesce(1, true).saveAsTextFile(path)

il va stocker des données comme singile fichier dans le chemin d'accès/partie-00000

InformationsquelleAutor Gourav

Une solution qui fonctionne pour S3 modifié à partir de Minkymorgan.

Tout simplement passer le temporaire partitionné chemin d'accès au répertoire (avec un nom différent de chemin final) comme le srcPath et seule finale d'un fichier csv/txt comme destPath Spécifier également deleteSource si vous souhaitez supprimer le répertoire d'origine.

/**
* Merges multiple partitions of spark text file output into single file. 
* @param srcPath source directory of partitioned files
* @param dstPath output path of individual path
* @param deleteSource whether or not to delete source directory after merging
* @param spark sparkSession
*/
def mergeTextFiles(srcPath: String, dstPath: String, deleteSource: Boolean): Unit =  {
  import org.apache.hadoop.fs.FileUtil
  import java.net.URI
  val config = spark.sparkContext.hadoopConfiguration
  val fs: FileSystem = FileSystem.get(new URI(srcPath), config)
  FileUtil.copyMerge(
    fs, new Path(srcPath), fs, new Path(dstPath), deleteSource, config, null
  )
}

InformationsquelleAutor John Zhu

0

de la spark df.write() API va créer plusieurs fichiers de pièce à l'intérieur de chemin ... à force étincelle écrire qu'une seule partie, l'utilisation du fichier de df.coalesce(1).write.csv(...) au lieu de df.repartition(1).write.csv(...) que se rejoignent une étroite transformation alors que répartition est une grande transformation de voir Spark - répartition() vs fusionnent()
```
df.coalesce(1).write.csv(filepath,header=True) 
```
va créer un dossier dans filepath avec un part-0001-...-c000.csv fichier
utilisation
```
cat filepath/part-0001-...-c000.csv > filename_you_want.csv 
```
d'avoir une interface utilisateur conviviale pour le nom de fichier

InformationsquelleAutor prasad gaikwad

-2

Il y a un moyen de plus pour utiliser Java

import java.io._

def printToFile(f: java.io.File)(op: java.io.PrintWriter => Unit) 
  {
     val p = new java.io.PrintWriter(f);  
     try { op(p) } 
     finally { p.close() }
  } 

printToFile(new File("C:/TEMP/df.csv")) { p => df.collect().foreach(p.println)}

le nom de "vrai" n'est pas défini
Je ne sais pas ce que peut être, pour moi fonctionne bien

InformationsquelleAutor Sergio Alyoshkin

Vous devez vous connecter pour publier un commentaire.