écraser une étincelle de sortie à l'aide de pyspark
Je suis en train d'écraser une Étincelle dataframe à l'aide de l'option suivante dans PySpark mais je ne réussis pas
spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)
la mode=remplacer la commande n'est pas réussie
OriginalL'auteur Devesh | 2016-03-08
Vous devez vous connecter pour publier un commentaire.
Essayer:
doc.write.format('json').mode("append").option("header","true").save(/path/to/hdfs_file)
OriginalL'auteur
Étincelle 1.4 et ci-dessus a construit dans le csv fonction de la dataframewriter
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter
par exemple
Qui est sucre syntaxique pour
Je pense que ce qui est déroutant, c'est de trouver exactement où les options sont disponibles pour chaque format de la documentation.
Écrire ces méthodes connexes appartiennent à la
DataFrameWriter
classe:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter
La
csv
méthode a ces options disponibles, également disponible lors de l'utilisation deformat("csv")
:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.csv
La façon dont vous avez besoin pour fournir des paramètres dépend aussi de si la méthode ne prend qu'un seul
(key, value)
tuple ou mot-clé args. C'est assez standard pour la façon python fonctionne généralement bien, en utilisant (*args, **kwargs), cela diffère de la Scala de syntaxe.Par exemple
Le
option(key, value)
méthode prend une option comme un tuple commeoption(header,"true")
et la.options(**options)
méthode prend un tas de mot-clé affectations par exemple.options(header="true",sep="\t")
OriginalL'auteur Davos