Spark - csv option de lecture

Je suis en utilisant étincelle 2.1 et essayé de lire le fichier csv.

compile group: 'org.scala-lang', name: 'scala-library', version: '2.11.1'
compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.1.0'

Voici mon code.

import java.io.{BufferedWriter, File, FileWriter}
import java.sql.{Connection, DriverManager}
import net.sf.log4jdbc.sql.jdbcapi.ConnectionSpy
import org.apache.spark.sql.{DataFrame, SparkSession, Column, SQLContext}
import org.apache.spark.sql.functions._
import org.postgresql.jdbc.PgConnection

spark.read
    .option("charset", "utf-8")
    .option("header", "true")
    .option("quote", "\"")
    .option("delimiter", ",")
    .csv(...)

Il fonctionne bien. Le problème est que l'étincelle lire(DataFrameReader) touche option n'est pas même comme référence (lien). référence a dit que je devrais utiliser "encodage" pour l'encodage mais pas de travail, mais le jeu de caractères de travail. De référence est le problème?

OriginalL'auteur J.Done | 2017-07-21

apache-spark

3

Vous pouvez voir ici:
```
val charset = parameters.getOrElse("encoding", 
       parameters.getOrElse("charset",StandardCharsets.UTF_8.name()))
```
Encodage et le jeu de caractères sont des options valides, et vous devriez avoir aucun problème en utilisant soit lors de la configuration de l'encodage.

Charset est simplement là pour la prise en charge est à partir de quand l'étincelle csv code a été de la databricks étincelle csv projet, qui a été fusionné dans l'étincelle du projet depuis le 2.x. C'est également là qu'délimiteur (maintenant sep) vient de.

Remarque les valeurs par défaut pour le csv reader, vous pouvez le supprimer charset, devis, et le délimiteur de votre code, puisque vous êtes simplement en utilisant les valeurs par défaut. Ce qui vous laisse tout simplement:
```
spark.read.option("header", "true").csv(...)
```
Je m'a beaucoup aidé 🙂

OriginalL'auteur soote

Vous devez vous connecter pour publier un commentaire.