Lecture de fichiers csv dans zeppelin en utilisant spark-csv

Je veux lire des fichiers csv Zeppelin et que vous souhaitez utiliser databricks'
spark-csv package: https://github.com/databricks/spark-csv

Dans l'étincelle-shell, je peux utiliser spark-csv avec

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0

Mais comment dois-je le dire Zeppelin à utiliser ce package?

Merci d'avance!

source d'informationauteur fabsta

apache-spark apache-zeppelin

14

Vous devez ajouter l'Étincelle dépôts de Paquets de Zeppelin avant de vous pouvez utiliser %dep sur la spark paquets.
```
%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.2.0")
```
Sinon, si c'est quelque chose que vous souhaitez avoir à votre disposition dans tous vos ordinateurs portables, vous pouvez ajouter l'option --option packages à l'étincelle soumettre paramètre de commande dans les interprètes config dans Zeppelin, puis redémarrez l'interprète. Cela devrait lancer un contexte avec le package déjà chargé comme par l'étincelle de la coquille de la méthode.
8
1. Aller à l'Interprète de l'onglet, cliquez sur Informations de Référentiel, ajouter une mise en pension et de définir l'URL de http://dl.bintray.com/spark-packages/maven
2. Faites défiler jusqu'à l'étincelle interprète point et cliquez sur modifier, faites défiler vers le bas un peu pour l'objet, champ et d'ajouter "com.databricks:spark-csv_2.10:1.2.0" ou une version plus récente. Ensuite, redémarrez l'interprète lorsque demandé.
3. Dans le carnet de notes, utilisez quelque chose comme:
```
import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") //Use first line of all files as header
    .option("inferSchema", "true") //Automatically infer data types
    .load("my_data.txt")
```
Mise à jour:

Dans le Zeppelin utilisateur liste de diffusion, c'est maintenant (Nov. 2016) a déclaré par Moon Soo Lee (créateur de Apache Zeppelin) que les utilisateurs préfèrent garder l' %dep, car elle permet de:
- l'auto-documentation bibliothèque des exigences dans le cahier;
- par Note (et possible par l'Utilisateur) de chargement de bibliothèque.
La tendance est maintenant de conserver %de la dep, de sorte qu'il ne devrait pas être considéré comme déprécié en ce moment.
4

DE COMMENCER-MODIFIER

%dep est obsolète dans Zeppelin 0.6.0. Veuillez vous reporter Paul-Armand Verhaegen réponse.

Veuillez lire plus loin dans cette réponse, si vous utilisez zeppelin de plus que la version 0.6.0

FIN-EDITION

Vous pouvez charger l'étincelle csv package à l'aide de %dep interprète.

comme,
```
%dep
z.reset()

//Add spark-csv package
z.load("com.databricks:spark-csv_2.10:1.2.0")
```
Voir la Dépendance de la section de Chargement dans https://zeppelin.incubator.apache.org/docs/interpreter/spark.html

Si vous avez déjà initialisé Étincelle Contexte, rapide solution est de redémarrer zeppelin et exécuter zeppelin paragraphe avec le code ci-dessus en premier et ensuite exécuter votre étincelle code pour lire le fichier CSV
1

Vous pouvez ajouter des fichiers jar en vertu de l'Étincelle Interprète dépendances:
1. Cliquez sur "Interprète" menu dans la barre de navigation.
2. Cliquez sur bouton "modifier" pour Spark interprète.
3. Remplir artefact et exclure des domaines.
4. Appuyez Sur "Enregistrer"
0

si vous définissez dans conf/zeppelin-env.sh
```
export SPARK_HOME=<PATH_TO_SPARK_DIST>
```
Zeppelin va ensuite chercher dans $SPARK_HOME/conf/spark-valeurs par défaut.conf et vous pouvez définir des pots:
```
spark.jars.packages                com.databricks:spark-csv_2.10:1.4.0,org.postgresql:postgresql:9.3-1102-jdbc41
```
puis regarder

http://zepplin_url:4040/environnement/pour les éléments suivants:

étincelle.pots file:/root/.ivy2/jars/com.databricks_spark-csv_2.10-1.4.0.jar,file:/root/.ivy2/jars/org.postgresql_postgresql-9.3-1102-jdbc41.jar

étincelle.les pots.les paquets com.databricks:spark-csv_2.10:1.4.0,org.postgresql:postgresql:9.3-1102-jdbc41

Pour plus d'référence: https://zeppelin.incubator.apache.org/docs/0.5.6-incubating/interpreter/spark.html
0

Une autre solution:

Dans conf/zeppelin-env.sh (situé dans /etc/zeppelin pour moi), ajouter la ligne:
```
export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.2.0"
```
Puis démarrer le service.

Vous devez vous connecter pour publier un commentaire.