Lecture de fichiers csv dans zeppelin en utilisant spark-csv
Je veux lire des fichiers csv Zeppelin et que vous souhaitez utiliser databricks'
spark-csv package: https://github.com/databricks/spark-csv
Dans l'étincelle-shell, je peux utiliser spark-csv avec
spark-shell --packages com.databricks:spark-csv_2.11:1.2.0
Mais comment dois-je le dire Zeppelin à utiliser ce package?
Merci d'avance!
source d'informationauteur fabsta
Vous devez vous connecter pour publier un commentaire.
Vous devez ajouter l'Étincelle dépôts de Paquets de Zeppelin avant de vous pouvez utiliser %dep sur la spark paquets.
Sinon, si c'est quelque chose que vous souhaitez avoir à votre disposition dans tous vos ordinateurs portables, vous pouvez ajouter l'option --option packages à l'étincelle soumettre paramètre de commande dans les interprètes config dans Zeppelin, puis redémarrez l'interprète. Cela devrait lancer un contexte avec le package déjà chargé comme par l'étincelle de la coquille de la méthode.
Dans le carnet de notes, utilisez quelque chose comme:
Mise à jour:
Dans le Zeppelin utilisateur liste de diffusion, c'est maintenant (Nov. 2016) a déclaré par Moon Soo Lee (créateur de Apache Zeppelin) que les utilisateurs préfèrent garder l' %dep, car elle permet de:
La tendance est maintenant de conserver %de la dep, de sorte qu'il ne devrait pas être considéré comme déprécié en ce moment.
DE COMMENCER-MODIFIER
%dep est obsolète dans Zeppelin 0.6.0. Veuillez vous reporter Paul-Armand Verhaegen réponse.
Veuillez lire plus loin dans cette réponse, si vous utilisez zeppelin de plus que la version 0.6.0
FIN-EDITION
Vous pouvez charger l'étincelle csv package à l'aide de %dep interprète.
comme,
Voir la Dépendance de la section de Chargement dans https://zeppelin.incubator.apache.org/docs/interpreter/spark.html
Si vous avez déjà initialisé Étincelle Contexte, rapide solution est de redémarrer zeppelin et exécuter zeppelin paragraphe avec le code ci-dessus en premier et ensuite exécuter votre étincelle code pour lire le fichier CSV
Vous pouvez ajouter des fichiers jar en vertu de l'Étincelle Interprète dépendances:
si vous définissez dans conf/zeppelin-env.sh
Zeppelin va ensuite chercher dans $SPARK_HOME/conf/spark-valeurs par défaut.conf et vous pouvez définir des pots:
puis regarder
http://zepplin_url:4040/environnement/pour les éléments suivants:
Pour plus d'référence: https://zeppelin.incubator.apache.org/docs/0.5.6-incubating/interpreter/spark.html
Une autre solution:
Dans conf/zeppelin-env.sh (situé dans /etc/zeppelin pour moi), ajouter la ligne:
Puis démarrer le service.