Utiliser les pandas avec Spark
J'ai une Question de Noob sur la spark et les pandas. Je voudrais utiliser les pandas, numpy, etc.. avec spark, mais quand j'importe une lib j'ai une erreur. pouvez-vous m'aider plz?
C'est mon code
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
C'est l'erreur:
ImportError: No module named pandas
Comment puis-je utiliser les pandas? Ce n'est pas un mode local.
OriginalL'auteur Zop | 2017-01-23
Vous devez vous connecter pour publier un commentaire.
Étincelle a sa propre Dataframe de l'objet qui peut être créé à partir de Rdd.
Vous pouvez toujours utiliser les bibliothèques comme numpy, mais vous devez installer en premier.
Le paquet devrait être disponible à
pyspark
côté serveur.spark-submit
envoie juste votre script, pas de ses dépendances, les bibliothèques, etc.OriginalL'auteur AndreyF
Vous pouvez utiliser Apache Fléchées pour ce problème.
Apache Flèche
Il de la version initiale, mais sera plus puissant à l'avenir(voir).
Pour l'installation:
cliquez sur
OriginalL'auteur Beyhan Gül
De vérifier si vous avez les pandas installé dans votre boîte avec
pip list|grep 'pandas'
commande dans un terminal.Si vous avez une correspondance, puis faire uneapt-get update
.Si vous utilisez multi-nœud de cluster , oui, vous avez besoin d'installer des pandas dans tous les la boîte de client.
Mieux d'essayer de spark version de DataFrame, mais si vous aimez utiliser les pandas de la méthode ci-dessus serait de travailler
OriginalL'auteur Abu Tahir