Utiliser les pandas avec Spark

J'ai une Question de Noob sur la spark et les pandas. Je voudrais utiliser les pandas, numpy, etc.. avec spark, mais quand j'importe une lib j'ai une erreur. pouvez-vous m'aider plz?
C'est mon code

from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas

# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)

# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)

C'est l'erreur:

ImportError: No module named pandas

Comment puis-je utiliser les pandas? Ce n'est pas un mode local.

OriginalL'auteur Zop | 2017-01-23

6

Étincelle a sa propre Dataframe de l'objet qui peut être créé à partir de Rdd.

Vous pouvez toujours utiliser les bibliothèques comme numpy, mais vous devez installer en premier.

Il est possible d'importer ou d'installer ou de pousser le paquet avec l'étincelle soumettre?
Le paquet devrait être disponible à pyspark côté serveur. spark-submit envoie juste votre script, pas de ses dépendances, les bibliothèques, etc.

OriginalL'auteur AndreyF
3

Vous pouvez utiliser Apache Fléchées pour ce problème.

Apache Flèche

Il de la version initiale, mais sera plus puissant à l'avenir(voir).

Pour l'installation:
cliquez sur

OriginalL'auteur Beyhan Gül
1

De vérifier si vous avez les pandas installé dans votre boîte avec pip list|grep 'pandas' commande dans un terminal.Si vous avez une correspondance, puis faire une apt-get update.
Si vous utilisez multi-nœud de cluster , oui, vous avez besoin d'installer des pandas dans tous les la boîte de client.

Mieux d'essayer de spark version de DataFrame, mais si vous aimez utiliser les pandas de la méthode ci-dessus serait de travailler

OriginalL'auteur Abu Tahir

Vous devez vous connecter pour publier un commentaire.