exécution du script pyspark sur EMR

Je suis actuellement automatiser mon Apache Spark Pyspark scripts en utilisant des groupes de EC2s à l'aide des Étincelles préconfiguré ./ec2 répertoire. Pour l'automatisation et les besoins de l'horaire, je voudrais utiliser Boto DME module pour envoyer des scripts pour le cluster.

J'ai été capable de lancer et installer Étincelle sur un cluster de Dme. Je suis aussi capable de lancer un script sur les EMR à l'aide de mon local machine est la version de pyspark, et réglage maître comme tel:

$: MASTER=spark://<insert EMR master node of cluster here> ./bin/pyspark <myscriptname.py>

Cependant, cela m'oblige à exécuter ce script en local, et donc je ne suis pas en mesure de tirer pleinement parti de Boto capacité de 1) démarrer le cluster 2) ajouter le script étapes et 3) arrêter le cluster. J'ai trouvé des exemples d'utilisation de script-runner.sh et dme "étape" des commandes pour spark-shell (scala), mais je suppose que il y a un moyen plus facile de le faire avec le module Python (pyspark). Merci beaucoup à l'avance!

source d'informationauteur Matt

apache-spark python

8

Ici est un excellent exemple de la manière dont elle doit être configuré. Accédez à "Un exemple" pour le code Python.

Cependant, afin de rendre les choses de travail dans les emr-4.7.2, quelques modifications ont dû être apportées, voici donc une AWS commande CLI qui a fonctionné pour moi:
```
aws emr add-steps --cluster-id <Your EMR cluster id> --steps Type=spark,Name=TestJob,Args=[--deploy-mode,cluster,--master,yarn,--conf,spark.yarn.submit.waitAppCompletion=true,s3a://your-source-bucket/code/pythonjob.py,s3a://your-source-bucket/data/data.csv,s3a://your-destination-bucket/test-output/],ActionOnFailure=CONTINUE
```
Et ici est un contenu de pythonjob.py fichier:
```
from __future__ import print_function
from pyspark import SparkContext
import sys
if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: testjob  ", file=sys.stderr)
        exit(-1)
    sc = SparkContext(appName="MyTestJob")
    dataTextAll = sc.textFile(sys.argv[1])
    dataRDD = dataTextAll.map(lambda x: x.split(",")).map(lambda y: (str(y[0]), float(y[1]))).reduceByKey(lambda a, b: a + b)
    dataRDD.saveAsTextFile(sys.argv[2])
    sc.stop()
```
Il lit le data.csv fichier à partir de S3, divise chaque ligne, convertit la première valeur à la chaîne et un deuxième pour le float, les groupes en première valeur et la somme des valeurs dans la deuxième colonne, et écrit le résultat dans S3.

Quelques commentaires:
- J'ai décidé de quitter spark.yarn.submit.waitAppCompletion=true donc
  que je puisse suivre l'exécution du travail dans la console.
- D'entrée et de sortie des chemins (sys.argv[1] et sys.argv[2] respectivement) sont passés au script dans le cadre de l'emploi sumbission (Args section dans add-steps de commande).
- Être conscient que vous devez utiliser s3a:// URI au lieu de s3n:// et s3:// pour Hadoop de 2,7+ lors de la configuration de votre travail.
- Si votre cluster est en VPC, vous devez créer un VPC point de Terminaison pour Amazon S3 si vous avez l'intention de lecture/écriture à partir de là, votre système de DME emplois.
3

Cela peut être utile si elle n'utilise pas de boto.

Utiliser aws cli pour créer le cluster et ajouter des étapes(étincelle d'emploi).

1)Créer le cluster:
```
aws emr create-cluster --name "Spark cluster" --ami-version 3.8 --applications Name=Spark --ec2-attributes KeyName=ir --log-uri s3://Path/logs --instance-type m3.xlarge  --instance-count 1 --use-default-roles 
```
2) ajouter une étape(étincelle). Notez que votre script python doit être stocké dans le nœud maître(dans ce cas, il est dans /home/hadoop/spark ).
```
aws emr add-steps --cluster-id j-xxxxxxx --steps Name=Spark,Jar=s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=[/home/hadoop/spark/bin/spark-submit,--deploy-mode,client,/home/hadoop/spark/myscript.py],ActionOnFailure=CONTINUE
```
vous pouvez également combiner deux étapes en une, et la création d'un cluster/exécuter le travail et de mettre fin au cluster.

Quelques remarques: 1)j'ai essayé plusieurs façons de lire le script à partir de S3 mais pas de Chance 🙁

j'ai donc fini par copier en utilisant soit boto ou aws de la cli pour le nœud. 2) depuis que j'ai été le tester que sur un nœud de dme à la déployer mode à l'étape de la part du client, pour le client, vous devez changer l'état de cluster.
1

vous avez besoin de changer le déployer en mode cluster (au lieu de client) à l'accès du script à partir de S3.

Vous devez vous connecter pour publier un commentaire.