Étincelle de multiples contextes

En bref :

EC2 cluster: 1 master 3 esclaves

Spark version : 1.3.1

Je souhaite utiliser l'option étincelle.le pilote.allowMultipleContexts, un contexte local (maître uniquement) et un cluster (maître et esclaves).

- Je obtenir ce stacktrace erreur (ligne 29 est là que j'appelle l'objet d'initialiser la deuxième sparkcontext) :

fr.entry.Main.main(Main.scala)
at org.apache.spark.SparkContext$$anonfun$assertNoOtherContextIsRunning$1$$anonfun$apply$10.apply(SparkContext.scala:1812)
at org.apache.spark.SparkContext$$anonfun$assertNoOtherContextIsRunning$1$$anonfun$apply$10.apply(SparkContext.scala:1808)
at scala.Option.foreach(Option.scala:236)
at org.apache.spark.SparkContext$$anonfun$assertNoOtherContextIsRunning$1.apply(SparkContext.scala:1808)
at org.apache.spark.SparkContext$$anonfun$assertNoOtherContextIsRunning$1.apply(SparkContext.scala:1795)
at scala.Option.foreach(Option.scala:236)
at org.apache.spark.SparkContext$.assertNoOtherContextIsRunning(SparkContext.scala:1795)
at org.apache.spark.SparkContext$.setActiveContext(SparkContext.scala:1847)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:1754)
at fr.entry.cluster$.<init>(Main.scala:79)
at fr.entry.cluster$.<clinit>(Main.scala)
at fr.entry.Main$delayedInit$body.apply(Main.scala:29)
at scala.Function0$class.apply$mcV$sp(Function0.scala:40)
at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12)
at scala.App$$anonfun$main$1.apply(App.scala:71)
at scala.App$$anonfun$main$1.apply(App.scala:71)
at scala.collection.immutable.List.foreach(List.scala:318)
at scala.collection.generic.TraversableForwarder$class.foreach(TraversableForwarder.scala:32)
at scala.App$class.main(App.scala:71)
at fr.entry.Main$.main(Main.scala:14)
at fr.entry.Main.main(Main.scala)
15/09/28 15:33:30 INFO AppClient$ClientActor: Executor updated: app-  20150928153330-0036/2 is now LOADING
15/09/28 15:33:30 INFO AppClient$ClientActor: Executor updated: app-    20150928153330-0036/0 is now RUNNING
15/09/28 15:33:30 INFO AppClient$ClientActor: Executor updated: app-20150928153330-0036/1 is now RUNNING
15/09/28 15:33:30 INFO SparkContext: Starting job: sum at Main.scala:29
15/09/28 15:33:30 INFO DAGScheduler: Got job 0 (sum at Main.scala:29) with 2 output partitions (allowLocal=false)
15/09/28 15:33:30 INFO DAGScheduler: Final stage: Stage 0(sum at Main.scala:29)
15/09/28 15:33:30 INFO DAGScheduler: Parents of final stage: List()
15/09/28 15:33:30 INFO DAGScheduler: Missing parents: List()
15/09/28 15:33:30 INFO DAGScheduler: Submitting Stage 0 (MapPartitionsRDD[2] at numericRDDToDoubleRDDFunctions at Main.scala:29), which has no missing parents
15/09/28 15:33:30 INFO MemoryStore: ensureFreeSpace(2264) called with curMem=0, maxMem=55566516879
15/09/28 15:33:30 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 2.2 KB, free 51.8 GB)
15/09/28 15:33:30 INFO MemoryStore: ensureFreeSpace(1656) called with curMem=2264, maxMem=55566516879
15/09/28 15:33:30 INFO MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 1656.0 B, free 51.8 GB)
15/09/28 15:33:30 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on localhost:40476 (size: 1656.0 B, free: 51.8 GB)
15/09/28 15:33:30 INFO BlockManagerMaster: Updated info of block broadcast_0_piece0
15/09/28 15:33:30 INFO SparkContext: Created broadcast 0 from broadcast at DAGScheduler.scala:839
15/09/28 15:33:30 INFO AppClient$ClientActor: Executor updated: app-20150928153330-0036/2 is now RUNNING
15/09/28 15:33:30 INFO DAGScheduler: Submitting 2 missing tasks from Stage 0 (MapPartitionsRDD[2] at numericRDDToDoubleRDDFunctions at Main.scala:29)
15/09/28 15:33:30 INFO TaskSchedulerImpl: Adding task set 0.0 with 2 tasks
15/09/28 15:33:45 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
15/09/28 15:34:00 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

Plus de détails :

Je voudrais lancer un programme qui fait deux choses. Tout d'abord j'ai un sparkContext local (sur le master), je fais un RDD et de faire certaines opérations. Deuxièmement, j'ai un deuxième sparkContext initialiser avec un maître et 3 esclaves qui font aussi un RDD et n'certaines opérations.
Ainsi, dans le premier cas, je veux utiliser le 16 cœurs de le maître et le second cas, je veux utiliser le 8cores x 3 des esclaves.

Exemple Simple :

val arr = Array(Array(1, 2, 3, 4, 5, 6, 7, 8), Array(1, 2, 3, 4, 5, 6, 7, 8))
println(local.sparkContext.makeRDD(arr).count()) 
println(cluster.sparkContext.makeRDD(arr).map(l => l.sum).sum)

Mes deux SparkContexts :

object local {
val project = "test"
val version = "1.0"
val sc = new SparkConf()
.setMaster("local[16]")
.setAppName("Local")
.set("spark.local.dir", "/mnt")
.setJars(Seq("target/scala-2.10/" + project + "-assembly-" + version + ".jar", "target/scala-2.10/" + project + "_2.10-" + version + "-tests.jar"))
.setSparkHome("/root/spark")
.set("spark.driver.allowMultipleContexts", "true")
.set("spark.executor.memory", "45g")
val sparkContext = new SparkContext(sc)
}
object cluster {
val project = "test"
val version = "1.0"
val sc = new SparkConf()
.setMaster(masterURL)  //ec2-XX-XXX-XXX-XX.compute-1.amazonaws.com
.setAppName("Cluster")
.set("spark.local.dir", "/mnt")
.setJars(Seq("target/scala-2.10/" + project + "-assembly-" + version + ".jar", "target/scala-2.10/" + project + "_2.10-" + version + "-tests.jar") ++ otherJars)
.setSparkHome("/root/spark")
.set("spark.driver.allowMultipleContexts", "true")
.set("spark.executor.memory", "35g")
val sparkContext = new SparkContext(sc)
}

Comment puis-je résoudre ce problème?

Pouvez-vous indiquer pourquoi vous voulez utiliser deux Contextes? Le plus souvent ce n'est pas nécessaire
Disons que j'ai 3 programmes : prog1 et prog3 peuvent s'exécuter en parallèle et prog2 être séquentielle. Prog1 de sortie est de 15 Rdd (ensembles de données). Prog2 est un algorithme d'apprentissage automatique dont j'ai besoin pour exécuter 15 fois. Comme prog2 à exécuter sur 1 core localement. J'ai fait un petit hack qui est de faire un RDD qui contient le 15 ensembles de données recueillies . Je carte sur ce RDD et exécuter prog2 sur chaque enregistrement. Prog3 prendre la 15 les résultats de prog2 et faire quelques opérations en parallèle. J'espère que c'est clair? Je pense que dans mon cas cela est nécessaire, mais si elle ne l'est pas, je suis aussi intéressé de savoir la réponse de mon petit exemple.

OriginalL'auteur GermainGum | 2015-09-28

apache-spark scala

11

Bien que l'option de configuration de l'étincelle.le pilote.allowMultipleContexts existe, il est trompeur parce que l'utilisation de plusieurs Étincelle contextes est découragé. Cette option est utilisée uniquement pour le Spark tests internes et n'est pas censé être utilisé dans les programmes de l'utilisateur. Vous pouvez obtenir des résultats inattendus lors de l'exécution de plus d'une Étincelle contexte dans une seule JVM.

est-ce découragement documenté nulle part? J'aimerais qu'il soit vrai que le 2 est découragé, mais j'aimerais voir ce que quelque part officiel si possible
Cette limitation auraient été levée dans spark 2.0 je suis à la recherche en elle.

OriginalL'auteur pzecevic
1

Si une coordination est nécessaire entre 2 programmes, alors il serait mieux de faire partie d'une seule Étincelle application pour tirer parti des Étincelles, des optimisations internes et d'éviter des i/o.

Deuxièmement, si les 2 applications n'ont pas besoin de coordonner, de toute façon, vous pouvez lancer 2 applications distinctes. Puisque vous utilisez Amazon EC2/DME, vous pouvez utiliser du FIL que votre gestionnaire de ressources sans un important investissement en temps, comme décrit ici.

OriginalL'auteur amey91
1

Si vous avez une nécessité de travailler avec beaucoup de Spark contextes, vous pouvez activer l'option [MultipleContexts] (1) , mais il est utilisé uniquement pour le Spark tests internes et n'est pas censé être utilisé dans les programmes de l'utilisateur. Vous recevrez un comportement inattendu lors de l'exécution de plus d'une Étincelle contexte dans une seule JVM [SPARK-2243] (2).
Toutefois, il est possible de créer différents contextes distincts Jvm, et de gérer des contextes SparkConf niveau, ce qui permettra d'adapter de manière optimale le fichier exécutable de l'Emploi.

Il ressemble à ceci:
La brume crée chaque nouvelle Sparkcontext dans sa propre JVM.

Il y a un middleware sur le dessus de la Spark - [Brouillard]. Il gère Étincelle de contextes et de multiples machines virtuelles, de sorte que vous pourriez avoir des emplois comme ETL pipeline, d'un rapide prévisions d'emploi, une ad-hoc requête de la Ruche et une Étincelle de streaming d'applications s'exécutent en parallèle sur le même cluster.

1> github.com/apache/spark/blob/master/core/src/test/scala/org/apache/spark/SparkContextSuite.scala#L67

2> issues.apache.org/jira/browse/SPARK-2243

OriginalL'auteur Leonid

Java:

 .set("spark.driver.allowMultipleContexts", "true")

sparkContext.cancelAllJobs();
sparkContext.stop();

Cela fonctionne pour moi.

OriginalL'auteur yazabara

Vous devez vous connecter pour publier un commentaire.