Comment faire pour exécuter simultanément des emplois(des actions) dans Apache Spark utilisant une seule étincelle contexte

Il est dit dans Apache Spark documentation "au sein de chaque Étincelle de l'application, plusieurs “jobs” (Étincelle actions) peut être en cours d'exécution simultanément si elles ont été présentées par différents threads". Quelqu'un peut m'expliquer comment réaliser cette simultanéité pour l'exemple de code suivant?

    SparkConf conf = new SparkConf().setAppName("Simple_App");
    JavaSparkContext sc = new JavaSparkContext(conf);

    JavaRDD<String> file1 = sc.textFile("/path/to/test_doc1");
    JavaRDD<String> file2 = sc.textFile("/path/to/test_doc2");

    System.out.println(file1.count());
    System.out.println(file2.count());

Ces deux emplois sont indépendants et doivent s'exécuter simultanément.
Merci.

Vous aurez besoin de commencer un nouveau fil de discussion, ou les deux (vous pouvez trouver des instructions pour que en ligne, j'en suis sûr), et ensuite utiliser le même SparkContext de deux threads.
Merci pour la réponse. J'ai écrit un exemple de code et je suis en mesure d'effectuer le filetage en mode local. Cependant lors de l'exécution dans le FIL de cluster, étincelle contexte se termine avec le statut a RÉUSSI avant l'exécution du thread est terminé et donc je n'obtiens pas de sortie. Pouvez-vous suggérer quelque chose? Je peux partager le code, mais il y a une limite dans la section des commentaires.
Je ne suis pas sûr à ce sujet, mais ne pas la définition de cette conf de l'aide? spark.streaming.concurrentJobs
Comme son nom l'indique, ce paramètre est uniquement pour le Spark Streaming emplois. Il y a cependant, vous avez raison. Ce paramètre contrôle le nombre de tâches parallèles à exécuter et à 1 par défaut (au moins dans Spark 2.0.0 et avant)
Vous pouvez utiliser la juste de la planification au sein d'une application. Voir ici - spark.apache.org/docs/1.6.1/job-scheduling.html

OriginalL'auteur Sporty | 2015-02-25

Essayer quelque chose comme cela:

    final JavaSparkContext sc = new JavaSparkContext("local[2]","Simple_App");
    ExecutorService executorService = Executors.newFixedThreadPool(2);
    //Start thread 1
    Future<Long> future1 = executorService.submit(new Callable<Long>() {
        @Override
        public Long call() throws Exception {
            JavaRDD<String> file1 = sc.textFile("/path/to/test_doc1");
            return file1.count();
        }
    });
    //Start thread 2
    Future<Long> future2 = executorService.submit(new Callable<Long>() {
        @Override
        public Long call() throws Exception {
            JavaRDD<String> file2 = sc.textFile("/path/to/test_doc2");
            return file2.count();
        }
    });
    //Wait thread 1
    System.out.println("File1:"+future1.get());
    //Wait thread 2
    System.out.println("File2:"+future2.get());

Ne pouvons-nous pas simplement utiliser spark.streaming.concurrentJobs conf pour définir le niveau de simultanéité?

OriginalL'auteur G Quintana

Vous devez vous connecter pour publier un commentaire.