Spark CollectAsMap

Je voudrais savoir comment collectAsMap travaille dans Spark. Plus précisément, je voudrais savoir où l'agrégation des données de toutes les partitions? L'agrégation s'effectuent soit en master ou en travailleurs. Dans le premier cas, chaque travailleur envoyer ses données sur le maître et le maître collecte les données à partir de chaque travailleur, puis maître de l'agrégation des résultats. Dans le second cas, les travailleurs sont responsables de l'agrégation des résultats(après ils échangent des données entre eux) et après que les résultats seront transmis au maître.

Il est essentiel pour moi de trouver un moyen pour que le maître pour être en mesure de recueillir les données de chaque partition séparément, sans que les travailleurs de l'échange de données.

Dans votre terminologie, je pense que tu veux dire, Pilote et pas de Maître. Le pilote est où le recueillir les résultats seront regroupés et envoyés à partir de l'Étincelle de cluster.

OriginalL'auteur | 2015-04-22