Quand brassage se produire dans Apache Spark?

Je suis l'optimisation des paramètres dans l'Étincelle, et voudrais savoir exactement comment Spark est mélanger les données.

Précisément, j'ai un simple word count programme, et voudrais savoir comment spark.shuffle.fichier.de la mémoire tampon.ko affecte le temps d'exécution. Maintenant, je ne vois que des ralentissement quand je fais ce paramètre très élevé (je suppose que cela empêche toutes les tâches de la mémoire tampon de montage en mémoire simultanément).

Quelqu'un pourrait-il expliquer comment Spark est l'exécution de réductions? Par exemple, les données sont lues et partitionné en un EDR, et quand une "action" de la fonction est appelée, la Spark envoie des tâches pour les nœuds de travail. Si l'action n'est pas une réduction, comment ne Étincelle gérer cela, et comment sont-lecture aléatoire de fichiers /tampons liés à ce processus?

OriginalL'auteur cnnrznn | 2015-07-13