Numéro de réduire les tâches de l'Étincelle
Quelle est la formule qui Étincelle utilise pour calculer le nombre de réduire les tâches?
Je suis en cours d'exécution un couple de bougies de requêtes sql et de réduire le nombre de tâches est toujours de 200. Le numéro de la carte de tâches pour ces requêtes est 154. Je suis sur la Spark 1.4.1.
Est-ce lié à l'étincelle.shuffle.de tri.bypassMergeThreshold, qui est par défaut à 200
OriginalL'auteur Uli Bethke | 2015-10-23
Vous devez vous connecter pour publier un commentaire.
C'est
spark.sql.shuffle.partitions
que vous êtes après. Selon le Spark SQL guide de programmation:Une autre option qui est liée à
spark.default.parallelism
, qui détermine la valeur "par défaut nombre de partitions dans RDDs retournés par les transformations comme le rejoindre, reduceByKey, et paralléliser lorsqu'il n'est pas défini par l'utilisateur", cependant cela semble être ignoré par Spark SQL et pertinente que lorsque l'on travaille sur la plaine de Rdd.OriginalL'auteur sgvd
Oui, @svgd, qui est le paramètre correct. Voici comment vous devez le réinitialiser en Scala:
OriginalL'auteur pmhargis