Comment Hive choisit-il le nombre de réducteurs pour un travail?

Plusieurs endroits à-dire la valeur par défaut # de réducteurs dans un travail Hadoop est de 1. Vous pouvez utiliser le mapred.réduire.tâches symbole pour définir manuellement le nombre de réducteurs.

Quand je lance une Ruche d'emploi (sur Amazon EMR, AMI 2.3.3), il a un certain nombre de réducteurs de plus d'un. En regardant les paramètres de travail, quelque chose a mis en mapred.réduire.les tâches, je présume de la Ruche. Comment est-il choisit ce nombre?

Remarque: voici quelques messages lors de l'exécution d'une Ruche à l'emploi qui devrait être un indice:

...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
...

source d'informationauteur dfrankow | 2013-04-24