hadoop: différence entre 0 réducteur et de l'identité réducteur?
J'essaie juste de confirmer ma compréhension de la différence entre 0 réducteur et de l'identité réducteur.
- 0 réducteur de moyens de réduire l'étape sera ignorée et mappeur de sortie sera le dernier à sortir
- Identité réducteur de moyens puis brassage/tri a toujours lieu?
Vous devez vous connecter pour publier un commentaire.
Vous compréhension est correcte. Je voudrais définir comme suit:
Si vous n'avez pas besoin de tri de la carte des résultats, - vous définissez 0 réduite,et le travail est appelé carte seulement.
Si vous avez besoin de trier les résultats de la cartographie, mais n'ont pas besoin de l'agrégation - vous de choisir l'identité réducteur.
Et pour compléter le tableau, nous avons un troisième cas : nous avons besoin de l'agrégation et, dans ce cas, nous avons besoin de réducteur.
Un autre cas d'utilisation pour l'utilisation de l'Identité du Réducteur est de combiner tous les résultats en <# de réducteurs> fichiers de sortie. Cela peut être pratique si vous utilisez Amazon Web Services à écrire S3 directement, surtout si la sortie de la cartographie est de petite taille (par exemple, un grep/rechercher un record), et vous avez beaucoup de contributeurs (par exemple 1000).
hdfs cat
à diffuser tous les fichiers de sortie dans un seul emplacement. Je ne sais pas si S3 a un semblable stream-mécanisme de lecture.Il dépend des besoins de votre entreprise. Si vous faites un nombre de mots, vous devez réduire votre carte de sortie pour obtenir un résultat complet. Si vous voulez juste changer les mots en majuscules, vous n'avez pas besoin de réduire les.
La principale différence entre "Pas de Réducteur" (mapred.réduire.tâches=0) et "Standard réducteur" qui est IdentityReducer (mapred.réduire.tâches=1, etc) est lorsque vous utilisez "Pas de réducteur" il n'y a pas de cloisonnement&brassage processus après la CARTE de la scène. Par conséquent, dans ce cas, vous obtiendrez "pure" de sortie de votre mappeurs sans autre traitement. Il aide pour le développement et le débogage puproses, mais pas seulement.