Les différences entre MapReduce et de Fils
J'étais à la recherche sur hadoop et mapreduce avec le respect à la traine problèmes et les articles de ce problème
mais hier, j'ai constaté qu'il y a hadoop 2 avec le Fil, l',
malheureusement, aucun document n'est à parler à la traine problème dans le Fil
Donc, je veux savoir quelle est la différence entre MapReduce et de Fil dans la partie à la traine?
est un Fil de souffrir de la traine problème?
et quand MRmaster demande de ressources de la crèche pour les ressources , les ressources de la crèche donnera MRmaster toutes les ressources dont il a besoin ou c'est en fonction de clusters de calcul des capacités ?
merci beaucoup,,
OriginalL'auteur Flowra | 2014-11-15
Vous devez vous connecter pour publier un commentaire.
Voici les MapReduce 1.0 et MapReduce 2.0 (FILS)
MapReduce 1.0
Typique d'un cluster Hadoop, les casiers sont interconnectés via commutateurs principaux. Commutateurs principaux doivent se connecter à " top-of-rack commutateurs Entreprises utilisant Hadoop devraient envisager d'utiliser des 10 gbe, collé Ethernet redondants et top-of-rack commutateurs à atténuer les risques en cas de défaillance. Un fichier est divisé en 64 MO morceaux par défaut et distribué sur les Données des Nœuds. Chaque morceau a un défaut d'facteur de réplication de 3, ce qui signifie qu'il sera 3 exemplaires des données à un moment donné. Hadoop est “Rack” et HDFS a répliqué morceaux sur les nœuds sur différents supports. JobTracker assigner des tâches à des nœuds plus proche des données en fonction de la localisation de noeuds et d'aide à la NameNode déterminer la ‘proche’ morceau à un client pendant les lectures. L'administrateur fournit un script qui raconte Hadoop qui en rack, le noeud est dans la, par exemple: /enterprisedatacenter/rack2.
Limitations de MapReduce 1.0 – Hadoop peut accueillir jusqu'à 4 000 nœuds. Quand il dépasse cette limite, il soulève un comportement imprévisible comme une cascade de défaillances et de détérioration grave de l'état de l'ensemble du cluster. Un autre problème multi-location, – il est impossible d'exécuter d'autres cadres que MapReduce 1.0 sur un cluster Hadoop.
MapReduce 2.0
MapReduce 2.0 a deux composantes – FILS qui a de la ressource de cluster capacités de gestion et de MapReduce.
Dans MapReduce 2.0, le JobTracker est divisé en trois services:
TaskTracker a été remplacé par le NodeManager, un FIL service qui gère les ressources et le déploiement sur un nœud. NodeManager est responsable du lancement des conteneurs qui pourrait être soit une carte ou de réduire la tâche.
Cette nouvelle architecture des pauses JobTracker modèle en permettant à une nouvelle classe ResourceManager pour gérer l'utilisation des ressources à travers les applications, avec ApplicationMasters prendre la responsabilité de la gestion de l'exécution des travaux. Cette modification supprime un goulot d'étranglement et permet de clusters Hadoop à l'échelle pour les configurations plus importantes que 4000 nœuds. Cette architecture permet également l'exécution simultanée d'une variété de modèles de programmation tels que le graphe de traitement, traitement itératif, l'apprentissage automatique et générale de clusters de calcul, y compris le traditionnel MapReduce.
OriginalL'auteur Om Singh
Vous dites "les Différences entre MapReduce et FILS". MapReduce et de FILS de vraiment différent. MapReduce est un Modèle de Programmation, de FIL est une architecture qui permet la distribution de cluster. Hadoop 2 à l'aide de FILS pour la gestion des ressources. En outre, hadoop à l'appui du modèle de programmation qui soutiennent le traitement parallèle que nous l'avons connu comme MapReduce. Avant de hadoop 2, hadoop déjà soutien de MapReduce. En bref, MapReduce exécuter au-dessus du FIL de l'Architecture. Désolé, je ne parle pas dans le cadre de la traine problème.
"quand MRmaster demande de ressources de la crèche pour les ressources?"
lorsque l'utilisateur soumettre Travail de MapReduce. Après le travail de MapReduce a fait, la ressource sera de retour gratuit.
"ressources crèche donnera MRmaster toutes les ressources dont il a besoin ou c'est en fonction de clusters de calcul des capacités"
Je ne comprends pas cette question, point. Évidemment, le directeur des ressources donnera toutes les ressources dont elle a besoin n'importe quel cluster capacités de calcul. Cluster de calcul des capacités d'influence sur les temps de traitement.
OriginalL'auteur Whilda Chaq
Si pour la traine problème de vous dire que si le premier mec attend "quelque chose" qui provoque alors la plus attend le long d'une route qui dépend du premier mec, puis je pense qu'il y a toujours ce problème de M. emplois. L'obtention de l'allocation de ressources naturellement de participer à ce problème avec toutes les autres choses qui peuvent causer des composants d'attendre quelque chose.
Tez qui est censé être une chute en remplacement de M. exécution d'une tâche, fait les choses différemment. Au lieu de faire tâche s'exécute de la même manière actuelle de M. Appmaster ne il essaie d'utiliser la DAG de tâches, ce qui est beaucoup mieux de ne pas entrer dans de mauvaises traine problème.
Vous avez besoin de comprendre une relation entre m et de FILS. Le FIL est simplement un mannequin resource scheduler sens il n'a pas d'horaire de 'tâches'. Ce qu'il donne à M. Appmaster est un jeu ou de ressources(dans un sens, c'est seulement la combinaison de mémoire et de cpu et de l'emplacement). C'est ensuite M. Appmaster la responsabilité de décider quoi faire avec ces ressources.
OriginalL'auteur Janne Valkealahti
Il n'y a pas de FIL dans MapReduce 1. Dans MapReduce il y a de la Laine.
OriginalL'auteur Shashikant Kashodhan