Quand je stocker des fichiers dans HDFS, vont-ils être répliqués?
Je suis nouveau sur Hadoop.
Quand je stocker des fichiers Excel à l'aide de hadoop -fs put
commoad, il est stocké dans HDFS.
Facteur de réplication est de 3.
Ma question est: faut-il 3 copies et de les stocker dans 3 nœuds de chaque?
OriginalL'auteur user3017115 | 2013-11-21
Vous devez vous connecter pour publier un commentaire.
Ici est une bande dessinée de SF de travail.
https://docs.google.com/file/d/0B-zw6KHOtbT4MmRkZWJjYzEtYjI3Ni00NTFjLWE0OGItYTU5OGMxYjc0N2M1/edit?pli=1
Je crois que dans ce cas, le calcul devra être recommencée, comme les données n'existerait pas, car il n'a jamais atteint le nécessaire facteur de réplication.
OriginalL'auteur Anju Singh
Faut-il 3 copies et de les stocker dans 3 nœuds de chaque.
La réplication se fait dans pipelining
qu'en est-il des copies de certaines parties du fichier à datanode1 et ensuite des copies de datanode2 de datanode1 et à datanode3 de datanode1
http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Replication+Pipelining
voir ici pour la Réplication du Pipelining
OriginalL'auteur Nagendra kumar
Votre HDFS Client (hadoop fs dans ce cas) sera donné les noms des blocs et datanode endroits (le premier étant l'emplacement le plus proche si le NameNode pouvez le déterminer à partir du rack de sensibilisation script) d'où stocker ces fichiers par le NameNode.
Le client, puis copie les blocs le plus proche nœud de Données. Le nœud de données est ensuite responsable de la copie le bloc à un deuxième datanode (de préférence sur un autre support), où enfin le deuxième exemplaire de la troisième (sur le même rack que le troisième).
De sorte que votre client ne copie des données les données des nœuds, et le cadre va prendre soin de la réplication entre les datanodes.
OriginalL'auteur Chris White
Il va stocker le fichier d'origine à l'un (ou plus en cas de gros fichiers) blocs. Ces blocs seront répliquées sur deux autres nœuds.
Edit: Ma réponse s'applique à Hadoop 2.2.0. Je n'ai aucune expérience avec les versions antérieures.
OriginalL'auteur Paul
Oui elle sera répétée à 3 nœuds (au maximum jusqu'à 3 nœuds).
Hadoop Client va briser le fichier de données dans les plus petits “Blocs”, et placer les blocs sur les différentes machines de la grappe. Les blocs de plus vous avez, plus les machines qui seront en mesure de travailler sur ces données en parallèle. Dans le même temps, ces machines peuvent être sujettes à l'échec, de sorte qu'il est sûr de s'assurer que chaque bloc de données sur plusieurs machines à la fois pour éviter la perte de données.
De sorte que chaque bloc sera reproduit dans le cluster en tant que son chargement. Le réglage standard pour Hadoop est d'avoir (3) copies de chaque bloc dans le cluster. Cela peut être configuré avec le dfs.la réplication paramètre dans le fichier hdfs-site.xml.
Et la réplication de données n'est pas un inconvénient de Hadoop à tous, en fait c'est une partie intégrante de ce qui fait Hadoop efficace. Non seulement vous fournir avec un bon degré de tolérance de panne, mais il contribue également à l'exécution de votre carte tâches de près les données afin d'éviter de mettre plus de charge sur le réseau (lire à propos de la localité des données).
OriginalL'auteur Suresh
Oui il n(réplications facteur) nombre de copies dans hdfs
utilisez cette commande pour trouver l'emplacement de fichier, trouver #rack il est stocké, quel est le nom du bloc sur tous les râteliers
hadoop fsck /chemin/vers/votre/annuaire -fichiers -blocs -sites-racks
OriginalL'auteur Karan
Utilisez cette commande pour charger les données dans hdfs avec la réplication
hadoop fs -Ddfs.replication=1 -put big.file /tmp/test1.file
et
-Ddfs.replication=1
vous pouvez définir le nombre de copie de réplication sera créée, tandis que pour le chargement de données dans hdfsOriginalL'auteur dilshad