Quand je stocker des fichiers dans HDFS, vont-ils être répliqués?

Je suis nouveau sur Hadoop.

Quand je stocker des fichiers Excel à l'aide de hadoop -fs put commoad, il est stocké dans HDFS.

Facteur de réplication est de 3.

Ma question est: faut-il 3 copies et de les stocker dans 3 nœuds de chaque?

OriginalL'auteur user3017115 | 2013-11-21

hadoop hdfs

9

Ici est une bande dessinée de SF de travail.

https://docs.google.com/file/d/0B-zw6KHOtbT4MmRkZWJjYzEtYjI3Ni00NTFjLWE0OGItYTU5OGMxYjc0N2M1/edit?pli=1

question: Est-il un risque de perte de données dans les cas suivants (Imaginons un réseau occupé et i/o): datanode1 écrit bloc avec succès et envoie un accusé de réception au client. datanode1 meurt avant d'être en mesure de remplir entièrement la réplication à l'autre datanode. datanode1 ne revient jamais. ?
Je crois que dans ce cas, le calcul devra être recommencée, comme les données n'existerait pas, car il n'a jamais atteint le nécessaire facteur de réplication.

OriginalL'auteur Anju Singh
2

Faut-il 3 copies et de les stocker dans 3 nœuds de chaque.

réponse est: PAS

La réplication se fait dans pipelining
qu'en est-il des copies de certaines parties du fichier à datanode1 et ensuite des copies de datanode2 de datanode1 et à datanode3 de datanode1

http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Replication+Pipelining

voir ici pour la Réplication du Pipelining

question: Est-il un risque de perte de données dans les cas suivants (Imaginons un réseau occupé et i/o): datanode1 écrit bloc avec succès et envoie un accusé de réception au client. datanode1 meurt avant d'être en mesure de remplir entièrement la réplication à l'autre datanode. datanode1 ne revient jamais. ?

OriginalL'auteur Nagendra kumar
1

Votre HDFS Client (hadoop fs dans ce cas) sera donné les noms des blocs et datanode endroits (le premier étant l'emplacement le plus proche si le NameNode pouvez le déterminer à partir du rack de sensibilisation script) d'où stocker ces fichiers par le NameNode.

Le client, puis copie les blocs le plus proche nœud de Données. Le nœud de données est ensuite responsable de la copie le bloc à un deuxième datanode (de préférence sur un autre support), où enfin le deuxième exemplaire de la troisième (sur le même rack que le troisième).

De sorte que votre client ne copie des données les données des nœuds, et le cadre va prendre soin de la réplication entre les datanodes.

OriginalL'auteur Chris White
0

Il va stocker le fichier d'origine à l'un (ou plus en cas de gros fichiers) blocs. Ces blocs seront répliquées sur deux autres nœuds.

Edit: Ma réponse s'applique à Hadoop 2.2.0. Je n'ai aucune expérience avec les versions antérieures.

OriginalL'auteur Paul
0

Oui elle sera répétée à 3 nœuds (au maximum jusqu'à 3 nœuds).

Hadoop Client va briser le fichier de données dans les plus petits “Blocs”, et placer les blocs sur les différentes machines de la grappe. Les blocs de plus vous avez, plus les machines qui seront en mesure de travailler sur ces données en parallèle. Dans le même temps, ces machines peuvent être sujettes à l'échec, de sorte qu'il est sûr de s'assurer que chaque bloc de données sur plusieurs machines à la fois pour éviter la perte de données.

De sorte que chaque bloc sera reproduit dans le cluster en tant que son chargement. Le réglage standard pour Hadoop est d'avoir (3) copies de chaque bloc dans le cluster. Cela peut être configuré avec le dfs.la réplication paramètre dans le fichier hdfs-site.xml.

Et la réplication de données n'est pas un inconvénient de Hadoop à tous, en fait c'est une partie intégrante de ce qui fait Hadoop efficace. Non seulement vous fournir avec un bon degré de tolérance de panne, mais il contribue également à l'exécution de votre carte tâches de près les données afin d'éviter de mettre plus de charge sur le réseau (lire à propos de la localité des données).

Juste pour clarifier: taille de bloc par Défaut est de 64 mo donc un bloc par fichier devrait être suffisant dans le cas des OP cas comme il veut stocker des fichiers Excel.

OriginalL'auteur Suresh
0

Oui il n(réplications facteur) nombre de copies dans hdfs

utilisez cette commande pour trouver l'emplacement de fichier, trouver #rack il est stocké, quel est le nom du bloc sur tous les râteliers

hadoop fsck /chemin/vers/votre/annuaire -fichiers -blocs -sites-racks

OriginalL'auteur Karan
0

Utilisez cette commande pour charger les données dans hdfs avec la réplication

hadoop fs -Ddfs.replication=1 -put big.file /tmp/test1.file
et -Ddfs.replication=1 vous pouvez définir le nombre de copie de réplication sera créée, tandis que pour le chargement de données dans hdfs

OriginalL'auteur dilshad

Vous devez vous connecter pour publier un commentaire.