Comment suivre le bloc de données dans laquelle les données nœud hadoop?

Si un bloc de données est répliquée, dans lequel les données de nœud qu'il sera répliquée sur?
Est-il un outil pour montrer où les répliqué blocs sont présents?

InformationsquelleAutor Varshith | 2011-06-16

hadoop replication

36

Si vous connaissez le nom de fichier, vous pouvez regarder ce par le biais de la DFS navigateur.

Aller à votre namenode interface web, dire "parcourir le système de fichiers" et naviguez vers le fichier qui vous intéresse. Dans le bas de la page, il y aura une liste de tous les blocs du fichier, et où chacun de ces blocs est situé.

REMARQUE: Il ressemble à ceci lorsque vous cliquez sur un fichier dans le système de fichiers HDFS.

Alternativement, vous pouvez exécuter:
```
hadoop fsck /-files -blocks -locations
```
Qui fera rapport sur tous les blocs et de leurs emplacements.
- Merci. C'est très utile. Est-il un outil pour faire de même? Si non, je vais créer un à l'aide de fsck.
- Pas que je suis au courant, mais quelqu'un peut l'avoir déjà fait. D'autre part, il n'est pas trop difficile à obtenir à partir de fsck. Soyez prudent avec l'exécutant, très souvent, car je ne sais pas combien de la charge qu'elle fait peser sur le système. Si vous souhaitez garder une trace de quels changements, vous pouvez également charger un état initial de fsck, et ensuite de lire le datanode journaux - mais qui nécessite plus de codage.
InformationsquelleAutor
1

Il est un bel outil qui est open-source par le CERN - voir l'article du blog
https://db-blog.web.cern.ch/blog/daniel-lanza-garcia/2016-04-tool-visualise-block-distribution-hadoop-hdfs-cluster

Il serait de vous montrer non seulement de bloquer les emplacements sur les nœuds, mais aussi à travers les disques sur les nœuds (affichage sous forme de tableau):

De Code de ce projet peuvent être trouvés ici: https://github.com/cerndb/hdfs-metadata

En interne ce du CERN outil utilise des appels API pour Hadoop - voir, par exemple,
https://github.com/cerndb/hdfs-metadata/blob/master/src/main/java/ch/cern/db/hdfs/DistributedFileSystemMetadata.java#L168

il est donc beaucoup plus rapide que l'aide de la cli d'outils si vous avez l'intention de l'exécuter sur plusieurs fichiers, par exemple, et voir les résultats consolidés.

hdfs fsck /-files -blocks -locations vous permet de voir d'un seul fichier à la fois.

Nous utilisons cet outil pour voir si une énorme parquet tableau est distribué gentiment sur les nœuds et les disques, afin de vérifier si le traitement des données d'inclinaison ne se produit pas en raison de la distribution de données de défauts.

InformationsquelleAutor Tagar

Vous devez vous connecter pour publier un commentaire.