Comment suivre le bloc de données dans laquelle les données nœud hadoop?
Si un bloc de données est répliquée, dans lequel les données de nœud qu'il sera répliquée sur?
Est-il un outil pour montrer où les répliqué blocs sont présents?
Vous devez vous connecter pour publier un commentaire.
Si vous connaissez le nom de fichier, vous pouvez regarder ce par le biais de la DFS navigateur.
Aller à votre namenode interface web, dire "parcourir le système de fichiers" et naviguez vers le fichier qui vous intéresse. Dans le bas de la page, il y aura une liste de tous les blocs du fichier, et où chacun de ces blocs est situé.
REMARQUE: Il ressemble à ceci lorsque vous cliquez sur un fichier dans le système de fichiers HDFS.
Alternativement, vous pouvez exécuter:
Qui fera rapport sur tous les blocs et de leurs emplacements.
Il est un bel outil qui est open-source par le CERN - voir l'article du blog
https://db-blog.web.cern.ch/blog/daniel-lanza-garcia/2016-04-tool-visualise-block-distribution-hadoop-hdfs-cluster
Il serait de vous montrer non seulement de bloquer les emplacements sur les nœuds, mais aussi à travers les disques sur les nœuds (affichage sous forme de tableau):
De Code de ce projet peuvent être trouvés ici: https://github.com/cerndb/hdfs-metadata
En interne ce du CERN outil utilise des appels API pour Hadoop - voir, par exemple,
https://github.com/cerndb/hdfs-metadata/blob/master/src/main/java/ch/cern/db/hdfs/DistributedFileSystemMetadata.java#L168
il est donc beaucoup plus rapide que l'aide de la cli d'outils si vous avez l'intention de l'exécuter sur plusieurs fichiers, par exemple, et voir les résultats consolidés.
hdfs fsck /-files -blocks -locations
vous permet de voir d'un seul fichier à la fois.Nous utilisons cet outil pour voir si une énorme parquet tableau est distribué gentiment sur les nœuds et les disques, afin de vérifier si le traitement des données d'inclinaison ne se produit pas en raison de la distribution de données de défauts.