Les petits fichiers et de blocs de HDFS

Un bloc dans Hadoop Distributed File System stocker plusieurs fichiers de petite taille, ou d'un bloc de magasins à seulement 1 fichier?

OriginalL'auteur Eugen | 2011-12-19

hadoop hdfs

14

Plusieurs fichiers ne sont pas stockés dans un seul bloc. BTW, un seul fichier peut être stocké dans plusieurs blocs. La correspondance entre le fichier et le bloc-id est conservé dans le NameNode.

Selon la Hadoop : The Definitive Guide

À la différence d'un système de fichiers pour un seul disque, un fichier HDFS qui est plus petit qu'un seul bloc ne doit pas occuper un bloc complet de stockage sous-jacent.

HDFS est conçu pour gérer de gros fichiers. Si il y a trop de petits fichiers, le NameNode pourrait se charger car il stocke le nom d'espace pour HDFS. Cochez cette l'article sur la façon de résoudre le problème avec un trop grand nombre de petits fichiers.

Savez-vous comment trouver les mises en correspondance de blocs de fichiers? hadoop fsck / -files -blocks -locations -racks donne le fichier de mappage des blocs, mais ne dit pas dans quel répertoire sur le réel du système de fichiers est le même bloc (c'est à dire est-il dans subdirectory9 ou subdirectory61).
dfs.datanode.data.dir propriété détermine l'endroit où le système de fichier local un DFS nœud de données doit stocker ses blocs. Si c'est une liste séparée par des virgules des répertoires, puis les données seront stockées dans tous les noms de répertoires, généralement sur différents appareils. Répertoires qui n'existent pas sont ignorés.
Non, je voulais dire lorsque les blocs physiques sont stockées ils pourraient être stockées dans dfs.datanode.data.dir ou dans des sous-répertoires du répertoire (créé par le Datanode). Est-il un moyen de trouver le bloc est stocké où (comme un fichier de niveau supérieur ou à l'intérieur de certaines sous-répertoire)?

OriginalL'auteur Praveen Sripati
4

Hadoop taille de Bloc est de Hadoop Concept de Stockage. Chaque Fois que vous enregistrez un Fichier dans Hadoop il réparties dans les tailles de bloc et basé sur le facteur de réplication et de la localité des données, il sera distribué sur le cluster.

Pour Plus De Détails:
- Lorsque vous appuyez sur un Fichier sur HDFS, il sera divisé en blocs. Chaque Bloc est comme une personne de fichiers d'une taille maximale tel que décrit par la taille de bloc.
- Chaque bloc contient un .méta-fichier avec elle, pour stocker les informations de métadonnées du bloc sur Hadoop.
- Si le fichier est très petit, l'ensemble du dossier sera dans un bloc et le bloc (fichier de stockage) aura la même taille que le fichier et un Fichier de métadonnées.
Certaines Commandes:
- Connecter à n'importe quel Nœud de données sur Votre cluster [ si vous avez accès ;)]. Ensuite, allez à l'répertoires de stockage pour le nœud et vous pouvez voir les blocs stockés sur le nœud de données comme ci-dessous.
(Dir sont comme pour mon cluster /data2/dfs/dn/):

Taille de BLOC: 1 GO

cd /data/dfs/dn -> actuel -> Finalisation -> subDir0 -> (ici est l'Or)

Bloc utilisé seulement KO de stockage pour des fichiers de petite taille ou peut-être lorsque la taille du fichier est ma taille de bloc + quelques KO de

-rw-r--r-- 1-sf-sf 91K Sep 13 16:19 blk_1073781504

-rw-r--r-- 1-sf-sf 19K Sep 13 16:21 blk_1073781504_40923.meta

Lorsque le Fichier est Plus gros que la taille de bloc du bloc de ressembler à quelque chose comme ci-dessous

-rw-r--r-- 1-sf-sf 1,0 G 31 Août 12:03 blk_1073753814

-rw-r--r-- 1-sf-sf 8.1 M 31 Août 12:04 blk_1073753814_12994.meta

J'espère qu'il va expliquer le bloc de stockage des trucs. Si vous voulez connaître le détail comment vos fichiers sont stockés dans des blocs puis exécutez

hdfs fsck -blocs-emplacements

Laissez-moi savoir si j'ai raté quelque chose ici.

OriginalL'auteur iSingh
3

Bien, vous pouvez le faire à l'aide de HAR (Hadoop Archive) système de fichiers qui essaie de faire un pack de plusieurs petits fichiers dans HDFS bloc de la partie spéciale fichier géré par RSA système de fichiers.

OriginalL'auteur Rajat Sharma
3

Un bloc de stocker un fichier unique. Si votre fichier est plus grand que la taille de bloc(64/128/..), puis il sera découpé en plusieurs blocs avec la taille de bloc.

OriginalL'auteur Meet S
1

Le principal point besoin de comprendre dans hdfs , file is partioned into blocks based on size et non pas qu'il y aura quelques blocs dans la mémoire, où sont stockés les fichiers(c'est l'idée fausse)

Fondamentalement plusieurs fichiers ne sont pas stockés dans un seul bloc(sauf si c'est de l'Archive ou fichier Har).

OriginalL'auteur Nagendra kumar

Vous devez vous connecter pour publier un commentaire.