taille de bloc de données dans HDFS, pourquoi 64MO?

La valeur par défaut taille de bloc de données de HDFS/hadoop est de 64 mo.
La taille de bloc du disque est généralement de 4 ko.
Ce n'64 mo de bloc de taille moyenne? ->Est-ce que cela signifie que la plus petite unité de lecture à partir du disque est de 64 mo?

Si oui, quel est l'avantage de le faire?-> facile pour un accès continu des fichiers importants dans HDFS?

Pouvons-nous faire de même en utilisant l'original de la taille de bloc de 4 ko dans le disque?

InformationsquelleAutor dykw | 2013-10-20

78
```
What does 64MB block size mean?
```
La taille du bloc est la plus petite unité de données que le système de fichier peut stocker. Si vous enregistrez un fichier de 1k ou 60 mo, il faudra monter d'un bloc. Une fois que vous traversez la 64 mo boundry, vous avez besoin d'un deuxième bloc.
```
If yes, what is the advantage of doing that?
```
HDFS est conçu pour traiter des fichiers volumineux. Disons que vous avez un 1000Mb fichier. Avec un 4k taille de bloc, vous auriez à faire de 256 000 demandes pour obtenir ce fichier (1 demande par bloc). Dans HDFS, ces demandes sont envoyées à travers un réseau et venir avec beaucoup de frais généraux. Chaque demande doit être traitée par le Nom de Nœud de figure où ce bloc peut être trouvé. C'est beaucoup de trafic! Si vous utilisez des blocs de 64 mo, le nombre de demandes descend à 16, de réduire considérablement le coût des frais généraux et de la charge sur le Nom de Nœud.
- merci pour votre réponse. Assumer la taille des blocs de 4 ko et d'un fichier est de stocker en continu les blocs du disque. Pourquoi ne peut-on pas récupérer 1000 MO fichier en utilisant 1 demande? Je sais peut-être actuellement HDFS ne prend pas en charge une telle méthode d'accès. Mais quel est le problème de cette méthode d'accès?
- In the case of small files, lets say that you have a bunch of 1k files, and your block size is 4k. That means that each file is wasting 3k, which is not cool. - ce n'est pas vrai dans le cas de HDFS. Disons que le fichier est de 100 mo, puis les blocs sont 64MM et 36BM. Généralement la taille du dernier bloc est de moins en moins, sauf si le fichier est un multiple de 64 MO.
- HDFS pourrait récupérer un 1000 MO fichier dans l'un demande si la taille des blocs ont été au moins 1000 MO.
- Est-ce à dire que, si je stocker un fichier de 1 mo dans HDFS avec une taille de bloc de 64 mo, il faudra jusqu'à 64 mo de HDFS la capacité de stockage?
- Non, un fichier de 1 mo ne prendra pas de 64 mo sur le disque.
- Cette réponse est tout simplement faux. Ce "bloc" ou "taille de bloc" signifie dépend du système de fichiers et, dans le cas de HDFS il n' pas signifie la plus petite unité, il peut stocker, c'est la plus petite unité de la namenode références. Et un bloc est généralement stockées de manière séquentielle sur un disque physique, ce qui rend la lecture et l'écriture d'un bloc rapide. Pour les petits fichiers, la taille de bloc n'a pas d'importance, parce qu'ils seront plus petites que la taille des blocs de toute façon et stocké dans un bloc plus petit. Alors le plus gros bloc de tailles sont généralement mieux, mais on doit peser contre la quantité désirée de données et mappeur de distribution.
- Dire que la taille de bloc est la plus petite unité d'un namenode références est correcte...mon explication est une légère simplification excessive. Je ne sais pas pourquoi cela fait la réponse " tout simplement faux, cependant.
- Au moins 3 choses sont fausses: 1. La plupart des fichiers ne sont pas un multiple de la taille de bloc de sorte que le dernier bloc est effectivement plus petite que la taille de bloc par défaut (et oui sa référencé par le namenode). 2. Il n'y a pas une chose telle que la "taille de bloc", puisque la taille de bloc est un attribut de fichier et peuvent donc être différentes d'un fichier à l' (il y a un "taille de bloc par défaut" si, et c'est ce que la question était de savoir). 3. Vous donner de mauvais conseils, si vous avez déjà essentiellement de petits fichiers de prise de la taille de bloc, même les plus petites ferait qu'aggraver les choses
- Je suis d'accord avec votre troisième point et mise à jour de ma réponse quand je ne suis pas sur mobile. Votre premier point est une supposition de votre part..je n'ai jamais dit qu'un bloc partiel prend l'espace d'un bloc complet. Le deuxième point est juste nit la cueillette, la grande majorité des gens ne changent pas cet attribut de fichier pour le fichier, donc je ne pense pas que c'était la peine de mentionner.
- Le second point n'est pas en coupant les cheveux en quatre, si vous modifiez la taille de bloc par défaut il laisse vos anciens fichiers à l'ancienne taille de bloc, à moins de migrer de façon explicite avec distcp et il est important de comprendre que. Donc, même si vous n'avez jamais mis sur un fichier niveau individuel, vous pouvez vous retrouver avec des fichiers de différentes tailles de bloc. Aussi il s'avère le premier point: si il n'y a pas qu'une seule taille de bloc, le namenode ne pouvez pas utiliser le "taille de bloc par défaut" en tant que plus petite unité adressable. Pas besoin de faire des hypothèses ici.
- mais ce n'est pas la question qui a été posée. La question était de savoir la taille de bloc par défaut. Si vous prenez beaucoup de problème avec ma réponse, alors je vous suggère de soumettre une modification à nos soumettre votre propre réponse.
- Vous avez mentionné que l'utilisation de blocs de 64 mo, le nombre de demande devrait être abaissé à 16 ans. Mais le système d'exploitation serait de traiter les données en blocs de 4 ko. Il ne sera pas le traitement des données à 64 mo. Comment cela fonctionne dans le fond? Comment peut-on réduire le temps de recherche avec 64mo de bloc lorsque le système d'exploitation serait seulement de processus de bloc de 4 ko à la fois?
- J'ai essayé aujourd'hui pour répondre à votre question en aspect 3 de stackoverflow.com/a/43382368/2727750. Fondamentalement recherche sur disque, le temps n'a pas beaucoup d'importance si vous disposez déjà d'un réseau de transfert de passe, mais le débit TCP questions. Je ne voudrais pas prétendre que l'avantage est la diminution du nombre de "demandes", mais la baisse du nombre de connexions TCP persistantes.
- D'abord celle concernant le débit du Disque. Vous avez mentionné des données peuvent être écrites de manière séquentielle sur le disque. Donc, si j'ai 64 mo de données dans le nœud esclave,8 ko blocs de 64 mo de données serait formé de manière séquentielle dans le disque de nœud esclave de couper vers le bas le temps de recherche. Lorsque les données sont écrites ou lues, il serait procédé en blocs de 8 ko? Est-ce exact?
- Le but de l'utilisation d'une plus grande taille de bloc est de réduire le nombre de demandes pour le nom de nœud. Donc, quelqu'un disait: "où puis-je trouver ce fichier?" pour le nom du noeud, qui aurait dit, "Vous pouvez trouver ce 64mo morceau ici, et celle-ci, etc." Le demandeur serait aller à chaque lieu une partie est stockée et dire, "hey, donnez-moi une copie de ce morceau." Ce HDFS reconnaît comme un bloc n'est pas le même que le sous-jacent FS. Si le sous-jacent FS utilise des blocs de 4k, alors que 64 go morceau prendrait environ 67 millions de blocs. C'est bien parce que le temps de latence est faible, à la différence de la latence pour le nom de nœud.
- Pour apaiser les choses différemment: Le but n'est pas de réduire le système d'exploitation du fardeau dans le stockage des blocs; c'est pour réduire combien la pensée le nom de nœud de a à faire quand il s'agit de se souvenir où chaque pièce du dossier est. Le nom de nœud est beaucoup plus lent qu'un local d'exploitation du système de fichiers.
- Alors, comment ces morceaux sont gérées par l'OS? Avons-nous chercher (pas de saut) option dans HDFS pour accéder à une position d'octet à un point aléatoire?
- Est-il un outil à la disposition des déficients regardez comment ces blocs sont stockés à l'OS du système de fichiers sur les données des nœuds?
InformationsquelleAutor bstempi
18

HDFS la conception a été inspirée à l'origine par la conception de la Google File System (GFS). Voici les deux raisons pour de grandes tailles de bloc comme indiqué dans l'original GFS papier (note 1 sur GFS terminologie vs HDFS terminologie: chunk = bloc, chunkserver = datanode, master = namenode; remarque 2: mise en forme en gras est de moi):

Une grande partie de la taille offre plusieurs avantages importants. Première, il réduit le besoin des clients d'interagir avec le maître car les lectures et les écritures sur le même bloc ne requièrent qu'une demande initiale pour le maître pour le bloc d'informations de localisation. La diminution est particulièrement importante pour nos charges de travail parce que les applications principalement en lecture et en écriture de gros fichiers de manière séquentielle. [...] Deuxième, puisque sur un gros morceau, un client est plus susceptible d'effectuer de nombreuses opérations sur un bloc, il peut réduire la surcharge du réseau en gardant une persistance de la connexion TCP vers le chunkserver sur une longue période de temps. Troisièmement, il réduit la taille des métadonnées stockées sur le maître. Cela nous permet de conserver les métadonnées
dans la mémoire, qui à son tour apporte d'autres avantages que nous discuterons dans la Section 2.6.1.

Enfin, je dois souligner que les actuelle de la taille par défaut d'Apache Hadoop est de 128 MO.

InformationsquelleAutor cabad
4

Dans HDFS la taille du bloc de contrôle le niveau de réplication declustering. La baisse de la taille des blocs les blocs sont plus uniformément répartis dans les DataNodes. Plus la taille de bloc vos données sont potentiellement moins également répartis dans votre cluster.

Quel est donc le point puis d'en choisir une hausse de la taille du bloc à la place de certaines de faible valeur? Si, en théorie, l'égalité de la distribution des données est une bonne chose, avoir une trop faible, la taille de bloc a quelques inconvénients. NameNode la capacité est limitée, afin d'avoir la taille de bloc de 4 ko au lieu de 128 MO signifie aussi avoir 32768 fois plus d'informations à stocker. MapReduce pourrait également profiter de la également distribué données par le lancement de plus de la carte de tâches de plus NodeManager et plus de cœurs du PROCESSEUR, mais dans la pratique, les avantages théoriques seront perdus sur de ne pas être en mesure d'effectuer séquentielle, tamponnée lit et à cause de la latence de chaque carte tâche.
- De "MapReduce pourrait également profiter de la également distribué données par le lancement de plus de la carte de tâches de plus NodeManager et plus de cœurs de PROCESSEUR" - signifie la carte de réduire la tâche est appliquée sur une immense quantité de données?
- Je ne pouvais pas clairement à vous rendre ici ", mais dans la pratique, les avantages théoriques seront perdus sur de ne pas être en mesure d'effectuer séquentielle, tamponnée lit et à cause de la latence de chaque carte de tâche". Pouvez-vous donner des précisions sur ce point?
InformationsquelleAutor kosii
3

Dans la normale des OS de taille de bloc de 4 ko et dans hadoop il est de 64 Mo.
Parce que pour faciliter le maintien des métadonnées dans les Namenode.

Supposons que nous avons seulement 4 ko de taille de bloc dans hadoop et nous essayons de charge de 100 MO de données dans ce 4K alors ici, nous avons besoin de plus de et plus le nombre de blocs de 4K nécessaire. Et namenode besoin de conserver tous ces blocs de 4K de métadonnées.

Si nous utilisons 64 MO de taille de bloc de données va être charger en seulement deux pâtés de maisons(64 mo et 36 MO).Donc la taille de métadonnées est diminué.

Conclusion:
Afin de réduire le fardeau sur le namenode HDFS préfèrent 64 MO ou 128 MO de taille de bloc. La taille par défaut du bloc est de 64 mo dans Hadoop 1.0 et il est de 128 mo dans Hadoop 2.0.

InformationsquelleAutor Shivakumar
1

Il a plus à voir avec les disques cherche du HDD (Disque Dur, Lecteurs). Au fil du temps à la recherche de disque n'avait pas été en progression de plus quand par rapport au débit du disque. Ainsi, lorsque la taille de bloc est petit (ce qui conduit à de trop nombreux blocs) il y aura aussi de nombreuses recherches disque qui n'est pas très efficace. Comme nous faisons des progrès du HDD vers le SSD, le disque le temps de recherche n'a pas beaucoup de sens comme ils sont en mouvement les pièces en SSD.

Aussi, si il y a trop de blocs qu'il mettra à rude épreuve le Nom de Nœud. Notez que le Nom de Nœud a pour stocker l'ensemble de méta-données (données sur les blocs) dans la mémoire. Dans Apache Hadoop la taille de bloc par défaut est de 64 MO et dans le Cloudera Hadoop la valeur par défaut est de 128 MO.
- donc tu veux dire que le sous-jacent de la mise en œuvre d'un bloc de 64 mo lire n'est pas décomposé en plusieurs bloc de 4 ko lit à partir du disque? Le disque de support de la lecture de 64 mo en 1 lire? N'hésitez pas à me demander des précisions si la question n'est pas claire. Merci.
- 64 mo de HDFS bloc sera divisé en plusieurs blocs de 4 ko fichier du système d'exploitation du système de blocs.
- si 64MO HDFS bloc sera divisé en plusieurs blocs de 4 ko, ce qui est le point de l'utilisation de 64 mo de HDFS bloc?
- Pour réduire la charge sur le Serveur de Nœud. Moins de blocs de piste = peu de demandes et moins de mémoire le suivi des blocs.
- Le actuel de la taille par défaut d'Apache Hadoop est de 128 MO.
- Donc, il n'y a vraiment aucun avantage de taille de bloc de 64 ans ou 128 en ce qui concerne l'accès séquentiel? Depuis, chaque bloc peut être divisé en plusieurs système de fichiers natif de blocs?
- Il est parti comme ces blocs de 4k sont stockés sur le disque de manière contiguë ce qui signifie qu'il est, sans chercher entre un bloc 4k à la prochaine
- la taille de bloc par défaut pour hadoop 1 était de 64 MO pour hadoop 2 de ses 128 MO
- U veux dire que si j'ai 64 mo de données dans le disque de nœud esclave,8 ko blocs de 64 mo de données serait formé de manière séquentielle pour les couper vers le bas supplémentaire de temps de recherche. Est-ce exact?
- Si c'est le cas, comment le système de fichiers enregistrer les données dans un ordre séquentiel. Parce que ce n'est pas la manière dont les données sont enregistrées dans le disque. Les données seraient dispersés dans le disque.Comment le séquentiel de la formation de données se produisent dans le disque. U pourrait me donner la clarté sur cette partie. Peu confus?
- Paul, C'est une très bonne question. Le but est d'obtenir des blocs contigus de la sous-jacentes du système de fichiers. En production mise en place HDFS obtient son propre volumes, pour l'obtention de blocs contigus n'est pas un problème. Si vous mélanger avec d'autres de stockage comme mapreduce temp de données, etc, alors la question se pose. Comment c'est exactement géré je ne suis pas sûr. Vous pouvez avoir à ouvrir le code et de voir comment il est géré.
- donc, pour résumer, de minimiser les chances qu'un fichier ne peut pas être stockés sur un seul bloc? Et même si les enregistrements sont stockés non pas de manière linéaire, l'ensemble du bloc est chargé dans la mémoire après le transfert, le temps de recherche disparaît? Mais est-ce vraiment de l'aide si le sous-jacent fs utilise des blocs de 4k? Je suppose que moins de demandes de blocs, par exemple en demandant de 64 ko une fois de plus un réseau est moins cher que de demander pour 4k 16 fois par 15 allers-retours.
InformationsquelleAutor Praveen Sripati
1
1. Si la taille de bloc a été fixé à moins de 64, il y aurait un grand nombre de blocs à travers le cluster, ce qui provoque NameNode pour gérer une énorme quantité de métadonnées.
2. Puisque nous avons besoin d'un Mappeur pour chaque bloc, il y aurait beaucoup de Mappeurs, chaque traitement d'une pièce de bits de données, ce qui n'est pas efficace.
- Je suis d'accord avec (1), mais pas avec (2). Le cadre pourrait (par défaut) juste chaque mappeur de traiter avec de multiples blocs de données.
- Chaque mappeur processus de séparation, pas un bloc. De plus, même si un mappeur est affecté à une division de N blocs, la fin de la scission peut être partielle d'un enregistrement, à l'origine de l'Enregistrement de Lecteur (ce qui est spécifique à chaque enregistrement lecteur, mais généralement vrai pour ceux qui viennent avec Hadoop) pour lire le reste de l'enregistrement à partir du bloc suivant. Le point est que les cartographes souvent à la croisée des limites des blocs.
InformationsquelleAutor dpaluy
1

La raison Hadoop a choisi de 64 mo est parce que Google a choisi de 64 MO. La raison pour laquelle Google a choisi de 64 mo est due à une boucle d'or argument.

Avoir une beaucoup plus petite taille de bloc serait la cause de solliciter les frais généraux d'augmenter.

Avoir un modérément taille de bloc rend la carte tâches de courir suffisamment vite que le coût de la planification d'eux devient comparable au coût de leur exécution.

Étant nettement plus grande taille de bloc commence à diminuer la disposition de lire le parallélisme disponible et peut en fin de compte il est difficile de planifier des tâches locales pour les tâches.

Voir Google Recherche De Publication: MapReduce
http://research.google.com/archive/mapreduce.html
- Cela a déjà été mentionné dans ma réponse. Il aurait été préférable d'ajouter des commentaires à ma réponse que de poster un aswer qui ajoute que très peu avant de réponses.
InformationsquelleAutor steven
0

Ci-dessous est ce que le livre "Hadoop: The Definitive Guide", 3e édition explique(p45).

Pourquoi un Bloc dans HDFS Si Grand?

HDFS blocs sont grandes par rapport aux blocs de disque, et la raison en est à
réduire le coût de la recherche. En faisant un bloc assez grand, le temps
pour transférer les données à partir du disque peut être significativement plus longue que
le temps de chercher pour le début du bloc. Ainsi, le temps de transfert
un grand fichier en plusieurs blocs opère au transfert de disque
taux d'.

Un rapide calcul montre que si le temps de recherche est d'environ 10 ms et
le taux de transfert est de 100 MB/s, pour prendre le temps de recherche de 1% de la
le temps de transfert, nous avons besoin de la taille d'un bloc autour de 100 MO. L'
par défaut est en fait 64 MO, bien que de nombreux HDFS installations de 128 MO
les blocs. Ce chiffre continuera à être révisées à la hausse de transfert
les vitesses de grandir avec les nouvelles générations de lecteurs de disque.

Cet argument ne doit pas être pris trop loin, cependant. Carte tâches
MapReduce normalement fonctionner sur un bloc à la fois, donc si vous avez trop
quelques tâches (moins de nœuds dans le cluster), les travaux vont s'exécuter plus lentement
que ce qu'ils auraient autrement.
- Est-il possible de stocker plusieurs fichiers de petite taille (disons de la taille du fichier de 1 KO) et de le stocker dans un seul bloc de 64 mo? Si l'on pouvait stocker de multiples fichiers de petite taille dans un bloc - comment la n-ième fichier dans un bloc de lecture - est ce que le pointeur de fichier être recherchée à ce nth file emplacement de décalage - ou seront-ils ignorer n-1 fichiers avant de lire le n-ième contenu du fichier?
InformationsquelleAutor deepSleep

Vous devez vous connecter pour publier un commentaire.