Rôle du datanode, regionserver dans l'intégration Hbase-hadoop

À partir de ma compréhension de l'insertion de lignes dans les tables HBase et sont stockées sous la forme de régions différentes de la région de serveur. Ainsi, la région server stocke les données

La même manière en termes de Hadoop, les données sont stockées dans les données des nœuds présents dans le cluster hadoop.

Permet de dire que j'ai HBase 0.90.6 configuré sur le dessus d'Hadoop 1.1.1 comme suit

2 nœuds - maître et de l'esclave

Nœud maître agit comme,
- Hadoop - Namenode, Secondary Namenode, tracker d'emploi, nœud de données, tâches tracker
- HBase - Maître, RegionServer et zookeeper.
Nœud esclave actes,
- Hadoop datanode et task tracker
- HBase région serveur

Basé sur mon relevé de compte si le tableau de données est stockée dans les serveurs de région; ensuite, quel est le rôle des données de nœuds et de serveurs de région?

source d'informationauteur learninghuman

hadoop hbase

36

De données des nœuds de stocker des données. Région serveur(s) substance tampon opérations d'e/S; les données sont stockées en permanence sur HDFS (qui est, les données des nœuds). Je ne pense pas que le fait de mettre la région sur votre serveur "maître" nœud est une bonne idée.

Ici est une image simplifiée de la façon dont les régions sont gérés:

Vous disposez d'un cluster en cours d'exécution HDFS (NameNode + DataNodes) avec facteur de réplication de 3 (chaque HDFS bloc est copié dans 3 différents DataNodes).

Vous exécutez RegionServers sur les mêmes serveurs que les DataNodes. Lors de la demande d'écriture vient à RegionServer d'abord écrit les modifications dans la mémoire et journal de validation; puis, à un certain moment, il décide qu'il est temps pour écrire les changements dans le stockage permanent sur HDFS. C'est là que la localité des données entre en jeu: depuis que vous exécutez RegionServer et DataNode sur le même serveur, premier HDFS bloc réplique du fichier sera écrit sur le même serveur. Deux autres répliques ne sera écrit sur, bien, d'autres DataNodes. Comme un résultat RegionServer desservant la région sera presque toujours avoir accès à une copie locale des données.

Que si RegionServer se bloque ou RegionMaster a décidé de réaffecter une région à l'autre RegionServer (pour garder cluster équilibré)? Nouveau RegionServer sera forcé d'effectuer à distance le lire en premier, mais dès que le compactage est effectué (fusion de journal des modifications dans les données) - le nouveau fichier sera écrit HDFS par la nouvelle RegionServer, et copie locale sera créé sur le RegionServer (encore une fois, parce que DataNode et RegionServer fonctionne sur le même serveur).

Remarque: en cas de RegionServer crash, les régions précédemment affecté sera réaffecté à de multiples RegionServers.

Bonnes lectures:
- Tom White, "Hadoop, Le Guide Définitif" a la bonne explication de HDFS architecture. Malheureusement je n'ai pas lu d'origine Google GFS papier, donc je ne peux pas dire si c'est facile à suivre.
- Google BigTable article. HBase est la mise en œuvre de BigTable de Google, et j'ai trouvé que la description de l'architecture dans cet article est le plus facile à suivre.
Voici la nomenclature des différences entre Google Bigtable et HBase de mise en œuvre (à partir de Lars George, "HBase, Le Guide Définitif"):
- HBase - Bigtable
- Région - Tablette
- RegionServer - Tablette serveur
- Flush - Mineur compactage
- Mineur de compactage - la Fusion de compactage
- Majeur de compactage - Major de compactage
- Write ahead log - journal de validation
- HDFS - GFS
- Hadoop MapReduce - MapReduce
- MemStore - memtable
- HFile - SSTable
- Zookeeper - Chubby

Vous devez vous connecter pour publier un commentaire.