Hadoop et HBase
salut, je suis nouveau sur hadoop et hbase. Je ne pouvais pas trouver c'est pourquoi nous sommes à l'utilisation d'hadoop avec hbase. Je sais hadoop est un système de fichiers, mais j'ai lu que l'on peut utiliser hbase sans hadoop alors, pourquoi sommes-nous en utilisant hadoop?
thx
source d'informationauteur
Vous devez vous connecter pour publier un commentaire.
Hadoop distributed file system nommé comme HDFS offre de multiples emplois pour nous. En fait, nous ne pouvons pas dire Hadoop n'est qu'un système de fichiers mais également de nous fournir les ressources ainsi peut-on effectuer le traitement distribué en nous fournissant un maître-esclave de l'architecture à partir de laquelle nous pouvons facilement gérer nos données.
Comme pour la HBase souci , il suffit de laissez-moi vous dire que vous ne pouvez pas vous connecter à distance à HBase sans l'aide de HDFS parce que HBase ne pouvez pas créer des clusters et il a son propre système de fichiers local.
Je pense que vous devriez voir ce lien pour une bonne intro de
hadoop!
Hadoop est une plate-forme qui nous permet de stocker et de traiter de grands volumes de données à travers les clusters de machines en parallèle..C'est un lot de système de traitement où nous n'avons pas à vous soucier de la partie interne de stockage de données ou de traitement.Il ne fournit pas seulement HDFS, le système de fichiers distribués pour le stockage fiable des données, mais aussi un framework de traitement, MapReduce, qui permet le traitement d'énormes ensembles de données à travers les clusters de machines en parallèle.L'un des plus grand avantage de Hadoop est qu'il fournit des données locality.By je veux dire que le déplacement de données qui est énorme est coûteux.Donc Hadoop se déplace de calcul pour les données.Les deux Hdfs et MapReduce sont hautement optimisé pour fonctionner avec de très gros volumes de données.Hdfs assure une haute disponibilité et de basculement par le biais de la réplication de données, de sorte que si l'une des machines de votre cluster est en baisse en raison d'une catastrophe quelconque, vos données sont toujours en sécurité et disponibles.
D'autre part Hbase est une base de données NoSQL.Nous pouvons penser que c'est un distribué des, évolutive, grand magasin de données.Il est utilisé pour surmonter les pièges de la Sf comme "l'incapacité de lecture et d'écriture aléatoires". Hbase est un bon choix si nous avons besoin d'aléatoire, en temps réel accès en lecture/écriture aux données.Il a été modélisé d'après de Google BigTable", tandis que Hdfs a été modélisé d'après le GFS(système de fichiers de Google).Il n'est pas nécessaire d'utiliser Hbase sur le dessus Hdfs.Nous pouvons utiliser Hbase avec d'autres magasin persistant comme "S3" ou "EBS".Si vous voulez savoir sur Hadoop et Hbase dans deatil, vous pouvez visiter les pages d'accueil respectives -"hadoop.apache.org" et "hbase.apache.org". vous pouvez également passer par les livres suivants, si vous voulez apprendre en profondeur "Hadoop.L'.Définitif.Guide" et "HBase.L'.Définitif.Guide".
Il y a peu à ajouter à ce que j'ai déjà dit. Hadoop est un système de fichiers distribués (HDFS) et MapReduce (un cadre pour le calcul distribué). HBase est la clé-valeur en magasin de données construite au-dessus d'Hadoop (sens sur le dessus de HDFS).
La raison d'utiliser des HBase au lieu de la plaine Hadoop est principalement pour faire des lectures et écritures aléatoires. Si vous utilisez de la plaine Hadoop vous eu à lire le jeu de données entier chaque fois que vous voulez exécuter un travail de MapReduce.
Je trouve aussi utile pour importer les données HBase si je travaille avec des milliers de petits fichiers.
Je vous recommande ce parler par Todd Lipcon (Cloudera): "Apache HBase: une introduction" http://www.slideshare.net/cloudera/chicago-data-summit-apache-hbase-an-introduction
HBase peut être utilisé sans Hadoop. L'exécution de HBase en mode autonome va utiliser le système de fichiers local.
Hadoop est juste un système de fichiers distribué de la redondance et de la capacité à l'échelle de très grandes tailles. La raison arbitraire des bases de données ne peut pas être exécuté sur Hadoop est parce que la SF est un append-only file system, et de ne pas conformes à POSIX. La plupart des bases de données SQL nécessitent la capacité de rechercher et de modifier les fichiers existants.
HBase a été conçu avec HDFS limitations à l'esprit. CouchDB pourrait en théorie être porté à exécuter sur HDFS, car il utilise également un append-only format de fichier.
Je voudrais essayer de mettre des conditions plus strictes de commande.
Hadoop est un ensemble de technologies intégrées. Les plus remarquables pièces sont les suivantes:
HDFS - système de fichiers distribués spécialement conçu pour les massifs de traitement de données
MapReduce le cadre de la mise en œuvre de la Carte de Réduire paradigme ove les systèmes de fichiers distribués, où HDFS - l'un d'eux. Il peut travailler sur d'autres DFS - par exemple Amazon S3.
HBase - distribué triés clé-valeur de la carte intégrée sur le dessus de la dsv. Au meilleur de ma connaissance, HDFS est seulement DFS mise en œuvre compatible avec HBase. HBase besoin ajouter de la capacité à écrire son écriture à l'avance le journal. Par exemple DFS sur amazon s3 ne le supporte pas.
une chose que vous devez garder à l'esprit - de l'ACIDE propriétés ne sont pas encore pris en charge par HBase.
HBase prend en charge l'Atomicité sur une LIGNE de NIVEAU.
Vous devriez essayer de lire le MVCC mise en œuvre.
Aussi, lire à ce sujet LSM Vs B+ arbres dans les SGBDR.
Hadoop se compose de 2 éléments principaux.
L'explication pour les deux sont donnés ci-dessous,
HDFS est un fichier système qui fournit un stockage fiable et avec une haute tolérance aux pannes(à l'aide de la réplication) en répartissant les données sur un ensemble de nœuds. Il se compose de 2 composants, NameNode(Où les métadonnées sur le système de fichier est enregistré.) et datanodes(qui peuvent être multiples. Ils sont où les données distribuées sont stockées.)
Réduire la carte est un ensemble de 2 types de java démons appelé "Job-Tracker" et de "Tracker". Généralement, Emploi-Tracker démon régit les travaux à être exécutés, alors que la Tâche de suivi des démons sont les démons qui s'exécutent sur les données des nœuds dans lequel les données sont distribués de façon à ce qu'ils peuvent calculer le programme de la logique d'exécution fournies par l'utilisateur spécifiques aux données contenues dans les données correspondantes-nœud.
Donc, pour résumer, HDFS est le composant de stockage et de Réduire la Carte est l'Exécution d'un composant.
HBase sur l'Autre Main se compose de 2 composants à nouveau,
HMaster - Qui consiste à les métadonnées de nouveau.
RegionServers - Ces sont un autre ensemble de services en cours d'exécution sur le dessus de la data-nœud dans le cluster HDFS de stocker et de calculer la base de données les données connexes dans le cluster HDFS(Nous stockons cette dans HDFS, afin d'exploiter les fonctionnalités de base de HDFS qui est la réplication des données et de la tolérance de panne).
La différence entre la Carte-Réduire les Démons et Hbase-RegionServer les Démons qui s'exécutent sur HDFS est que, la Carte-Réduire les Démons uniquement effectuer Map-reduce(Agrégation) type de travaux, alors que la Hbase-RegionServer démons exécuter la Base de données des fonctionnalités telles que la lecture, l'écriture, etc.
Son dans le seul but de la Distribution et de vitesse de lit. Ce qui se passe dans Hbase est que Les données sont auto "fragmenté" (partitionné), conduit par votre rowkey affectation. Il est important de choisir intelligent rowkeys parce qu'ils sont triés en binaire. Gardez à l'esprit que la "fragmenté" sous-ensembles de données de split à quelque chose qui s'appelle la région des serveurs. Il peut y avoir plusieurs serveurs de région sur chaque machine de votre cluster. Si vous n'avez pas de distribuer vos données sur un multi-nœud hadoop cluster, vous ne serez pas en mesure d'utiliser la puissance de traitement de plusieurs machines à la recherche en parallèle de leurs sous-ensembles de données de résultats de retour à votre client des applications d'interrogation.
Espérons que cette aide.