Qu'entend-on par données / datastore / base de données fragmentées?

Ont été lu sur Hadoop et HBase ces derniers temps, et suis tombé sur ce terme-

HBase est un open-source, distribué, éparsesorientée sur la colonne magasin...

Que veulent-ils dire par éparses? A-t-elle quelque chose à voir avec un sparse matrix? Je devine que c'est une propriété de type de données permet de stocker efficacement, et donc, aimerait en savoir plus.

source d'informationauteur Jai

15

Dans une base de données classique, les lignes sont rares, mais les colonnes ne sont pas. Quand une ligne est créée, le stockage est alloué pour chaque colonne, indépendamment de savoir si une valeur existe pour le champ (un champ en cours de stockage alloué à l'intersection d'une ligne et d'une colonne).

Cela permet de longueur fixe les lignes améliorer grandement la lecture et le temps d'écriture. La longueur Variable des types de données sont traitées avec un analogue de pointeurs.

Colonnes fragmentées, entraînera une pénalité de performances et sont peu à vous faire économiser beaucoup d'espace disque, car l'espace nécessaire pour indiquer la valeur NULL est plus petite que la version 64 bits du pointeur requis pour la liste liée style de enchaînés pointeur à l'architecture typiquement utilisés pour mettre en œuvre de très grande non contigus de stockage.

De stockage n'est pas cher. La Performance n'est pas.
3

Au niveau du stockage, toutes les données sont stockées comme une paire clé-valeur. Chaque fichier de stockage contient un index pour qu'il sache où chaque clé-valeur commence et combien de temps il est.

Comme une conséquence de cela, si vous avez de très longues clés (par exemple, une URL complète), et un grand nombre de colonnes est associé à cette touche, vous pourriez être en train de perdre de l'espace. C'est quelque peu atténuées en tournant la compression sur.

Voir:
http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.html

pour plus d'informations sur HBase de stockage
2

Éparses dans le respect de HBase est en effet utilisé dans le même contexte que d'une matrice creuse. Cela signifie essentiellement que les champs qui sont nuls sont libres de store (dans l'espace).

J'ai trouvé quelques posts sur ce sujet dans un peu plus en détail:

http://blog.rapleaf.com/dev/2008/03/11/matching-impedance-when-to-use-hbase/

http://jimbojw.com/wiki/index.php?title=Understanding_Hbase_and_BigTable
1

Le meilleur article que j'ai vu, ce qui explique de nombreuses bases de données.

> http://jimbojw.com/#understanding%20hbase
0

Il y a deux moyen de stockage des données dans les tableaux, ce sera soit des données Éparses et Dense de données.
exemple pour le peu de données.

Supposons que nous avons à effectuer une opération sur une table contenant des données sur les ventes de la transaction par le salarié entre le mois jan2015 à novembre 2015, puis après le déclenchement de la requête, nous allons obtenir les données qui satisfait au-dessus d'horodatage condition
si l'employé n'a pas effectué aucune transaction puis l'ensemble de la ligne sera de retour vide

par exemple.
EMPNo Nom Du Produit Date De La Quantité
```
 1234  Mike    Hbase    2014/12/01     1
 5678                                        
 3454  Jole    Flume    2015/09/12   3
```
la ligne avec empno5678 n'avons pas de données et le reste des lignes contenant les données si l'on considère l'ensemble de la table avec des blancs de ligne et peuplée ligne, ensuite on peut qualifier que de peu de données.

Si nous prenons uniquement peuplée de données, puis il est appelé aussi dense données.

Vous devez vous connecter pour publier un commentaire.