Hbase rapidement compter le nombre de lignes

Droit maintenant, j'en œuvre de nombre de lignes sur ResultScanner comme ce

for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
    number++;
}

Si les données de rejoindre des millions de temps de calcul est important.Je veux calculer en temps réel que je ne veux pas utiliser Mapreduce

Rapidement comment compter le nombre de lignes.

InformationsquelleAutor cldo | 2012-07-07

96

Utilisation RowCounter dans HBase
RowCounter est un travail de mapreduce pour compter toutes les lignes d'une table. C'est un bon utilitaire pour l'utiliser comme un test de cohérence pour s'assurer que HBase pouvez lire tous les blocs d'une table si il y a des préoccupations de métadonnées de l'incohérence. Il sera exécuté le mapreduce le tout dans un seul processus, mais il sera exécuté plus rapidement si vous avez une MapReduce cluster en place pour exploiter.
```
$ hbase org.apache.hadoop.hbase.mapreduce.RowCounter <tablename>

Usage: RowCounter [options] 
    <tablename> [          
        --starttime=[start] 
        --endtime=[end] 
        [--range=[startKey],[endKey]] 
        [<column1> <column2>...]
    ]
```
- K, de l'exécution de cette, où faut-il imprimer la réponse? org.apache.hadoop.hbase.mapreduce.RowCounter$RowCounterMapper$Counters ROWS=55438 <- ce que c'est?
- HBase temps "nom de table" est super lent. Hive et Pig sont plus rapides. Mais cette réponse est la meilleure en termes de vitesse!
InformationsquelleAutor Basil Saju
31

Vous pouvez utiliser le comte de la méthode dans hbase pour compter le nombre de lignes. Mais oui, compter les lignes d'un tableau de grande taille peut être lent.le comte "tablename" [intervalle]

Valeur de retour est le nombre de lignes.

Cette opération peut prendre du temps (Run ‘$HADOOP_HOME/bin/hadoop jar
hbase.jar rowcount " pour exécuter un comptage travail de mapreduce). Le nombre actuel est indiqué
tous les 1000 lignes par défaut. Comptage de l'intervalle peut éventuellement être indiqué. Scan
la mise en cache est activée sur le comte contrôle par défaut. Taille du cache par défaut est de 10 lignes.
Si vos lignes sont de petite taille, vous pouvez augmenter ce
le paramètre.

Exemples:
```
hbase> count 't1'

hbase> count 't1', INTERVAL => 100000

hbase> count 't1', CACHE => 1000

hbase> count 't1', INTERVAL => 10, CACHE => 1000
```
Les mêmes commandes peuvent également être exécuté sur une table de référence. Supposons que vous ayez une référence à la table t1, les commandes correspondantes seraient:
```
hbase> t.count

hbase> t.count INTERVAL => 100000

hbase> t.count CACHE => 1000

hbase> t.count INTERVAL => 10, CACHE => 1000
```
- Ce compteur fonctionne très lente et peut être consulté à partir de hbase coque. Pour les grandes tables de son recommandé de ne pas utiliser.
- exactement
InformationsquelleAutor Neethu

Si vous ne pouvez pas utiliser RowCounter pour quelque raison que ce soit, alors la combinaison de ces deux filtres de manière optimale afin d'obtenir un décompte:

FirstKeyOnlyFilter() AND KeyOnlyFilter()

La FirstKeyOnlyFilter entraînera le scanner ne revenant à la première colonne qualificatif qu'il trouve, contrairement au scanner le retour de tous les de la colonne qualificatifs dans la table, ce qui permettra de réduire au minimum le réseau de bande passante. Qu'en est simplement en la sélectionnant une colonne qualifier au retour? Cela pourrait fonctionner si vous pouviez garantir que la colonne qualificatif existe pour chaque ligne, mais si que n'est pas vrai, alors vous obtiendrez une inexactes comte.

La KeyOnlyFilter entraînera le scanner ne revenant à la famille de la colonne, et ne retourne aucune valeur pour la colonne de qualification. Cela réduit d'autant la bande passante du réseau, qui, dans le cas général ne serait pas en compte beaucoup de réduction, mais il peut être un cas limite où la première colonne choisie par le filtre précédent se trouve être une très grande valeur.

J'ai essayé de jouer avec les scan.setCaching mais les résultats étaient tous sur la place. Elle pourrait peut-être aider.

J'ai eu 16 millions de lignes entre un début et de fin que j'ai fait la pseudo-empirique:

Avec FirstKeyOnlyFilter et KeyOnlyFilter activé: 

Avec la mise en cache pas ensemble (c'est à dire, la valeur par défaut), il a fallu 188 secondes. 
Avec la mise en cache à 1, il a fallu 188 secondes 
Avec la mise en cache défini sur 10, il a fallu 200 secondes 
Avec la mise en cache fixée à 100, il a fallu 187 secondes 
Avec la mise en cache à 1000, il a fallu 183 secondes. 
Avec la mise en cache 10000, il a fallu 199 secondes. 
Avec la mise en cache fixé à 100000, il a fallu 199 secondes. 

Avec FirstKeyOnlyFilter et KeyOnlyFilter désactivé: 

Avec la mise en cache pas, (c'est à dire, la valeur par défaut), il a fallu 309 secondes

Je n'ai pas pris la peine de faire les tests appropriés de cela, mais il semble clair que le FirstKeyOnlyFilter et KeyOnlyFilter sont bonnes.

En outre, les cellules de ce tableau sont très petits, donc je pense que les filtres aurait été encore mieux sur une autre table.

Voici un exemple de code Java:

importer java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Résultat; 
import org.apache.hadoop.hbase.client.ResultScanner; 
import org.apache.hadoop.hbase.client.D'analyse; 
import org.apache.hadoop.hbase.util.D'octets; 

import org.apache.hadoop.hbase.le filtre.RowFilter; 
import org.apache.hadoop.hbase.le filtre.KeyOnlyFilter; 
import org.apache.hadoop.hbase.le filtre.FirstKeyOnlyFilter; 
import org.apache.hadoop.hbase.le filtre.Liste de filtres; 

import org.apache.hadoop.hbase.le filtre.CompareFilter.CompareOp; 
import org.apache.hadoop.hbase.le filtre.RegexStringComparator; 

public class HBaseCount { 
public static void main(String[] args) throws IOException { 
Configuration config = HBaseConfiguration.create(); 

HTable tableau = new HTable(config, "ma_table"); 

Scanner scan = new Scanner( 
Octets.toBytes("foo"), les Octets.toBytes("foo~") 
); 

if (args.length == 1) { 
la numérisation.setCaching(Integer.valueOf(args[0])); 
} 
Système.out.println("analyse de la mise en cache est" + scan.getCaching()); 

Filtre allFilters = new liste de filtres(); 
allFilters.addFilter(nouveau FirstKeyOnlyFilter()); 
allFilters.addFilter(nouveau KeyOnlyFilter()); 

la numérisation.setFilter(allFilters); 

ResultScanner scanner = table.getScanner(scan); 

int count = 0; 

long start = System.currentTimeMillis(); 

try { 
pour (Résultat rr = scanner.next(); rr != null; rr = scanner.next()) { 
compteur += 1; 
if (count % de 100000 == 0) System.out.println(count); 
} 
} finally { 
scanner.close(); 
} 

long fin = Système.currentTimeMillis(); 

long délai = fin - début; 

Système.out.println("temps Écoulé a été" + (elapsedTime/1000F)); 

} 
}

Ici est un pychbase exemple de code:

 de pychbase importation de Connexion 
c = Connexion() 
t = c.tableau('ma_table') 
# Sous le capot, cette applique la FirstKeyOnlyFilter et KeyOnlyFilter 
# similaire à la happybase exemple ci-dessous 
imprimer t.count(row_prefix="foo")

Ici est un Happybase exemple de code:

 de happybase importation de Connexion 
c = Connexion(...) 
t = c.tableau('ma_table') 
count = 0 
pour _ t.scan(filtre='FirstKeyOnlyFilter() ET KeyOnlyFilter()'): 
count += 1 

imprimer le comte

Grâce à @Tuckr et @KennyCason pour l'astuce.

InformationsquelleAutor Matthew Moisen

7

Utiliser le HBase rowcount travail map/reduce qui est inclus avec HBase
- J'ai utilisé le code source pour le nombre de lignes de l'exemple, et enregistrer le résultat dans une variable, j'ai eu le comptoir à l'aide de: job.getCounters().findCounter(RowCounter.RowCounterMapper.Counters.ROWS).getValue();
InformationsquelleAutor Arnon Rotem-Gal-Oz
5

Simple, Efficace et Efficiente de la façon de compter les ligne dans HBASE:
1. Chaque fois que vous insérez une ligne de déclenchement de cette API qui va incrémenter cette cellule particulière.
```
Htable.incrementColumnValue(Bytes.toBytes("count"), Bytes.toBytes("details"), Bytes.toBytes("count"), 1);
```
2. De vérifier le nombre de lignes présentes dans le tableau. Suffit d'utiliser "Get" ou "scan" de l'API pour cette Ligne particulière "compter".
En utilisant cette Méthode, vous pouvez obtenir le nombre de lignes en moins d'une milliseconde.
- c'est un bon moyen.Mais le temps hbase utiliser l'incrément de temps plus que hbase mettre des données.
- que faire si la ligne existe déjà et sa mise à jour? cela peut compter les lignes supplémentaires, non?
- pas de.Je veux dire "le temps hbase utiliser l'incrément de temps plus'. Je veux courir plus vite
- Et si le chargement de données n'est pas par le biais de la hbase API, comme en bloc
InformationsquelleAutor Balaji
4

À compter de l'enregistrement de la table Hbase compter sur un bon FIL de cluster, vous devez définir la carte de réduire la file d'attente de travail nom:
```
hbase org.apache.hadoop.hbase.mapreduce.RowCounter -Dmapreduce.job.queuename= < Your Q Name which you have SUBMIT access>
 < TABLE_NAME>
```
InformationsquelleAutor Dean Jain
3

Vous pouvez utiliser le coprocesseur de ce qui est disponible depuis HBase de 0,92. Voir Coprocesseur et AggregateProtocol et exemple
- Il a travaillé pour moi, juste une simple commande "count 'myTable'", merci 🙂
InformationsquelleAutor Alexander Kuznetsov
1

Si vous utilisez un scanner, scanner essayer de revenir le plus petit nombre de qualificatifs que possible. En fait, le qualificatif(s) que vous ne retour doit être la plus petite (en taille en octets) que vous avez disponible. Cela permettra d'accélérer votre analyse énormément.

Malheureusement, cela ne fera que l'échelle de mesure (en millions de milliards?). Pour aller encore plus loin, vous pouvez le faire en temps réel, mais vous devez d'abord exécuter un travail de mapreduce pour compter toutes les lignes.

Magasin Mapreduce sortie dans une cellule dans HBase. Chaque fois que vous ajoutez une ligne, incrémente le compteur de 1. Chaque fois que vous supprimez une ligne, décrémente le compteur.

Lorsque vous avez besoin d'accéder au nombre de lignes en temps réel, vous avez bien lu le champ dans HBase.

Il n'y a aucun moyen rapide de compter les lignes, autrement, d'une manière qui les échelles. Vous ne pouvez compter si vite.
- En fait au lieu de "retour le moins de qualificatifs que possible" vous shoul utilisation FirstKeyOnlyFilter. un Scan de filtre
- Exactement ce que fait le FirstKeyOnlyFilter faire? À partir de la [thrift docs](, je ne pouvais pas comprendre cette explication: [FirstKeyOnlyFilter] returns only the first key-value from each row -- Est-ce à dire qu'il choisit juste la première cellule et renvoie celui-ci?
- Ok après un essai, il semblerait qu'à choisir la première cellule et de ne renvoyer que celui-là. Pourquoi voulez-vous suggérer cette sur @Tucker propose de le renvoyer le plus petit qualificatif? Par exemple, si la première valeur-clé choisi par FirstKeyOnlyFilter a une très grande valeur, alors ce serait de ralentir le scan. D'autre part, si vous choisissez le qualificatif qui a la plus petite valeur, mais ce qualificatif n'apparaît pas dans toutes les lignes que vous souhaitez compter, alors vous aurez un inexactes comte.
- Ok j'ai trouvé ça: Utiliser FirstKeyOnlyFilter() AND KeyOnlyFilter(). Le KeyOnlyFilter empêchera la valeur de la colonne d'être transmis sur le réseau.
InformationsquelleAutor Tucker

U peut trouver un exemple de exemple ici:

/**
     * Used to get the number of rows of the table
     * @param tableName
     * @param familyNames
     * @return the number of rows
     * @throws IOException
     */
    public long countRows(String tableName, String... familyNames) throws IOException {
        long rowCount = 0;
        Configuration configuration = connection.getConfiguration();
        //Increase RPC timeout, in case of a slow computation
        configuration.setLong("hbase.rpc.timeout", 600000);
        //Default is 1, set to a higher value for faster scanner.next(..)
        configuration.setLong("hbase.client.scanner.caching", 1000);

        AggregationClient aggregationClient = new AggregationClient(configuration);
        try {
            Scan scan = new Scan();
            if (familyNames != null && familyNames.length > 0) {
                for (String familyName : familyNames) {
                    scan.addFamily(Bytes.toBytes(familyName));
                }
            }
            rowCount = aggregationClient.rowCount(TableName.valueOf(tableName), new LongColumnInterpreter(), scan);
        } catch (Throwable e) {
            throw new IOException(e);
        }
        return rowCount;
    }

Est-il un moyen de prouver que configuration.setLong("hbase.client.scanner.caching", 1000); œuvres? Par exemple, si je l'ai mis, et plus tard à scanner.getCaching(), il sera de retour -1.
AggregationClient a été retiré de hbase 3.1.0.

InformationsquelleAutor Ranga Reddy

1

Aller à Hbase maison répertoire et exécutez cette commande,

./bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'espace de noms:nom de la table'

Cela permettra de lancer un travail de mapreduce et la sortie afficher le nombre d'enregistrements existants dans la table hbase.

InformationsquelleAutor jack AKA karthik

Deux façons Travaillé pour moi de me nombre de lignes de table hbase avec la Vitesse

Scénario #1

Si hbase la taille de la table est petite, puis connectez-vous à hbase shell avec d'utilisateur valide et d'exécuter

>count '<tablename>'

Exemple

>count 'employee'

6 row(s) in 0.1110 seconds

Scénario #2

Si hbase la taille de la table est grande,alors exécuter intégré RowCounter carte de réduire l'emploi:
Connexion à hadoop machine avec d'utilisateur valide et de l'exécuter:

/$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter '<tablename>'

Exemple:

 /$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'employee'

     ....
     ....
     ....
     Virtual memory (bytes) snapshot=22594633728
                Total committed heap usage (bytes)=5093457920
        org.apache.hadoop.hbase.mapreduce.RowCounter$RowCounterMapper$Counters
                ROWS=6
        File Input Format Counters
                Bytes Read=0
        File Output Format Counters
                Bytes Written=0

InformationsquelleAutor Harsimranjit Singh Kler

-1

Vous pouvez essayer de hbase méthodes de l'api de!

org.apache.hadoop.hbase.client.coprocesseur.AggregationClient
- Pourriez-vous fournir un peu plus de contexte pour votre réponse ainsi que quelques liens vers des documents pertinents?
- AggregationClient n'est pas disponible dans hbase 3.1.0
InformationsquelleAutor draw

Vous devez vous connecter pour publier un commentaire.