select count(*) s'exécute dans des problèmes de délai dans Cassandra

C'est peut-être une question stupide, mais je ne suis pas en mesure de déterminer la taille d'une table de Cassandra.

C'est ce que j'ai essayé:

select count(*) from articles;

Il fonctionne très bien si la table est petite, mais une fois qu'il se remplit, j'ai toujours courir dans des problèmes de délai d'attente:

cqlsh:

OperationTimedOut: erreurs={}, last_host=127.0.0.1

DBeaver:

Run 1: de 225 000 (7477 ms)
Run 2: 233,637 (8265 ms)
Run 3: 216,595 (7269 ms)

Je suppose qu'il frappe certains de délai d'expiration et simplement abandonnée. Le nombre réel d'entrées dans la table est probablement beaucoup plus élevé.

Je suis en essais contre un local instance de Cassandra qui est complètement inactif. Je ne me dérangerait pas si il a faire un full table scan et ne répond pas pendant ce temps.

Est-il un moyen fiable pour compter le nombre d'entrées dans un Cassandra table?

Je suis à l'aide de Cassandra 2.1.13.

InformationsquelleAutor Philipp Claßen | 2016-04-20

cassandra cql

14

Autant que je vois que vous problème lié au délai d'attente de cqlsh: OperationTimedOut: erreurs={}, last_host=127.0.0.1

vous pouvez simplement augmenter avec les options:
```
 --connect-timeout=CONNECT_TIMEOUT
                       Specify the connection timeout in seconds (default: 5
                       seconds).
 --request-timeout=REQUEST_TIMEOUT
                       Specify the default request timeout in seconds
                       (default: 10 seconds).
```
- Merci! Oui, avec une augmentation du délai d'attente, SÉLECTIONNEZ retourne le nombre d'éléments.
- Augmentant à la fois les délais d'attente ne fonctionne pas pour moi :/ j'ai mis les deux à 100 secondes, mais cqlsh a échoué au bout de 16 secondes avec ReadTimeout: Error from server: code=1200 [Coordinator node timed out waiting for replica nodes' responses]. À l'aide de COPY TO par @PhilippClaßen réponse était la seule façon que je pouvais calculer le nombre de lignes.
- Augmentant à la fois les délais d'attente ne fonctionne pas pour moi non plus. J'ai aussi utilisé la COPIE tablename À "/dev/null'; pour obtenir le nombre. Peut-être qu'il est de format spécifique pour fournir --connect-timeout et-la demande-délai d'attente?
InformationsquelleAutor Oleksandr Petrenko
12

Voici ma solution actuelle:
```
COPY articles TO '/dev/null';
...
3568068 rows exported to 1 files in 2 minutes and 16.606 seconds.
```
De fond: Cassandra prend en charge à
exporter une table vers un fichier texte, par exemple:
```
COPY articles TO '/tmp/data.csv';
Output: 3568068 rows exported to 1 files in 2 minutes and 25.559 seconds
```
Qui correspond également au nombre de lignes dans le fichier généré:
```
$ wc -l /tmp/data.csv
3568068
```
- La commande de COPIE est fait d'un véritable cluster de numérisation comme COUNT (*), et cette solution ne va pas à l'échelle, soit. Comme d'autres l'ont mentionné que vous aurez à régler pour un environ le nombre de lignes pour maintenir la vitesse et de la stabilité dans votre cluster. Les Options sont. Compteur de colonnes, hyperloglog, ou la lecture de vos tables de métadonnées de vous donner une estimation du nombre de partitions il y a des.
- Je suis OK avec autant sacrifier l'évolutivité, que mon intention était seulement de comprendre ce qui se passe dans mon environnement local de développement. Je suis d'accord que ce n'est pas une solution qui peut être utilisée en production.
InformationsquelleAutor Philipp Claßen
9

Est-il un moyen fiable pour compter le nombre d'entrées dans un Cassandra table?

Réponse est simple pas. Ce n'est pas un Cassandra limitation, mais un défi pour systèmes distribués pour compter les éléments uniques de manière fiable.

C'est le défi que le rapprochement des algorithmes tels que HyperLogLog adresse.

Une solution possible est d'utiliser contre Cassandra pour compter le nombre de lignes distinctes mais même compteurs peut díerreur de calcul dans certains cas de coin de sorte que vous aurez quelques % d'erreur.

InformationsquelleAutor doanduyhai
3

C'est un bon utilitaire pour compter les lignes qui évite les problèmes de délai d'attente qui se produisent lors de l'exécution d'un grand COUNT(*) Cassandra:

https://github.com/brianmhess/cassandra-count

InformationsquelleAutor Kat
0

La raison en est simple:

Lorsque vous êtes en utilisant:
```
SELECT count(*) FROM articles;
```
il a le même effet sur la base de données:
```
SELECT * FROM articles;
```
Vous avez à la recherche sur tous les nœuds. Cassandra fonctionne tout simplement dans un délai.

Vous pouvez modifier le délai d'attente, mais ce n'est pas une bonne solution. (Pour une fois, c'est très bien, mais ne pas l'utiliser dans les requêtes.)

Il y a une meilleure solution: faire de votre client de compter vos lignes. Vous pouvez créer une application java où vous comptez vos rangs, vous de les insérer, et d'insérer le résultat à l'aide d'un compteur de colonne dans une Cassandra table.

InformationsquelleAutor Citrullin
0

Vous pouvez utiliser Cassandra nodetool:

nodetool tablestats <keyspaceName>.<tableName>

Et d'obtenir en réponse:

Nombre de touches (estimation): compter
- basé sur la documentation officielle (docs.datastax.com/en/cassandra/3.0/cassandra/tools/...) Nombre de touches est le nombre de clés de partition pour ce tableau, pas le nombre de clés primaires. Cela vous donne une estimation du nombre de partitions dans le tableau.
InformationsquelleAutor darky
0

Vous pouvez utiliser la copie pour éviter de cassandra délai d'attente se produit généralement sur count(*)

utiliser cette bash

cqlsh -e "copy keyspace.table_name (first_partition_key_name) to '/dev/null'" | sed -n 5p | sed 's/.*//'

InformationsquelleAutor Shubham

Vous devez vous connecter pour publier un commentaire.