CQL SÉLECTIONNEZ supérieur de la requête sur l'indexation non-colonne de clé

EDIT1: ajout d'un cas à décrire le problème après la question d'origine.

Je souhaite interroger sur une colonne qui ne fait pas partie de ma clé. Si je comprends bien, j'ai besoin de définir un index secondaire sur cette colonne. Cependant, je souhaite utiliser un plus grand que la condition (pas seulement la condition d'égalité) et qui semble toujours pas pris en charge.

Suis-je raté quelque chose?
Comment voulez-vous résoudre ce problème?

Ma Configuration souhaitée:

Cassandra 1.1.6
CQL3

CREATE TABLE Table1(
             KeyA int,
             KeyB int,
             ValueA int,
             PRIMARY KEY (KeyA, KeyB)
           );

CREATE INDEX ON Table1 (ValueA);

SELECT * FROM Table1 WHERE ValueA > 3000;

Depuis la définition d'un index secondaire sur ColumnFamilies avec des Clés Composites est toujours pas pris en charge dans Cassandra 1.1.6-je régler le solde sur une solution temporaire de décrocher l'une des clés, mais j'ai toujours le même problème avec la non égalité de conditions.

Est-il une autre façon de régler ce problème?

Je vous remercie pour votre temps.

Sources pertinentes:
http://cassandra.apache.org/doc/cql3/CQL.html#selectStmt
http://www.datastax.com/docs/1.1/ddl/indexes

EDIT1

Voici un cas qui va vous expliquer le problème. Comme rs-atl noté, il pourrait être un modèle de données d'un problème. Disons que je garde une colonne de la famille de tous les utilisateurs sur stackoverflow. pour chaque utilisateur je garde un lot de stats (Réputation, NumOfAnswers, NumOfVotes... ils sont tous de type int). Je veux interroger sur ces stats pour obtenir des utilisateurs concernés.

CREATE TABLE UserStats(
             UserID int,
             Reputation int,
             NumOfAnswers int,
             .
             .
             .
             A lot of stats...
             .
             .
             .
             NumOfVotes int,
             PRIMARY KEY (UserID)
           );

Maintenant, je suis intéressé dans de découpage UserID est basé sur ces stats. Je veux que tous les utilisateurs avec plus de 10K réputation, je veux que tous les utilisateurs avec moins de 5 réponses, etc. etc.

J'espère que ça aide. Merci encore.

Vous avez raison que vous devez avoir un état d'égalité. Il y a de nombreux posts qui ont été faites à discuter les raisons pour cela. Je serais heureux de vous aider avec un bon modèle de données si vous poster le problème réel. Comme il a été dit beaucoup de fois avant, mais répétons-le, avec Cassandra vous devez le modèle de vos données pour répondre à vos questions.
Tout d'abord, merci d'avoir accepté de l'aider. Je vais modifier mon post et de décrire un cas simple qui s'adapte le problème. Si vous êtes intéressé par mon modèle de conception, vous pouvez le trouver ici: stackoverflow.com/questions/13131254/... La colonne correspondante de la famille pour cette question est TestsData.
Vous savez à l'avance ce que les colonnes dont vous aurez besoin et/ou en ce que la plage de valeurs peut être, ou sont ces dynamiques?
J'ai environ 20 ou si les stats. Je vais devoir être en mesure de découper les utilisateurs sur chacun d'eux. (BTW: quand vous avez dit dynamique, vous dire que les colonnes? Je n'attends pas beaucoup de nouvelles statistiques, cette famille de colonne est assez statique)

OriginalL'auteur Oren | 2012-11-27

cassandra indexing

10

En CQL, vous êtes en mesure d'appliquer la WHERE clause sur toutes les colonnes, une fois que vous avez créé indices pour eux (c'est à dire, index secondaire). Sinon, vous obtiendrez l'erreur suivante:
```
Bad Request: No indexed columns present in by-columns clause with Equal operator
```
Malheureusement, même avec les indices, la clause where sont tenus d'avoir au moins un EQ sur un index secondaire par CQL en raison de problème de performance.

Q: Pourquoi est-il nécessaire de toujours avoir au moins un EQ comparaison sur
secondaire indices?

Un: les Inégalités en matière d'enseignement secondaire indices sont toujours
fait en mémoire, donc sans au moins un EQ sur un autre index secondaire
vous serez le chargement de chaque ligne dans la base de données, qui, avec un énorme
la base de données n'est pas une bonne idée. Donc, en exigeant au moins un EQ sur un
(secondaire) de l'indice, vous nous l'espérons limiter le nombre de lignes qui doivent être lues dans
la mémoire à une taille gérable. (Bien évidemment, vous pouvez toujours obtenir
des ennuis avec ça aussi).

Donc, fondamentalement, si vous avez quelque chose en plus d'un ÉGALISEUR de comparaison, il se charge de toutes les lignes "que elsewise match" à votre requête, et vérifie si elles correspondent, un à la fois. Ce qui n'est pas autorisé par défaut car il "peut être très lente." (En substance, les index seulement l'index "pour l'égalité" pas pour autre chose comme < et > index sur une base de données relationnelle serait).

Une chose à noter est que si vous avez plus d'un non ÉGALISATION des conditions sur les indices, vous devez également inclure le ALLOW FILTERING mot-clé dans votre requête, ou bien vous allez obtenir

Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING

La manière la plus simple de contourner cette difficulté est d'ajouter un mannequin de la colonne de votre table, où toutes les lignes ont la même valeur sur cette colonne. Dans ce cas, vous êtes en mesure d'effectuer variait de requête sur votre colonne souhaitée. Faire réaliser que ce genre de requêtes sur une base de données NoSQL peut être lent/bog bas un système.

Exemple
```
cqlsh:demo> desc table table1;

CREATE TABLE table1 (
  keya int,
  keyb int,
  dummyvalue int,
  valuea int,
  PRIMARY KEY (keya, keyb)
) ....

cqlsh:demo> select * from Table1;

 keya | keyb | dummyvalue | valuea
------+------+------------+--------
    1 |    2 |          0 |      3
    4 |    5 |          0 |      6
    7 |    8 |          0 |      9
```
Créer secondaire indices sur ValueA et DummyValue:
```
cqlsh:demo> create index table1_valuea on table1 (valuea);
cqlsh:demo> create index table1_valueb on table1 (dummyvalue);
```
Allaient effectuer de requête sur ValueA avec DummyValue=0:
```
cqlsh:demo> select * from table1 where dummyvalue = 0 and valuea > 5 allow filtering;

 keya | keyb | dummyvalue | valuea
------+------+------------+--------
    4 |    5 |          0 |      6
    7 |    8 |          0 |      9
```
+1 pour l'idée d'utiliser un DummyValue. Il semble que la seule solution qui permet d'interroger des colonnes (autres que les EQ de la requête) qui ont été ajoutées dynamiquement. Toute autre solution que j'ai rencontré nécessite de remodeler vos données, ce qui n'est pas une option pour les données existantes.
D'autre part, c'est une très MAUVAISE solution. Selon les docs: "la création d'un index sur une très faible cardinalité de la colonne, comme une valeur booléenne de la colonne, n'a pas de sens. Chaque valeur dans l'indice devient une seule ligne dans l'index, ce qui entraîne un énorme ligne pour toutes les fausses valeurs, par exemple. L'indexation d'une multitude de colonnes indexées avoir foo = true et foo = false n'est pas utile." datastax.com/documentation/cql/3.0/webhelp/index.html#cql/ddl/...
Oui, c'est une mauvaise solution car elle les abus de l'indice dans une façon très lent. Idéalement, Cassandra, les utilisateurs devraient éviter ce type de requêtes que Cassandra n'ont actuellement pas de bonne façon de le gérer.

OriginalL'auteur keelar
1

Probablement le moyen le plus souple pour faire face à ce scénario dans Cassandra sera d'avoir un CF pour chaque stat, avec sentinel valeurs clés et de l'état de la valeur dans la colonne nom, comme ceci:
```
CF: StatName {
  Key: SomeSentinelValue {
    [Value]:[UserID] = ""
  }
}
```
Donc, disons que votre stat est NumAnswers et votre Id d'utilisateur sont des chaînes de caractères:
```
CF: NumAnswers {
  Key: 0 {
    150:Joe = ""
    200:Bob = ""
    500:Sue = ""
  }
  Key: 1000 {
    1020:George = ""
    1300:Ringo = ""
    1300:Mary = ""
  }
}
```
De sorte que vous pouvez voir que vos clés sont essentiellement des seaux de valeurs, qui peuvent être aussi grossier ou fin de grains nécessaires pour vos données et de vos colonnes sont des composites de valeur + ID d'utilisateur. Vous pouvez désormais main de Cassandra connu une clé (ou un ensemble de touches) pour le gros de la gamme dont vous avez besoin (l'égalité), puis faire une requête de plage sur le premier élément de la colonne nom. Notez que vous ne peut pas écrire l'ID de l'utilisateur comme valeur, parce que cela permettrait d'éviter deux utilisateurs d'avoir le même nombre de.

OriginalL'auteur rs_atl
0

CLÉ PRIMAIRE (KeyA, KeyB)
);

CRÉER un INDEX SUR la table Table1 (ValueA);

SELECT * from Table1 OÙ ValueA > 3000;

La Cassandra way est d'avoir une clé de partition et toujours l'utiliser, avec un regroupement de colonne pour ValueA éventuellement PRIMARY KEY ((KeyA, KeyB), ValueA) et ensuite utiliser comme:

select * from Table1 where KeyA='xx' and ValueA > 3000

OriginalL'auteur rogerdpack

Vous devez vous connecter pour publier un commentaire.