Dois-je toujours créer mon DynamoDB à l'aide de tables de hachage et de la gamme de clé primaire de type?

Dans les docs ( http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/APISummary.html ), il est indiqué:

Vous pouvez interroger uniquement les tables dont la clé primaire est de hachage et de gamme de type

nous vous recommandons de concevoir des applications que vous pouvez utiliser l'opération de Requête pour la plupart, et utiliser le Scan uniquement le cas échéant

Ce n'est pas directe, mais est-il préférable d'utiliser les hash-et-gamme de clés primaires?

EDIT:

Réponse TL;DR: Utiliser selon la clé primaire de type qui fait sens pour votre modèle de données et l'utilisation des index secondaires pour mieux interroger l'appui.

Références:

http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/GSI.html

http://www.allthingsdistributed.com/2013/12/dynamodb-global-secondary-indexes.html

https://forums.aws.amazon.com/thread.jspa?messageID=604862

Dans quelle situation avez-vous à l'aide de Simples Clés de Hachage sur DynamoDB?

OriginalL'auteur Brett | 2015-04-28

amazon-dynamodb

11

Le choix de la clé à utiliser est une question de Cas d'Utilisation et des Exigences en matière de Données pour un scénario particulier. Par exemple, si vous stockez Session Utilisateur Données qu'il n'aurait pas beaucoup de sens à l'aide de la Gamme de Clés depuis chaque enregistrement peut être référencé par un GUID et accessible directement, sans groupement exigences. En termes généraux, une fois que vous connaissez l'Id de Session que vous venez de faire le point spécifique de l'interrogation par la clé. Un autre exemple pourrait être le stockage de Compte d'Utilisateur ou des données de Profil, chaque utilisateur possède son propre et vous sera très probablement y accéder directement (par l'Utilisateur ou autre chose).

Toutefois, si vous stockez les Éléments de Commande puis le Gamme de Clés fait beaucoup plus de sens puisque vous voulez probablement pour récupérer les éléments regroupés par leur Ordre.

En termes de Modèle de Données, le Clé de Hachage vous permet de vous identifier de manière unique un enregistrement à partir de votre tableau, et le Gamme de Clés peut éventuellement être utilisé pour trier et grouper plusieurs dossiers qui sont généralement récupérées ensemble. Exemple: Si vous définissez un total de stocker les Éléments de Commande, le Id de Commande pourrait être votre Clé de Hachage, et la OrderItemId la Gamme de Clés. Chaque fois que vous le souhaitez à la recherche de la les Éléments de Commande à partir d'un certain Ordre, vous venez de requête par la Clé de Hachage (numéro de Commande), et vous recevrez tous vos les éléments de commande.

Vous pouvez trouver ci-dessous une définition formelle de l'utilisation de ces deux clés:

"Composite Clé de Hachage avec Clé Range permet au développeur de créer un
clé primaire qui est composé de deux attributs, un " hash
l'attribut' et une 'gamme attribut.' Lors de l'interrogation d'un composite
la clé, l'attribut de hachage doit être particulièrement adaptés, mais également une gamme
l'opération peut être spécifiée pour l'attribut intervalle: par exemple, toutes les commandes
de Werner dans les dernières 24 heures, ou tous les jeux joués par un particulier
joueur dans les dernières 24 heures." [VOGELS]

De sorte que le Gamme de Clés ajoute un regroupement à la capacité de Modèle de Données, cependant, l'utilisation de ces deux touches aussi avoir des conséquences sur la Modèle de Stockage:

"Dynamo utilise le hachage de consistence de la partition de son espace clé dans l'ensemble de son
les réplicas et de garantir l'homogénéité de la distribution de charge. Un uniforme clé
la distribution peut nous aider à atteindre la répartition uniforme des charges en supposant
l'accès à la distribution de clés n'est pas très inégale."
[DDB-SOSP2007]

Non seulement la Clé de Hachage permet d'identifier de manière unique l'enregistrement, mais c'est aussi le mécanisme pour assurer la distribution de charge. Le Gamme de Clés (lorsque utilisé) permet d'indiquer les enregistrements qui seront, pour la plupart extraites ensemble, par conséquent, le stockage peut également être optimisée pour un tel besoin.

Choisir les bonnes touches pour représenter vos données est l'un des aspects les plus critiques au cours de votre processus de conception, et qu'il influe directement sur la façon dont beaucoup de votre application doit effectuer, à l'échelle et de coût.

Notes de bas de page:
- Le Modèle de Données est le modèle à travers lequel nous percevons et de manipuler nos données. Il décrit la façon dont nous interagissons avec les données dans la base de données [FOWLER]. En d'autres termes, c'est la façon dont vous le résumé de votre modèle de données, la façon de groupe de vos entités, les attributs que vous choisissez comme clés primaires, etc
- Le Modèle de Stockage explique comment la base de données stocke et manipule les données en interne [FOWLER]. Bien que vous ne pouvez pas contrôler directement, vous pouvez certainement d'optimiser la manière dont les données sont récupérées ou écrit en sachant comment la base de données fonctionne en interne.
Merci pour la réponse détaillée. Je comprends que je ne peut accéder aux éléments dans un hash-table de clés à l'aide de par leur clé de hachage, mais le problème devient alors de déterminer la clé de hachage de l'objet. Prenons un exemple simple de savoir quand un utilisateur se connecte avec email et mot de passe et la clé primaire est userId. Au moment de la connexion, je ne sais pas le userId et le besoin de faire une requête sur email. (Je pourrais utiliser email comme clé primaire, mais je ne peux pas la recherche par userId). Je n'ai pas creusé assez profond encore pour obtenir une poignée sur le local et le global index, mais j'ai l'impression que ma réponse peut-être là.
Selon l'article lié sur Vogels blog, il ressemble à la GSI est ce que je suis à la recherche pour. "En outre, un GSI de la performance est conçu pour répondre DynamoDB du chiffre ms de latence - vous pouvez ajouter des éléments à une table d'Utilisateurs pour un jeu de l'app avec des dizaines de millions d'utilisateurs avec id d'utilisateur de la clé primaire, mais de les retrouver en fonction de leur ville d'origine, sans réduction des performances des requêtes."
Les exemples de Vogels le blog de l'utilisation de hachage et de gamme type de clés primaires. Pourrait même être atteint avec de hachage clés primaires?
Bon, je crois que j'ai ce. Pourriez-vous confirmer cela pour moi? Je peux créer user table avec userId que le hachage de la clé primaire (pas de plage). Je peux alors créer un GSI UserEmailIndex avec une clé primaire de email qui va me donner userId (depuis les clés primaires sont toujours projetés dans le GSIs). Je peux alors obtenir le userId en interrogeant UserEmailIndex avec le email, puis à l'aide de la userId je peux obtenir de l'élément de la user table.
Il est logique, vous pourriez avoir une table avec email#mot de passe de la clé de hachage et le nom d'utilisateur comme un attribut ... votre processus de connexion voudrais essayer de le faire d'un simple GetItem avec le calcul de clé de hachage, si l'identifiant est retourné non seulement vous avez la confirmation du processus d'authentification, mais aussi la clé pour récupérer d'autres informations de l'utilisateur.

OriginalL'auteur bsd
4

Pas nécessairement. Il est préférable de choisir une clé primaire qui prend en charge les modèles d'accès à votre cas d'utilisation.

Par exemple, disons que vous voulez avoir une table pour Utilisateurs. Vous permettra de stocker les détails pour un seul utilisateur (nom, adresse de courriel, le créateur, etc.). Votre motif de l'accès peut-être que vous êtes aller chercher le détail d'un Utilisateur. Dans ce cas, il est plus logique d'utiliser une clé primaire de type de hachage, avec une clé de hachage de userId.

Disons que vous aussi, vous souhaitez une autre table qui stocke Groupes. Votre motif de l'accès peut-être que vous voulez obtenir tous les membres d'un groupe donné. Ici, il est plus logique d'utiliser une clé primaire de type de hachage et de la gamme, avec votre de hachage et de la gamme des clés respectivement être groupId et userId.

Les choses importantes à savoir sont les les différences entre les deux types de clés (citation ci-dessous) et le Lignes directrices pour Travailler avec des Tables:
- Type de hachage de la Clé Primaire—La clé primaire est constituée d'un attribut, un attribut de hachage. DynamoDB construit un non ordonnée index de hachage sur cette
  
  attribut de clé primaire. Chaque élément du tableau est identifié de manière unique
  
  par sa clé de hachage valeur.
- De hachage et de Gamme de Type Clé Primaire—La clé primaire est composée de deux attributs. Le premier attribut est l'attribut de hachage et la deuxième
  
  l'une est la portée de l'attribut. DynamoDB construit un non ordonnée index de hachage
  
  sur la table de hachage attribut de clé primaire, et un classement de la gamme indice sur l'
  
  gamme attribut de clé primaire. Chaque élément du tableau est unique
  
  identifié par la combinaison de son hachage et de la plage de valeurs de clé. Il est
  possible pour les deux éléments ont la même clé de hachage de la valeur, mais ces deux
  les articles doivent avoir une portée différente des valeurs de clé.
Vous pouvez en savoir plus sur les meilleures pratiques dans le Dynamo DB Lignes directrices pour Travailler avec des Tables de la documentation

Merci! Après avoir commenté sur @spin réponse, je regarde à la vôtre et de vous voir à l'utilisation exacte de l'exemple que j'ai utilisé. Je comprends les différences entre Hachage Hachage et de-et de-Gamme, mais mon problème est avec l'interrogation d'une table à l'aide d'un Type de Hachage de la Clé Primaire. Dire par exemple: je veux rechercher un utilisateur de connexion par e-mail, et je n'ai pas encore le nom d'utilisateur, comment dois-je faire à ce sujet? Peut-être que la réponse est dans les index secondaires que je n'ai pas bien saisi le moment, mais cette partie de la documentation donne l'impression de faire un Query sur une table de Hachage de la Clé Primaire est impossible.
J'ai utilisé userId comme mon exemple, mais tout aussi bien utiliser emailAddress comme la clé de hachage (dépend de votre conception et de l'accès). Disons que vous avez emailAddress comme le hash pour la table. Lorsque vous souhaitez accéder à un élément de ce tableau à l'aide de emailAddress, de vous faire une GetItem appel. Vous ne permet pas d'interroger ce tableau sur le emailAddress. Si vous avez besoin d'accéder à cette table à l'aide d'un autre attribut(s) comme les clés, vous devrez créer un index et une requête à l'encontre de l'indice. Cet indice peut également être de hash / hash-plage, et vous définissez les attributs pour être projeté sur elle.
Merci. Je suis conscient que je pourrais utiliser email que ma clé de hachage, mais mon plus courantes de cas d'utilisation est à la recherche par userId. Dire que j'ai un RESTE de ressources GET /users/1 je pourrais facilement requête pour userId 1. Ce serait beaucoup plus fréquente que l'interrogation par e-mail, je voudrais principalement utiliser pour la connexion. Hypothétiquement, si j'étais à-dire "la seule fois que je veux requête par e-mail est sur login" serait-il mieux de faire une Analyse conditionnelle au lieu de créer un index secondaire? Je comprends un Scan serait beaucoup plus coûteux, mais depuis qu'il est relativement rare d'action qui serait probablement pas mal, pas vrai? Merci encore!

OriginalL'auteur mkobit

Comme d'autres l'ont déjà dit - ne devriez-vous pas.

La déclaration que la confusion et vous avez dû vous poser cette question, en premier lieu, mal:

Vous pouvez interroger uniquement les tables dont la clé primaire est de hachage et de gamme de type

Vous pouvez interroger des tables dont la clé primaire est unique attribut (seule partition).

Preuve:

# Create single-attribute primary key table
aws dynamodb create-table --table-name testdb6 --attribute-definitions '[{"AttributeName": "Id", "AttributeType": "S"}]' --key-schema '[{"AttributeName": "Id", "KeyType": "HASH"}]' --provisioned-throughput '{"ReadCapacityUnits": 5, "WriteCapacityUnits": 5}' 

# Populate table
aws dynamodb put-item --table-name testdb6 --item '{ "Id": {"S": "1"}, "LastName": {"S": "Lopez"}, "FirstName": {"S": "Maria"}}'
aws dynamodb put-item --table-name testdb6 --item '{ "Id": {"S": "2"}, "LastName": {"S": "Fernandez"}, "FirstName": {"S": "Augusto"}}'

# Query table using only partition attribute
aws dynamodb query --table-name testdb6 --select ALL_ATTRIBUTES --key-conditions '{"Id": {"AttributeValueList": [{"S": "1"}], "ComparisonOperator": "EQ"}}'

Sortie de la dernière commande (il fonctionne):

{
"Count": 1,
"Items": [
    {
        "LastName": {
            "S": "Lopez"
        },
        "Id": {
            "S": "1"
        },
        "FirstName": {
            "S": "Maria"
        }
    }
],
"ScannedCount": 1,
"ConsumedCapacity": null
}

OriginalL'auteur golem

Vous devez vous connecter pour publier un commentaire.