Le chargement de données (progressivement) dans Amazon Redshift, S3 vs DynamoDB vs Insérer

J'ai une application web qui doit envoyer des rapports sur son utilisation, je veux utiliser Amazon RedShift comme un entrepôt de données à cette fin,
Comment collecter les données ?

À chaque fois, l'utilisateur d'interagir avec l'une de mes applications, je tiens à signaler que.. donc quand dois-je écrire les fichiers de S3 ? et de combien ?
Ce que je veux dire, c'est:
- Si l'option ne pas envoyer l'info tout de suite, je risque de perdre à la suite d'une perte de connexion, ou d'un bug dans mon système, tandis que sa été recueillies et préparez-vous à être envoyé à S3...
- Si je dois écrire des fichiers de S3 sur chaque interaction de l'utilisateur, je vais finir avec des centaines de fichiers (sur chaque fichier a un minimum de données), qui doivent être gérés, triés, supprimé après avoir été copié à RedShift.. que la dose ne semble être une bonne solution .

Ce qui me manque? Dois-je utiliser DynamoDB au lieu de cela, dois-je utiliser simple insertion dans Redshift à la place !?

Si j'ai besoin d'écrire les données sur DynamoDB, dois-je supprimer l'emprise de la table après avoir été copié .. quelles sont les meilleures pratiques ?

Sur tout cas ce que sont les meilleures pratiques pour éviter la duplication des données dans le RedShift ?

Apprécions l'aide!

InformationsquelleAutor Ofer Velich | 2014-01-11