Comment canaliser les données à partir d'AWS Postgres RDS S3 (alors Redshift)?

Je suis en utilisant le service AWS data pipeline pour canaliser les données à partir d'un RDS MySql base de données de s3 et puis à Redshift, qui fonctionne très bien.

Cependant, j'ai aussi des données qui vivent dans un RDS Postres exemple que je voudrais tuyau de la même façon, mais je vais avoir un moment difficile de la configuration de l'jdbc-connexion. Si c'est pas pris en charge, est-il un travail?

"connectionString": "jdbc:postgresql://THE_RDS_INSTANCE:5432/THE_DB”

InformationsquelleAutor jenswirf | 2014-11-06

5

cela ne fonctionne pas encore. aws n'en a pas construit /publié les fonctionnalités pour vous connecter bien pour postgres. vous pouvez le faire dans un shellcommandactivity bien. vous pouvez écrire un peu, ruby ou python, le code pour le faire et déposer dans un script sur s3 en utilisant scriptUri. vous pourriez tout aussi bien écrire un psql commande pour vidage de la table csv et ensuite de la pipe que pour OUTPUT1_STAGING_DIR avec "la mise en scène: true" dans l'activité du nœud.

quelque chose comme ceci:
```
{
  "id": "DumpCommand",
  "type": "ShellCommandActivity",
  "runsOn": { "ref": "MyEC2Resource" },
  "stage": "true",
  "output": { "ref": "S3ForRedshiftDataNode" },
  "command": "PGPASSWORD=password psql -h HOST -U USER -d DATABASE -p 5432 -t -A -F\",\" -c \"select blah_id from blahs\" > ${OUTPUT1_STAGING_DIR}/my_data.csv"
}
```
je n'ai pas le lancer pour vérifier parce que c'est une douleur à rotation d'un pipeline 🙁 alors vérifiez le sauvant dans la commande.
- avantages: super simple et ne nécessite aucun script supplémentaire fichiers à télécharger pour s3
- inconvénients: pas exactement sûr. votre base de données mot de passe vous sera transmis sur le fil sans cryptage.
regarder dans les nouveaux trucs aws vient d'être lancé sur paramétrée création de modèles de données pipelines: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-custom-templates.html. on dirait qu'il va permettre le chiffrement des paramètres arbitraires.
- Comme une mise à jour rapide: Postgresql supporte désormais le protocole SSL donc, si vous êtes sur une version plus récente assurez-vous de configurer ssl=vrai si le chiffrement est le programme d'installation.
InformationsquelleAutor xgess
14

Aujourd'hui, vous pouvez définir une copie de l'activité pour extraire des données à partir d'une Postgres RDS instance dans S3. Dans le Pipeline de Données de l'interface:
1. Créer un nœud de données de type SqlDataNode. Spécifier le nom de la table et sélectionnez requête
2. Configuration de la connexion de base de données en spécifiant RDS instance ID (l'ID de l'instance est dans l'URL, par exemple your-instance-id.xxxxx.eu-west-1.rds.amazonaws.com) avec le nom d'utilisateur, mot de passe et nom de base de données.
3. Créer un nœud de données de type S3DataNode
4. Créer une Copie de l'activité et de l'ensemble de la SqlDataNode en entrée et le S3DataNode de sortie
- C'est juste dommage que ce n'est pas disponible dans CA encore
- pouvez-vous ajouter une capture d'écran de ce que le résultat devrait ressembler? Je reçois assez bizarre à la recherche de la structure.
InformationsquelleAutor PeterssonJesper
0

AWS maintenant permettre aux partenaires de faire en temps quasi-réel RDS -> Redshift inserts.

https://aws.amazon.com/blogs/aws/fast-easy-free-sync-rds-to-redshift/
- Comme de 2/25/2015 le lien ci-dessus ne supporte MySQL -> Redshift et de ne pas avoir de support pour Postgres, qui OP se pose au sujet de.
- On dirait qu'il est été mis à jour depuis. À partir du lien: Tous les quatre solutions d'intégration de données exposées ci-dessus peut être utilisé avec tous les RDS moteurs de base de données (MySQL, SQL Server, PostgreSQL et Oracle).
InformationsquelleAutor Manuel G

Vous devez vous connecter pour publier un commentaire.