La plus rapide / la meilleure façon de copier des données entre S3, EC2?
J'ai une assez grande quantité de données (~30G, divisé en ~100 fichiers) j'aimerais transfert entre S3 et EC2: quand je lance les instances EC2 je voudrais copier les données à partir de S3 à l'EC2 disques locaux aussi vite que je peux, et quand je suis fait, de traitement, je voudrais copier les résultats à S3.
Je suis à la recherche d'un outil qui va faire un rapide parallèle /copie des données d'avant en arrière. J'ai plusieurs scripts piraté, y compris celui qui fait un travail décent, donc je ne suis pas à la recherche des pointeurs vers les bibliothèques de base; je suis à la recherche de quelque chose de rapide et fiable.
Vous devez vous connecter pour publier un commentaire.
Je pense que vous feriez mieux d'utiliser un Elastic Block Store pour stocker vos fichiers au lieu de S3. EBS est semblable à un "drive" sur S3 qui peut être monté dans votre instance EC2, sans avoir à copier les données à chaque fois, ce qui vous permet de persister vos données entre les instances EC2 sans avoir à écrire ou lire à partir de S3 à chaque fois.
http://aws.amazon.com/ebs/
Malheureusement, Adam suggestion ne fonctionne pas comme sa compréhension de l'EBS est mal (même si je voudrais qu'il était juste et souvent pensé moi-même, il doit travailler de cette façon)... comme EBS n'a rien à voir avec le S3, mais il ne vous donnera un "disque externe" pour les instances EC2 qui sont distinctes, mais connectable aux instances. Vous avez encore à faire des copier-coller entre S3 et EC2, même si il n'y a aucun frais de transfert de données entre les deux.
Vous n'avez pas parlé un système d'exploitation de votre exemple, je ne peux donc pas donner d'informations sur mesure. Le populaire outil de ligne de commande que j'utilise est http://s3tools.org/s3cmd ... il est basé sur le langage Python et donc, selon l'info sur son site web, il devrait fonctionner sur windows ainsi que Linux, bien que je l'utilise TOUT le temps sur Linux. Vous pouvez facilement concocter un rapide script qui utilise ses construit en "sync" de commande qui fonctionne de manière similaire à rsync, et ont déclenché à chaque fois que vous avez terminé le traitement de vos données. Vous pouvez également utiliser la récursivité de vente et d'obtenir des commandes pour obtenir et mettre les données uniquement lorsque cela est nécessaire.
Il existe des outils graphiques comme la Chicouté Pro qui ont des options de ligne de commande pour Windows qui vous permet de configurer l'horaire des commandes. http://s3tools.org/s3cmd est probablement le plus facile.
Maintenant, il y a une commande sync dans AWS outils de ligne de Commande, cela devrait faire l'affaire: http://docs.aws.amazon.com/cli/latest/reference/s3/sync.html
Au démarrage:
aws s3 sync s3://mybucket /mylocalfolder
avant l'arrêt:
aws s3 sync /mylocalfolder s3://mybucket
Bien sûr, les détails sont toujours un plaisir de travailler par exemple. comment peut-parallèle, il est (et peut vous rendre plus parallèle et est plus rapide que tout goven la nature virtuelle de la totalité de l'installation)
Btw j'espère que vous êtes encore à travailler sur ce... ou quelqu'un. 😉
Installer s3cmd Paquet comme
ou
selon votre système d'exploitation
puis copier les données avec cette
aussi ls pouvez afficher la liste des fichiers.
pour plus d'detils voir cette
Pour moi, le meilleur est:
de
PuTTy