Meilleure façon de déplacer des fichiers entre S3?

Je voudrais copier des fichiers à partir d'une production seau pour un développement seau quotidien.

Par exemple:
Copie productionbucket/feed/feedname/date
pour developmentbucket/feed/feedname/date

Parce que les fichiers que je veux sont si profonds dans la structure de dossiers, c'est beaucoup trop de temps pour aller à chaque dossier et copier/coller.

J'ai joué avec le montage de disques de chaque compartiment et la rédaction d'un windows script de commandes, mais c'est très lent et il inutilement télécharge tous les fichiers/dossiers sur le serveur local et à nouveau de retour.

InformationsquelleAutor Matt Dell | 2012-03-12

amazon-s3

100

Mise à jour

Comme souligné par alberge (+1), aujourd'hui l'excellent Interface de Ligne de Commande AWS fournit le plus polyvalent approche pour interagir avec (presque) toutes les choses AWS - il pendant ce temps couvre la plupart des services et Api dispose également d' niveau supérieur S3 commandes pour traiter votre cas d'utilisation, en particulier, consultez le AWS CLI de référence pour les S3:
- synchronisation - Synchronisation des répertoires et S3 préfixes. Votre cas est couvert par Exemple 2 (plus fine de l'utilisation avec --exclude, --include et un préfixe de manutention etc. est également disponible):
  La suite de la commande sync synchronise les objets sous un préfixe spécifié et un seau pour les objets sous un autre préfixe spécifié et un seau en copiant les objets s3. [...]
  
  aws s3 sync s3://from_my_bucket s3://to_my_other_bucket
Pour être complet, je vais mentionner que le niveau inférieur S3 commandes sont également toujours disponibles via le s3api sous commande, ce qui permettrait de traduire directement toute solution basée sur le SDK AWS CLI avant d'adopter son plus haut niveau de fonctionnalités par la suite.

Première Réponse

Le déplacement de fichiers entre le S3 peut être atteint par des moyens de la METTRE l'Objet - Copie de l'API (suivi par SUPPRIMER l'Objet):

Cette mise en œuvre de l'opération crée une copie d'un objet
c'est déjà stockées dans Amazon S3. Une opération de copie est la même
le spectacle d'un OBTENEZ et d'un PUT. L'ajout de l'entête de la requête,
x-amz-copie-source, effectue l'opération de placement copie de l'objet source dans
la destination seau. Source

Il y a des échantillons respectifs pour tous les AWS Sdk disponibles, voir La copie d'Objets en une Seule Opération. Naturellement, un script basé solution serait évidente de premier choix ici, donc Copier un Objet en Utilisant le SDK AWS pour Ruby pourrait être un bon point de départ; si vous préférez Python au lieu de cela, le même effet peut être obtenu via boto ainsi, bien sûr, voir la méthode copy_key() dans boto est S3 documentation de l'API.

PUT Object copie uniquement les fichiers, donc vous devez explicitement supprimer un fichier via DELETE Object encore après le succès de l'opération de copie, mais ce sera juste quelques lignes une fois que l'ensemble de la gestion de scripts le seau et les noms de fichiers est en place (il y a respectifs d'exemples, voir, par exemple,La Suppression D'Un Objet Par Demande).
- J'ai fini par écrire le script de l'opération avec le SDK AWS dans .NET
- pouvez-vous ajouter l' .Réponse NETTE à cette question?
- J'ai ajouté ma .NET code ci-dessous
- Ce qui cloche, c'est qu'Amazon n'est pas très claire en ce qui concerne la commande de copie a été un succès ou pas, de sorte que le supprimer après l'opération semble dangereux.
- Juste pour être clair, je pense en particulier à l'API Java. J'ai ouvert une autre question stackoverflow.com/questions/17581582
- Nous avons toujours besoin de quelque façon simple de faire un seul id et la clé capable de lire à partir d'un seau et d'écriture à l'autre seau. Surtout si les seaux sont entre les comptes.
- Le mv commande est encore mieux que sync. Regardez sgimeno de réponse.
- Est-il possible d'utiliser cette option si les 2 seaux ont les informations d'identification différentes?
InformationsquelleAutor Steffen Opel
64

La nouvelle officielle AWS CLI supporte la plupart des fonctionnalités de s3cmd. J'avais déjà été à l'aide de s3cmd ou le rubis SDK AWS pour faire des choses comme ça, mais l'officiel de la CLI fonctionne très bien pour cela.

http://docs.aws.amazon.com/cli/latest/reference/s3/sync.html
```
aws s3 sync s3://oldbucket s3://newbucket
```
- Ce devrait être voté en haut de la liste. C'est la bonne façon de synchroniser les seaux et les plus à jour dans toutes ces réponses.
- Si vous avez des problèmes avec 403 accès refusé d'erreurs, consultez cet article de blog. Il a aidé. alfielapeter.com/posts/...
- la croix-copie de la région aws s3 sync s3://my-bucket-in-eu-west1 s3://my-bucket-in-eu-central1 --source-region=eu-west-1 --region=eu-central-1
- si vous avez besoin d'exécuter cette eur la nuit sur l'utilisation du serveur nohup aws s3 sync s3://my-bucket-in-eu-west1 s3://my-bucket-in-eu-central1 --source-region=eu-west-1 --region=eu-central-1 & thegeekstuff.com/2010/12/5-ways-to-execute-linux-command
- Est-il possible de fournir une clé d'accès&secret à l'aide argument de ligne de commande?
InformationsquelleAutor A B
26

Pour déplacer/copier à partir d'un seau à l'autre ou le même seau-je utiliser s3cmd outil et fonctionne très bien. Par exemple:
```
s3cmd cp --recursive s3://bucket1/directory1 s3://bucket2/directory1
s3cmd mv --recursive s3://bucket1/directory1 s3://bucket2/directory1
```
InformationsquelleAutor sgimeno
17

J'ai passé des journées à écrire mon propre outil de paralléliser les copies nécessaires pour cela, mais ensuite, j'ai couru à travers la documentation sur comment obtenir AWS S3 CLI la commande sync pour synchroniser les seaux avec la parallélisation massive. Les commandes suivantes vont dire AWS de la CLI pour l'utilisation de 1 000 threads pour exécuter les travaux (chacun un fichier de petite taille ou d'une partie d'un multipart copie) et regardez devant plus de 100 000 emplois:
```
aws configure set default.s3.max_concurrent_requests 1000
aws configure set default.s3.max_queue_size 100000
```
Après l'exécution de ces, vous pouvez utiliser une simple synchronisation de la commande comme suit:
```
aws s3 sync s3://source-bucket/source-path s3://destination-bucket/destination-path
```
Sur un m4.xlarge machine (dans AWS: 4 cœurs, 16 GO de RAM), pour mon cas (3-50 GO de fichiers) sync/vitesse de copie est passé d'environ 9.5 mo/s à plus de 700 mo/s, une augmentation de la vitesse de 70x sur la configuration par défaut.

Mise à jour: Notez que S3CMD a été mis à jour au fil des années et ces changements sont maintenant en vigueur uniquement lorsque vous travaillez avec un grand nombre de petits fichiers. Notez également que S3CMD sur Windows (uniquement sur Windows) est sérieusement limitée dans le débit global et ne peut atteindre environ 3 gbits /sec par processus, peu importe ce que la taille de l'instance ou les paramètres que vous utilisez. D'autres systèmes comme S5CMD ont le même problème. J'en ai parlé à la S3 de l'équipe à ce sujet et ils sont à la recherche en elle.
- Merci, a réussi à obtenir plus de 900+MiB/s avec votre config, énorme vitesse de plus de défaut.
- Ne limite API dans la réalisation de tels transferts haute vitesse? Je suis à l'aide de transfermanager api fournie par AWS SDK Java vs CLI à partir d'un T2 EC2 machine de transfert de 2 GO de fichier. La différence de temps est d'environ 5,5 fois (CLI - 14 secondes) vs (SDK - 80 secondes). Aussi, je ne vois pas une option pour les s3.max_queue_size dans le SDK. Tous les commentaires?
- ces deux paramètres sont pour la CLI. Lors de l'utilisation d'un kit de développement logiciel, vous avez à gérer l'ensemble de la demande de mise en queue par vous-même. AWS support prétend avoir touché environ 80% de la valeur maximale de débit possible entre EC2 et S3 à l'aide de Linux (c'est à dire. l'annonce d'instance EC2, le débit du réseau). Windows est un citoyen de seconde classe sur AWS et ne peut pas obtenir même la moitié de celui avec le Amazon-fourni des outils, et il semble que ils n'ont pas de plan sur la fixation de la. 🙁 Avec un T2 machine, AWS ne spécifie pas exactement combien de bande passante que vous obtenez, si les choses s'améliorent un peu, si vous définissez un S3 VPC de point de terminaison.
- Je suis allé jusqu'à la mesure de la parallélisation de ma liste de fichiers de plus de cluster dans spark, se combinant avec la parallélisation à l'intérieur de chaque partition et ensuite à l'aide de transfermanager parallèle le téléchargement pour un fichier donné. Je vois l'amélioration de 80 à 45 secondes après le faire, mais il manque encore sur le chemin de la CLI poignées de EC2. Merci, pour cette configuration, si. C'amélioration de la performance sur windows aussi radicalement. Dans le SDK, on peut définir max connexions mais pas la taille de file d'attente, donc je pense que nous avons peut-être laisser avec elle. 🙂 Tous les pointeurs sur la façon de gérer les files d'attente, les exemples de code que je peux prendre comme base de référence.
- S5Cmd (github.com/peakgames/s5cmd) est l'utilitaire de la AWS support, les gens utilisés pour un maximum de rendement. La taille de l'Instance ne faire une grande différence. La nouvelle c5n série est très rentable pour la mise en réseau et va tout le chemin jusqu'à 100 gbits / s.
InformationsquelleAutor James

.NET Exemple comme demandé:

using (client)
{
    var existingObject = client.ListObjects(requestForExisingFile).S3Objects; 
    if (existingObject.Count == 1)
    {
        var requestCopyObject = new CopyObjectRequest()
        {
            SourceBucket = BucketNameProd,
            SourceKey = objectToMerge.Key,
            DestinationBucket = BucketNameDev,
            DestinationKey = newKey
        };
        client.CopyObject(requestCopyObject);
    }
}

avec le client en étant quelque chose comme

var config = new AmazonS3Config { CommunicationProtocol = Protocol.HTTP, ServiceURL = "s3-eu-west-1.amazonaws.com" };
var client = AWSClientFactory.CreateAmazonS3Client(AWSAccessKey, AWSSecretAccessKey, config);

Il pourrait y avoir une meilleure façon, mais c'est juste une rapide code que j'ai écrit pour obtenir certains fichiers transférés.

Cela semble être une bonne solution. mais qu'advient-il si vous avez des identifiants différents pour les 2 seaux?
Les informations d'identification de l'exécution de la commande copier. Ces informations d'identification nécessitent des autorisations de lecture/écriture dans la source/cible des seaux. Pour copier entre les comptes, alors vous devez utiliser un seau politique de permettre l'accès pour le seau d'autres informations d'identification du compte.

InformationsquelleAutor Matt Dell

8

Si vous avez un ordinateur hôte unix au sein d'AWS, puis utilisez s3cmd de s3tools.org. Définir des autorisations, de sorte que votre clé d'accès en lecture sur le développement de votre seau. Ensuite, exécutez:
```
s3cmd cp -r s3://productionbucket/feed/feedname/date s3://developmentbucket/feed/feedname
```
- est ce côté serveur?
- Côté serveur? Il n'y a pas de serveur de côté pour le s3. Toutes les commandes sont effectuées à partir d'un client distant.
- Cette commande semble très bien fonctionner sur l'internet, par le moyen!
- Le "côté serveur" la question est valide. Le s3cmd transfert shunt toutes les données sur le client, ou est-il d'un S3 S3 transfert? Dans le premier cas, il serait préférable d'exécuter ce dans le cloud AWS pour éviter l'externe WAN transferts.
- La copie se passe tous à distance sur S3.
- Notez également que si vous avez accidentellement interrompre ce processus s3cmd cp n'accepte pas la --skip-existing option, vous pouvez toutefois exécuter s3cmd sync plutôt avec skip existant
InformationsquelleAutor dk.
8

Pour moi la commande suivante fonctionne simplement:
```
aws s3 mv s3://bucket/data s3://bucket/old_data --recursive
```
- simple et solution... pourquoi utiliser la 3ème partie outils ou solutions de contournement pour la simple tâche lorsque cela peut être fait avec aws cli?!
InformationsquelleAutor lony

Ici est une classe ruby pour effectuer cette: https://gist.github.com/4080793

Exemple d'utilisation:

$ gem install aws-sdk
$ irb -r ./bucket_sync_service.rb
> from_creds = {aws_access_key_id:"XXX",
                aws_secret_access_key:"YYY",
                bucket:"first-bucket"}
> to_creds = {aws_access_key_id:"ZZZ",
              aws_secret_access_key:"AAA",
              bucket:"first-bucket"}
> syncer = BucketSyncService.new(from_creds, to_creds)
> syncer.debug = true # log each object
> syncer.perform

InformationsquelleAutor bantic

5

Fait que récemment je viens d'utiliser le copier+coller action dans AWS s3 interface. Il suffit de naviguer sur les fichiers que vous souhaitez copier, cliquez sur "Actions" -> "Copier", puis naviguer jusqu'à la destination seau et "Actions" -> "Coller"

Il transfère les fichiers assez rapide et il semble comme un moins alambiqué solution qui ne nécessite pas de programmation, ou sur le dessus des solutions comme ça.
- Oui. J'ai découvert la même chose quelques minutes plus tôt. Je upvoted, de sorte que plus de gens vont gagner du temps 🙂
InformationsquelleAutor Justin Workman
3

Nous avons eu exactement ce problème avec notre ETL emplois à Chasse-neige, donc nous avons extrait notre parallèle de copie de fichier de code (Ruby, construit sur le haut de Le brouillard), dans sa propre Ruby gem, appelé à Pertuis:

https://github.com/snowplow/sluice

Écluse gère également S3 fichier de supprimer, de déplacer et de les télécharger; tous les paralléliser et avec renouvellement automatique de l'essayer si l'opération échoue (ce qui n'est étonnamment souvent). J'espère que c'est utile!

InformationsquelleAutor Alex Dean
0

Je sais que c'est un vieux thread mais pour d'autres qui y atteindre, ma suggestion est de créer une tâche planifiée pour copier du contenu à partir de la production seau pour le développement one.

Vous pouvez utiliser Si vous utilisez .NET cet article peut vous aider à

http://www.codewithasp.net/2015/03/aws-s3-copy-object-from-one-bucket-or.html

InformationsquelleAutor Nikhil Gaur

Vous devez vous connecter pour publier un commentaire.

Mise à jour

Première Réponse