Comment puis-je utiliser boto, pour diffuser un fichier à partir d'Amazon S3 pour Rackspace Cloudfiles?

Je suis la copie d'un fichier à partir de S3 à Cloudfiles, et je voudrais éviter d'écrire le fichier sur le disque. Python-Cloudfiles bibliothèque a un objet.stream() appel qui ressemble à ce dont j'ai besoin, mais je ne peux pas trouver un équivalent appel dans boto. J'espère que je serais capable de faire quelque chose comme:

shutil.copyfileobj(s3Object.stream(),rsObject.stream())

Est-ce possible avec boto (ou je suppose que tout autre s3 bibliothèque)?

Le smart_open bibliothèque Python fait que (à la fois pour la lecture et l'écriture).

OriginalL'auteur joemastersemison | 2011-10-02

17

L'objet Clé dans le nom de boto, ce qui représente sur l'objet en S3, peut être utilisé comme un itérateur de sorte que vous devriez être en mesure de faire quelque chose comme ceci:
```
>>> import boto
>>> c = boto.connect_s3()
>>> bucket = c.lookup('garnaat_pub')
>>> key = bucket.lookup('Scan1.jpg')
>>> for bytes in key:
...   write bytes to output stream
```
Ou, comme dans le cas de votre exemple, vous pourriez faire:
```
>>> shutil.copyfileobj(key, rsObject.stream())
```
une telle conception de la bibliothèque 🙂
S3.L'objet n'est pas itérable plus.

OriginalL'auteur garnaat
33

D'autres réponses dans ce thread sont liées à boto, mais S3.L'objet n'est pas itérable plus en boto3. Ainsi, le code suivant NE fonctionne PAS, il se produit une TypeError: 's3.Object' object is not iterable message d'erreur:
```
    s3 = boto3.session.Session(profile_name=my_profile).resource('s3')
    s3_obj = s3.Object(bucket_name=my_bucket, key=my_key)

    with io.FileIO('sample.txt', 'w') as file:
        for i in s3_obj:
            file.write(i)
```
Dans boto3, le contenu de l'objet est disponible à S3.Object.get()['Body'] qui n'est pas un objet iterable, donc la suite NE fonctionne toujours PAS:
```
    body = s3_obj.get()['Body']
    with io.FileIO('sample.txt', 'w') as file:
        for i in body:
            file.write(i)
```
Donc, une alternative est d'utiliser la méthode de lecture, mais cette charge l'ENSEMBLE S3 objet en mémoire lorsque vous traitez avec de gros fichiers n'est pas toujours une possibilité:
```
    body = s3_obj.get()['Body']
    with io.FileIO('sample.txt', 'w') as file:
        for i in body.read():
            file.write(i)
```
Mais la read méthode permet de passer dans le amt paramètre indiquant le nombre d'octets que nous voulons pour lire le flux sous-jacent. Cette méthode peut être appelé à plusieurs reprises jusqu'à ce que le flux a été lu:
```
    body = s3_obj.get()['Body']
    with io.FileIO('sample.txt', 'w') as file:
        while file.write(body.read(amt=512)):
            pass
```
De creuser dans botocore.response.StreamingBody code on se rend compte que le flux sous-jacent est également disponible, afin que nous puissions effectuer une itération comme suit:
```
    body = s3_obj.get()['Body']
    with io.FileIO('sample.txt', 'w') as file:
        for b in body._raw_stream:
            file.write(b)
```
Pendant googler j'ai aussi vu quelques liens qui pourraient être utiliser, mais je n'ai pas essayé:
- WrappedStreamingBody
- Un autre thread
- Un problème dans boto3 github pour demander StreamingBody est un bon stream - qui a été fermé!!!
Très utile de répondre. Merci @smallo. J'apprécie que vous avez exposé le privé __brut_ruisseau qui est ce que je pense que la plupart des gens sont à la recherche pour.

OriginalL'auteur smallo
20

Je figure au moins certaines des personnes qui ont vu cette question sera comme moi, et veulent un moyen de diffuser un fichier à partir boto ligne par ligne (ou la virgule par virgule, ou tout autre délimiteur). Voici une façon simple de le faire:
```
def getS3ResultsAsIterator(self, aws_access_info, key, prefix):        
    s3_conn = S3Connection(**aws_access)
    bucket_obj = s3_conn.get_bucket(key)
    # go through the list of files in the key
    for f in bucket_obj.list(prefix=prefix):
        unfinished_line = ''
        for byte in f:
            byte = unfinished_line + byte
            #split on whatever, or use a regex with re.split()
            lines = byte.split('\n')
            unfinished_line = lines.pop()
            for line in lines:
                yield line
```
@garnaat la réponse ci-dessus est encore grand et vrai à 100%. Espérons que la mienne toujours en aide à quelqu'un.

split sur d'autres les deux types de fins de ligne avec: lines = re.split(r'[\n\r]+', byte) - utile pour les fichiers CSV exportés à partir d'Excel
encore une remarque: j'ai dû ajouter yield unfinished_line après la for byte in f: boucle est terminée, sinon, la dernière ligne ne sont pas traités
Est-il une bonne raison pour laquelle ce n'est pas une partie de la Boto3 API? Si non, doit-on soumettre une demande d'extraction de résoudre ce problème? Je serais super bas pour frapper quelque chose comme ça!
heureux de vous avoir à faire, si vous le souhaitez.
Permet de voir comment ce pull request va plus à botocore: github.com/boto/botocore/pull/1034

OriginalL'auteur Eli

C'est ma solution d'emballage de streaming corps:

import io
class S3ObjectInterator(io.RawIOBase):
    def __init__(self, bucket, key):
        """Initialize with S3 bucket and key names"""
        self.s3c = boto3.client('s3')
        self.obj_stream = self.s3c.get_object(Bucket=bucket, Key=key)['Body']

    def read(self, n=-1):
        """Read from the stream"""
        return self.obj_stream.read() if n == -1 else self.obj_stream.read(n)

Exemple d'utilisation:

obj_stream = S3ObjectInterator(bucket, key)
for line in obj_stream:
    print line

OriginalL'auteur jzhou

0

Botocore de StreamingBody a un iter_lines() méthode:

https://botocore.amazonaws.com/v1/documentation/api/latest/reference/response.html#botocore.response.StreamingBody.iter_lines

Donc:
```
import boto3
s3r = boto3.resource('s3')
iterator = s3r.Object(bucket, key).get()['Body'].iter_lines()

for line in iterator:
    print(line)
```
OriginalL'auteur Vic

Vous devez vous connecter pour publier un commentaire.