Comment lire un fichier csv à partir d'un compartiment s3 à l'aide de Pandas en Python

Je suis en train de lire un fichier CSV situé dans un seau AWS S3 dans la mémoire comme un des pandas dataframe en utilisant le code suivant:

import pandas as pd
import boto

data = pd.read_csv('s3:/example_bucket.s3-website-ap-southeast-2.amazonaws.com/data_1.csv')

Afin de donner un accès complet, j'ai mis le seau de la politique sur le compartiment S3 comme suit:

{
"Version": "2012-10-17",
"Id": "statement1",
"Statement": [
    {
        "Sid": "statement1",
        "Effect": "Allow",
        "Principal": "*",
        "Action": "s3:*",
        "Resource": "arn:aws:s3:::example_bucket"
    }
]

}

Malheureusement, je reçois toujours le message d'erreur suivant en python:

boto.exception.S3ResponseError: S3ResponseError: 405 Method Not Allowed

Demandais si quelqu'un pourrait aider à expliquer comment les définir correctement les autorisations dans AWS S3 ou configurer les pandas correctement pour importer le fichier. Merci!

Ne devrait-il pas être une double barre oblique après le s3?
oui, vous avez raison, il devrait y être. J'ai aussi dû changer l'emplacement du seau et fichier: tripData = pd.read_csv('htps://s3-ap-sud-est-2.amazonaws.com/example_bucket/données.csv'). et j'ai eu à mettre à jour les autorisations sur le fichier individuel. mais il fonctionne maintenant. des acclamations.
S'il vous plaît ajouter votre solution comme une Réponse à l'aide d'autres Stackoverflow utilisateurs.
Lors de l'utilisation de read_csv de lire des fichiers à partir de s3, ne pandas première téléchargements localement sur le disque et charger en mémoire? Ou faut-il le flux à partir du réseau directement dans la mémoire?

OriginalL'auteur Paul_M | 2015-06-13

À l'aide de pandas 0.20.3

import os
import boto3
import pandas as pd
import sys

if sys.version_info[0] < 3: 
    from StringIO import StringIO # Python 2.x
else:
    from io import StringIO # Python 3.x

# get your credentials from environment variables
aws_id = os.environ['AWS_ID']
aws_secret = os.environ['AWS_SECRET']

client = boto3.client('s3', aws_access_key_id=aws_id,
        aws_secret_access_key=aws_secret)

bucket_name = 'my_bucket'

object_key = 'my_file.csv'
csv_obj = client.get_object(Bucket=bucket_name, Key=object_key)
body = csv_obj['Body']
csv_string = body.read().decode('utf-8')

df = pd.read_csv(StringIO(csv_string))

Quand je l'importation de cette façon, le df colonnes n'apparaissent pas?
merci!!!!! J'ai regardé partout pour ce

OriginalL'auteur jpobst

Vous n'avez pas besoin de pandas.. vous pouvez simplement utiliser le csv par défaut de la bibliothèque de python

def read_file(bucket_name,region, remote_file_name, aws_access_key_id, aws_secret_access_key):
    # reads a csv from AWS

    # first you stablish connection with your passwords and region id

    conn = boto.s3.connect_to_region(
        region,
        aws_access_key_id=aws_access_key_id,
        aws_secret_access_key=aws_secret_access_key)

    # next you obtain the key of the csv you want to read
    # you will need the bucket name and the csv file name

    bucket = conn.get_bucket(bucket_name, validate=False)
    key = Key(bucket)
    key.key = remote_file_name
    data = key.get_contents_as_string()
    key.close()

    # you store it into a string, therefore you will need to split it
    # usually the split characters are '\r\n' if not just read the file normally 
    # and find out what they are 

    reader = csv.reader(data.split('\r\n'))
    data = []
    header = next(reader)
    for row in reader:
        data.append(row)

    return data

espère que cela a résolu votre problème,
bonne chance!
🙂

OriginalL'auteur BigDataSaurius

3

J'ai finalement réalisé que vous devez également définir les autorisations sur chaque objet dans le seau afin de l'extraire à l'aide du code suivant:
```
from boto.s3.key import Key
k = Key(bucket)
k.key = 'data_1.csv'
k.set_canned_acl('public-read')
```
Et j'ai également eu à modifier l'adresse du seau dans la maladie de parkinson.read_csv commande comme suit:
```
data = pd.read_csv('https://s3-ap-southeast-2.amazonaws.com/example_bucket/data_1.csv')
```
Comment modifier l'adresse de devenir une url qui peut être lu par les pandas?

OriginalL'auteur Paul_M

Basé sur cette réponse qui a suggéré d'utiliser smart_open de lecture à partir de S3, c'est la façon dont je l'ai utilisé avec des Pandas:

import os
import pandas as pd
from smart_open import smart_open

aws_key = os.environ['AWS_ACCESS_KEY']
aws_secret = os.environ['AWS_SECRET_ACCESS_KEY']

bucket_name = 'my_bucket'
object_key = 'my_file.csv'

path = 's3://{}:{}@{}/{}'.format(aws_key, aws_secret, bucket_name, object_key)

df = pd.read_csv(smart_open(path))

OriginalL'auteur kepler

Vous devez vous connecter pour publier un commentaire.