Utiliser les requêtes python pour télécharger le fichier CSV

Voici mon code:

import csv
import requests
with requests.Session() as s:
    s.post(url, data=payload)
    download = s.get('url that directly download a csv report')

Cela me donne l'accès au fichier csv. J'ai essayé différentes méthode pour traiter le télécharger:

Cela vous donnera le fichier csv dans une chaîne:

print download.content

Cette impression de la première ligne et de retour d'erreur: _csv.Erreur: caractère de nouvelle ligne vu dans des sociétés non cotées champ

cr = csv.reader(download, dialect=csv.excel_tab)
for row in cr:
    print row

Cela permettra d'imprimer une lettre de chaque ligne et de ne pas imprimer le tout:

cr = csv.reader(download.content, dialect=csv.excel_tab)
for row in cr:
    print row

Ma question est qu'est-ce qui est le moyen le plus efficace pour lire un fichier csv dans cette situation.
Et comment faire pour télécharger le réel de fichier csv.

grâce

source d'informationauteur viviwill

Cela devrait vous aider:

import csv
import requests

CSV_URL = 'http://samplecsvs.s3.amazonaws.com/Sacramentorealestatetransactions.csv'


with requests.Session() as s:
    download = s.get(CSV_URL)

    decoded_content = download.content.decode('utf-8')

    cr = csv.reader(decoded_content.splitlines(), delimiter=',')
    my_list = list(cr)
    for row in my_list:
        print(row)

De sortie de l'échantillon:

['street', 'city', 'zip', 'state', 'beds', 'baths', 'sq__ft', 'type', 'sale_date', 'price', 'latitude', 'longitude']
['3526 HIGH ST', 'SACRAMENTO', '95838', 'CA', '2', '1', '836', 'Residential', 'Wed May 21 00:00:00 EDT 2008', '59222', '38.631913', '-121.434879']
['51 OMAHA CT', 'SACRAMENTO', '95823', 'CA', '3', '1', '1167', 'Residential', 'Wed May 21 00:00:00 EDT 2008', '68212', '38.478902', '-121.431028']
['2796 BRANCH ST', 'SACRAMENTO', '95815', 'CA', '2', '1', '796', 'Residential', 'Wed May 21 00:00:00 EDT 2008', '68880', '38.618305', '-121.443839']
['2805 JANETTE WAY', 'SACRAMENTO', '95815', 'CA', '2', '1', '852', 'Residential', 'Wed May 21 00:00:00 EDT 2008', '69307', '38.616835', '-121.439146']
[...]

Liés à la question avec la réponse: https://stackoverflow.com/a/33079644/295246

Edit: d'Autres réponses sont utiles si vous avez besoin de télécharger de gros fichiers (c'est à dire stream=True).

10

De simplifier ces réponses, et d'augmenter les performances lors du téléchargement d'un gros fichier, ci-dessous peuvent travailler un peu plus efficace.
```
import requests
from contextlib import closing
import csv

url = "http://download-and-process-csv-efficiently/python.csv"

with closing(requests.get(url, stream=True)) as r:
    reader = csv.reader(r.iter_lines(), delimiter=',', quotechar='"')
    for row in reader:
        print row   
```
Par la mise en stream=True dans la demande, lorsque l'on passe r.iter_lines() au format csv.reader(), nous passons un générateur au format csv.le lecteur). Ce faisant, nous permettons à des csv.reader() paresseusement itérer sur chaque ligne de la réponse à for row in reader.

Cela évite de charger la totalité du fichier en mémoire avant de commencer le traitement, de réduire drastiquement la charge de la mémoire pour les gros fichiers.

Vous pouvez également utiliser le DictReader pour itérer les dictionnaires de {'columnname': 'value', ...}

import csv
import requests

response = requests.get('http://example.test/foo.csv')
reader = csv.DictReader(response.iter_lines())
for record in reader:
    print(record)

D'un peu de recherche, ce que je comprends le fichier doit être ouvert en universel de retour à la ligne mode, vous ne pouvez pas faire directement avec le contenu de la réponse (je suppose).

Pour terminer la tâche, vous pouvez enregistrer le contenu téléchargé dans un fichier temporaire, ou d'un processus en mémoire.

Enregistrer en tant que fichier:

import requests
import csv
import os

temp_file_name = 'temp_csv.csv'
url = 'http://url.to/file.csv'
download = requests.get(url)

with open(temp_file_name, 'w') as temp_file:
    temp_file.writelines(download.content)

with open(temp_file_name, 'rU') as temp_file:
    csv_reader = csv.reader(temp_file, dialect=csv.excel_tab)
    for line in csv_reader:
        print line

# delete the temp file after process
os.remove(temp_file_name)

En mémoire:

(À mettre à jour)

Vous pouvez mettre à jour la accepté de répondre avec la iter_lines méthode de demandes si le fichier est très volumineux

import csv
import requests

CSV_URL = 'http://samplecsvs.s3.amazonaws.com/Sacramentorealestatetransactions.csv'

with requests.Session() as s:
    download = s.get(CSV_URL)

    line_iterator = (x.decode('utf-8') for x in download.iter_lines(decode_unicode=True))

    cr = csv.reader(line_iterator, delimiter=',')
    my_list = list(cr)
    for row in my_list:
        print(row)

Vous devez vous connecter pour publier un commentaire.