Scrapy lire la liste des URL à partir du fichier à gratter?

Je viens d'installer scrapy et de suivi de leur simple dmoz tutoriel qui fonctionne. J'ai juste regardé le fichier de base de manipulation pour python et essayé de le faire le robot pour lire une liste d'URL à partir d'un fichier, mais a eu quelques erreurs. C'est probablement faux, mais j'ai donné un coup de feu. Quelqu'un merci de me montrer un exemple de la lecture d'une liste d'URL dans scrapy? Merci à l'avance.

from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    f = open("urls.txt")
    start_urls = f

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

source d'informationauteur Anagio

python scrapy

Vous étiez assez proche.

f = open("urls.txt")
start_urls = [url.strip() for url in f.readlines()]
f.close()

...le mieux serait d'utiliser le gestionnaire de contexte pour s'assurer que le fichier est fermé comme prévu:

with open("urls.txt", "rt") as f:
    start_urls = [url.strip() for url in f.readlines()]

Si Dmoz attend juste les noms de fichiers dans la liste, vous devez appeler la bande sur chaque ligne. Sinon vous avez un '\n' à la fin de chaque URL.

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [l.strip() for l in open('urls.txt').readlines()]

Exemple en Python 2.7

>>> open('urls.txt').readlines()
['http://site.org\n', 'http://example.org\n', 'http://example.com/page\n']
>>> [l.strip() for l in open('urls.txt').readlines()]
['http://site.org', 'http://example.org', 'http://example.com/page']

Vous devez vous connecter pour publier un commentaire.