Scrapy lire la liste des URL à partir du fichier à gratter?
Je viens d'installer scrapy et de suivi de leur simple dmoz tutoriel qui fonctionne. J'ai juste regardé le fichier de base de manipulation pour python et essayé de le faire le robot pour lire une liste d'URL à partir d'un fichier, mais a eu quelques erreurs. C'est probablement faux, mais j'ai donné un coup de feu. Quelqu'un merci de me montrer un exemple de la lecture d'une liste d'URL dans scrapy? Merci à l'avance.
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
source d'informationauteur Anagio
Vous devez vous connecter pour publier un commentaire.
Vous étiez assez proche.
...le mieux serait d'utiliser le gestionnaire de contexte pour s'assurer que le fichier est fermé comme prévu:
Si Dmoz attend juste les noms de fichiers dans la liste, vous devez appeler la bande sur chaque ligne. Sinon vous avez un '\n' à la fin de chaque URL.
Exemple en Python 2.7