Comment générer le start_urls de façon dynamique à l'analyse?
Je suis de l'analyse d'un site qui peut contenir beaucoup de start_urls
, comme:
http://www.a.com/list_1_2_3.htm
Je veux remplir start_urls
comme [list_\d+_\d+_\d+\.htm]
,
et d'en extraire des éléments à partir des URLs comme [node_\d+\.htm]
lors de l'analyse.
Puis-je utiliser CrawlSpider
pour réaliser cette fonction?
Et comment puis-je générer la start_urls
de façon dynamique à l'analyse?
- stackoverflow.com/q/8798235
- Plus d'infos sur start_requests doc.scrapy.org/en/latest/topics/...
Vous devez vous connecter pour publier un commentaire.
La meilleure façon de générer des Url dynamiquement est de remplacer la start_requests méthode de l'araignée:
Il y a deux questions:
1)oui, vous pouvez réaliser cette fonctionnalité en utilisant des Règles de l'e.g ,
des suggestions de lecture
2) oui, vous pouvez générer start_urls dynamiquement , start_urls est un
e.g
>>> start_urls = ['http://www.a.com/%d_%d_%d' %(n,n+1,n+2) for n in range(0, 26)]
runspider
.