Comment générer le start_urls de façon dynamique à l'analyse?

Je suis de l'analyse d'un site qui peut contenir beaucoup de start_urls, comme:

http://www.a.com/list_1_2_3.htm

Je veux remplir start_urls comme [list_\d+_\d+_\d+\.htm],
et d'en extraire des éléments à partir des URLs comme [node_\d+\.htm] lors de l'analyse.

Puis-je utiliser CrawlSpider pour réaliser cette fonction?
Et comment puis-je générer la start_urls de façon dynamique à l'analyse?

stackoverflow.com/q/8798235
Plus d'infos sur start_requests doc.scrapy.org/en/latest/topics/...

InformationsquelleAutor user1215269 | 2012-02-17

La meilleure façon de générer des Url dynamiquement est de remplacer la start_requests méthode de l'araignée:

from scrapy.http.request import Request

def start_requests(self):
      with open('urls.txt', 'rb') as urls:
          for url in urls:
              yield Request(url, self.parse)

InformationsquelleAutor juraseg

14

Il y a deux questions:

1)oui, vous pouvez réaliser cette fonctionnalité en utilisant des Règles de l'e.g ,
```
rules =(Rule(SgmlLinkExtractor(allow = ('node_\d+.htm')) ,callback = 'parse'))
```
des suggestions de lecture

2) oui, vous pouvez générer start_urls dynamiquement , start_urls est un

liste

e.g >>> start_urls = ['http://www.a.com/%d_%d_%d' %(n,n+1,n+2) for n in range(0, 26)]
```
>>> start_urls

['http://www.a.com/0_1_2', 'http://www.a.com/1_2_3', 'http://www.a.com/2_3_4', 'http://www.a.com/3_4_5', 'http://www.a.com/4_5_6', 'http://www.a.com/5_6_7',  'http://www.a.com/6_7_8', 'http://www.a.com/7_8_9', 'http://www.a.com/8_9_10','http://www.a.com/9_10_11', 'http://www.a.com/10_11_12', 'http://www.a.com/11_12_13', 'http://www.a.com/12_13_14', 'http://www.a.com/13_14_15', 'http://www.a.com/14_15_16', 'http://www.a.com/15_16_17', 'http://www.a.com/16_17_18', 'http://www.a.com/17_18_19', 'http://www.a.com/18_19_20', 'http://www.a.com/19_20_21', 'http://www.a.com/20_21_22', 'http://www.a.com/21_22_23', 'http://www.a.com/22_23_24', 'http://www.a.com/23_24_25', 'http://www.a.com/24_25_26', 'http://www.a.com/25_26_27']
```
- Merci pour les réponses. Mais je veux générer le start_urls lors de l'analyse: quand je rencontre une url de type 'a.com/%d_%d_%d', je l'ajouter dans start_urls. Je ne peux pas confirmer la gamme de start_urls au premier abord...
- comme pour que je le sais, scrapy ajouter start_urls Demandes planificateur au début de l'analyse si vous ajoutez une url dans la liste des start_urls lors de l'analyse qui ne sera pas exécuté.
- Pour une raison quelconque (2) ne fonctionne que dans l'interpréteur shell et échoue dans la runspider.
- Comment python connaître son supposé être %d. Si vous utilisez %h ou %x? Pourquoi %d?
InformationsquelleAutor akhter wahab

Vous devez vous connecter pour publier un commentaire.