Combinant l'url de base avec résultante href dans scrapy

ci-dessous est mon araignée code,

class Blurb2Spider(BaseSpider):
name = "blurb2"
allowed_domains = ["www.domain.com"]
def start_requests(self):
yield self.make_requests_from_url("http://www.domain.com/bookstore/new")
def parse(self, response):
hxs = HtmlXPathSelector(response)
urls = hxs.select('//div[@class="bookListingBookTitle"]/a/@href').extract()
for i in urls:
yield Request(urlparse.urljoin('www.domain.com/', i[1:]),callback=self.parse_url)
def parse_url(self, response):
hxs = HtmlXPathSelector(response)
print response,'------->'

Ici, je suis en train d'essayer de combiner le href du lien avec le lien de base , mais j'obtiens l'erreur suivante ,

exceptions.ValueError: Missing scheme in request url: www.domain.com//bookstore/detail/3271993?alt=Something+I+Had+To+Do

Quelqu'un peut-il me faire savoir pourquoi je reçois cette erreur et comment adhérer à l'url de base href lien et le rendement d'une demande

OriginalL'auteur Shiva Krishna Bavandla | 2012-05-29

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *