Pipeline Scrapy pour exporter le fichier csv dans le bon format

J'ai fait de l'amélioration selon la suggestion de alexce ci-dessous. Ce dont j'ai besoin, c'est comme l'image ci-dessous. Cependant, chaque ligne/ligne devrait être un examen: avec date, d'évaluation, d'examen texte et le lien.

J'ai besoin de laisser élément processeur de traitement de chaque examen de chaque page.
Actuellement TakeFirst() ne prend que la première révision de la page. Donc 10 pages, je n'ai que 10 lignes/lignes comme dans l'image ci-dessous.

Spider code est ci-dessous:

import scrapy
from amazon.items import AmazonItem

class AmazonSpider(scrapy.Spider):
   name = "amazon"
   allowed_domains = ['amazon.co.uk']
   start_urls = [
    'http://www.amazon.co.uk/product-reviews/B0042EU3A2/'.format(page) for      page in xrange(1,114)

]

def parse(self, response):
    for sel in response.xpath('//*[@id="productReviews"]//tr/td[1]'):
        item = AmazonItem()
        item['rating'] = sel.xpath('div/div[2]/span[1]/span/@title').extract()
        item['date'] = sel.xpath('div/div[2]/span[2]/nobr/text()').extract()
        item['review'] = sel.xpath('div/div[6]/text()').extract()
        item['link'] = sel.xpath('div/div[7]/div[2]/div/div[1]/span[3]/a/@href').extract()

        yield item

source d'informationauteur W.S.

J'ai commencé à partir de zéro et la suite de l'araignée doit être exécuté avec

scrapy crawl amazon -t csv -o Amazon.csv --loglevel=INFO

de sorte que l'ouverture du Fichier CSV avec une feuille de calcul montre pour moi

Pipeline Scrapy pour exporter le fichier csv dans le bon format

Espère que cela aide 🙂

import scrapy

class AmazonItem(scrapy.Item):
    rating = scrapy.Field()
    date = scrapy.Field()
    review = scrapy.Field()
    link = scrapy.Field()

class AmazonSpider(scrapy.Spider):

    name = "amazon"
    allowed_domains = ['amazon.co.uk']
    start_urls = ['http://www.amazon.co.uk/product-reviews/B0042EU3A2/' ]

    def parse(self, response):

        for sel in response.xpath('//table[@id="productReviews"]//tr/td/div'):

            item = AmazonItem()
            item['rating'] = sel.xpath('./div/span/span/span/text()').extract()
            item['date'] = sel.xpath('./div/span/nobr/text()').extract()
            item['review'] = sel.xpath('./div[@class="reviewText"]/text()').extract()
            item['link'] = sel.xpath('.//a[contains(.,"Permalink")]/@href').extract()
            yield item

        xpath_Next_Page = './/table[@id="productReviews"]/following::*//span[@class="paging"]/a[contains(.,"Next")]/@href'
        if response.xpath(xpath_Next_Page):
            url_Next_Page = response.xpath(xpath_Next_Page).extract()[0]
            request = scrapy.Request(url_Next_Page, callback=self.parse)
            yield request

Si vous utilisez -t csv (comme proposé par Frank dans les commentaires) ne fonctionne pas pour vous, pour une raison quelconque, vous pouvez toujours utiliser les haut- CsvItemExporter directement dans le pipeline personnalisépar exemple:

from scrapy import signals
from scrapy.contrib.exporter import CsvItemExporter


class AmazonPipeline(object):
    @classmethod
    def from_crawler(cls, crawler):
        pipeline = cls()
        crawler.signals.connect(pipeline.spider_opened, signals.spider_opened)
        crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
        return pipeline

    def spider_opened(self, spider):
        self.file = open('output.csv', 'w+b')
        self.exporter = CsvItemExporter(self.file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

que vous devez ajouter à ITEM_PIPELINES:

ITEM_PIPELINES = {
    'amazon.pipelines.AmazonPipeline': 300
}

Aussi, je voudrais utiliser une Élément De Chargeur avec entrée et sortie des processeurs pour rejoindre la révision de texte et remplacez les nouvelles lignes avec des espaces. Créer un ItemLoader classe:

from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader.processor import TakeFirst, Join, MapCompose


class AmazonItemLoader(ItemLoader):
    default_output_processor = TakeFirst()

    review_in = MapCompose(lambda x: x.replace("\n", " "))
    review_out = Join()

Puis, l'utiliser pour construire un Item:

def parse(self, response):
    for sel in response.xpath('//*[@id="productReviews"]//tr/td[1]'):
        loader = AmazonItemLoader(item=AmazonItem(), selector=sel)

        loader.add_xpath('rating', './/div/div[2]/span[1]/span/@title')
        loader.add_xpath('date', './/div/div[2]/span[2]/nobr/text()')
        loader.add_xpath('review', './/div/div[6]/text()')
        loader.add_xpath('link', './/div/div[7]/div[2]/div/div[1]/span[3]/a/@href')

        yield loader.load_item()

Vous devez vous connecter pour publier un commentaire.