Éviter l'exploration en double d'URL

J'ai codé un simple robot.
Dans le settings.py fichier, en se référant à scrapy de la documentation, j'ai utilisé

DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'

Si j'arrête le robot et redémarrer le robot à nouveau, il est en raclant le double de l'url de nouveau.
Suis-je en train de faire quelque chose de mal?

source d'informationauteur user1787687

scrapy

21

Je crois que ce que vous cherchez est "la persistance de soutien", pour mettre en pause et de reprendre les analyses.

Pour l'activer, vous pouvez le faire:
```
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
```
Vous pouvez en lire plus à ce sujet ici.
6

Selon la la documentationDUPEFILTER_CLASS est d'ores et déjà scrapy.dupefilter.RFPDupeFilter par défaut.

RFPDupeFilter n'aide pas si vous vous arrêtez le robot ne fonctionne tout en rampant, vous aide à éviter d'érafler dupliquer url.

Il semble que vous devez créer votre propre, filtre personnalisé basé sur RFPDupeFiltercomme cela a été fait ici: comment filtrer les doublons demandes en fonction de l'url dans scrapy. Si vous voulez que votre filtre à travailler entre scrapy d'analyse des séances, vous devez garder la liste de analysée url quelque part dans la base de données ou un fichier csv.

Espère que ça aide.
0

vous pouvez réécrire le Planificateur avec le Redis comme scrapy-redis alors vous pouvez éviter de dupliquer URL ramper quand reruning votre projet.

Vous devez vous connecter pour publier un commentaire.