Éviter l'exploration en double d'URL
J'ai codé un simple robot.
Dans le settings.py fichier, en se référant à scrapy de la documentation, j'ai utilisé
DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'
Si j'arrête le robot et redémarrer le robot à nouveau, il est en raclant le double de l'url de nouveau.
Suis-je en train de faire quelque chose de mal?
source d'informationauteur user1787687
Vous devez vous connecter pour publier un commentaire.
Je crois que ce que vous cherchez est "la persistance de soutien", pour mettre en pause et de reprendre les analyses.
Pour l'activer, vous pouvez le faire:
Vous pouvez en lire plus à ce sujet ici.
Selon la la documentation
DUPEFILTER_CLASS
est d'ores et déjàscrapy.dupefilter.RFPDupeFilter
par défaut.RFPDupeFilter
n'aide pas si vous vous arrêtez le robot ne fonctionne tout en rampant, vous aide à éviter d'érafler dupliquer url.Il semble que vous devez créer votre propre, filtre personnalisé basé sur
RFPDupeFilter
comme cela a été fait ici: comment filtrer les doublons demandes en fonction de l'url dans scrapy. Si vous voulez que votre filtre à travailler entre scrapy d'analyse des séances, vous devez garder la liste de analysée url quelque part dans la base de données ou un fichier csv.Espère que ça aide.
vous pouvez réécrire le Planificateur avec le Redis comme scrapy-redis alors vous pouvez éviter de dupliquer URL ramper quand reruning votre projet.