Scrapy - Réacteur pas de Redémarrage

avec:

from twisted.internet import reactor
from scrapy.crawler import CrawlerProcess

J'ai toujours couru ce processus avec succès:

process = CrawlerProcess(get_project_settings())
process.crawl(*args)
# the script will block here until the crawling is finished
process.start()

mais depuis que j'ai déplacé ce code dans un web_crawler(self) fonction, comme suit:

def web_crawler(self):
    # set up a crawler
    process = CrawlerProcess(get_project_settings())
    process.crawl(*args)
    # the script will block here until the crawling is finished
    process.start() 

    # (...)

    return (result1, result2)

et a commencé à l'appel de la méthode à l'aide de l'instanciation de classe, comme:

def __call__(self):
    results1 = test.web_crawler()[1]
    results2 = test.web_crawler()[0]

et en cours d'exécution:

test()

J'obtiens l'erreur suivante:

Traceback (most recent call last):
  File "test.py", line 573, in <module>
    print (test())
  File "test.py", line 530, in __call__
    artists = test.web_crawler()
  File "test.py", line 438, in web_crawler
    process.start() 
  File "/Library/Python/2.7/site-packages/scrapy/crawler.py", line 280, in start
    reactor.run(installSignalHandlers=False)  # blocking call
  File "/Library/Python/2.7/site-packages/twisted/internet/base.py", line 1194, in run
    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "/Library/Python/2.7/site-packages/twisted/internet/base.py", line 1174, in startRunning
    ReactorBase.startRunning(self)
  File "/Library/Python/2.7/site-packages/twisted/internet/base.py", line 684, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable

quel est le problème?

Êtes-vous en cours d'exécution "web_crawler()" plus d'une fois par script? Vous ne pouvez pas démarrer tordue d'un réacteur plus d'une fois.
non pas que je suis au courant de. ce que je suis en train de faire est de définir le robot d'exploration de la fonction en une fonction de classe, et l'exécution du processus avec un appel méthode. comme: results = test.web_crawler().
J'ai édité la question, merci

InformationsquelleAutor data_garden | 2017-01-05

Vous ne pouvez pas redémarrer le réacteur, mais vous devriez être capable de l'exécuter plusieurs fois par bifurquer d'un processus distinct:

import scrapy
import scrapy.crawler as crawler
from multiprocessing import Process, Queue
from twisted.internet import reactor

# your spider
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/tag/humor/']

    def parse(self, response):
        for quote in response.css('div.quote'):
            print(quote.css('span.text::text').extract_first())


# the wrapper to make it run more times
def run_spider(spider):
    def f(q):
        try:
            runner = crawler.CrawlerRunner()
            deferred = runner.crawl(spider)
            deferred.addBoth(lambda _: reactor.stop())
            reactor.run()
            q.put(None)
        except Exception as e:
            q.put(e)

    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    result = q.get()
    p.join()

    if result is not None:
        raise result

L'exécuter deux fois:

print('first run:')
run_spider(QuotesSpider)

print('\nsecond run:')
run_spider(QuotesSpider)

Résultat:

first run:
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“A day without sunshine is like, you know, night.”
...

second run:
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“A day without sunshine is like, you know, night.”
...

Il a travaillé pour moi....Merci.
Cette solution fonctionne. Testé avec Jupyter (Google Colab). [⚠️ATTENTION⚠️] Il y a un GROS inconvénient: Vous DEVEZ redémarrer votre temps lors de l'utilisation de ce la première fois. D'autre le ballonnement cadavre de votre ancien réacteur est toujours qui traînent autour, et donc votre fourche processus de les porter ainsi. Après cela, tout se déroulera sans heurts, car le processus parent ne veut pas toucher à son propre réacteur plus.
Merci, ça fonctionne pour moi aussi, d'ailleurs, peut vous aider à attraper le résultat, je suis coincé pour obtenir le résultat..
Sry je pense que c'est cz mon code.. def parse(self, response): et def after_login(self, response):
Nope, il est encore difficile de les attraper dans certains variable.. XD
Je reçois un AttributeError: 'PyDB' object has no attribute 'has_plugin_line_breaks et un Exception ignored in: '_pydevd_frame_eval.pydevd_frame_evaluator_darwin_37_64.get_bytecode_while_frame_eval mais il fonctionne encore

InformationsquelleAutor Ferrard

9

C'est ce qui a aidé pour moi de gagner la bataille contre ReactorNotRestartable erreur: dernière réponse de l'auteur de la question

0) pip install crochet

1) import from crochet import setup

2) setup() - en haut du fichier

3) retirez les 2 lignes:

a) d.addBoth(lambda _: reactor.stop())

b) reactor.run()

J'ai eu le même problème avec cette erreur, et de passer plus de 4 heures pour résoudre ce problème, lisez toutes les questions à ce sujet. Enfin constaté que l'un - et de les partager. Voilà comment j'ai résolu ce problème. Le sens des lignes de Scrapy docs gauche sont les 2 dernières lignes dans mon code:
```
#some more imports
from crochet import setup
setup()

def run_spider(spiderName):
    module_name="first_scrapy.spiders.{}".format(spiderName)
    scrapy_var = import_module(module_name)   #do some dynamic import of selected spider   
    spiderObj=scrapy_var.mySpider()           #get mySpider-object from spider module
    crawler = CrawlerRunner(get_project_settings())   #from Scrapy docs
    crawler.crawl(spiderObj)                          #from Scrapy docs
```
Ce code me permet de sélectionner ce que l'araignée à faire fonctionner juste avec son nom transmis à run_spider fonction et après la démolition de finitions - sélectionnez une autre araignée, et de l'exécuter à nouveau.

Espérons que cela aidera quelqu'un, car il a pour moi 🙂
- Quand je l'appelle import_module un message d'erreur s'affiche: NameError: name 'import_module' is not defined
- vérifier from importlib import import_module
- Je l'ai eu, mais lorsque j'appelle cette fonction, l'araignée n'est pas déclenché
- est-il tout message ou toute erreur ou qch?
- non, il n'y a pas de messages à tous les
- u ne saisi le vrai chemin d'accès à votre araignée dans module_name variable?
- oui je l'ai fait. Dois-je appeler reactor.run() méthode?
- non, avec mon pice de code, u n'a pas besoin reactor.run. Essayez de mettre une impression à la fin de cette fonction - u voir?
- Oui, je peux voir trop. Je ne sais pas pourquoi ce qui se passe
- Vous devez déboguer votre spider. Semble comme il y a quelques problèmes de sa part. Peut être aussi mis quelques impressions sur le début de début de celui-ci.
- l'araignée est entièrement de travail trop
- Ok, my bad, c'était le journal qui a été désactivé.
- si cela a fonctionné?
- Oui, merci de m'aider
- pourriez vous s'il vous plaît vérifier mon nouveau sujet? stackoverflow.com/questions/51529817/... je woul apprécier
- Vous avez sauvé ma journée! Vous avez sauvé ma vie! Merci beaucoup
InformationsquelleAutor Chiefir
1

Que par la Scrapy documentation, le start() méthode de la CrawlerProcess classe est le suivant:

"[...] commence Tordue d'un réacteur, ajuste sa taille de pool de REACTOR_THREADPOOL_MAXSIZE, et installe un cache DNS basé sur DNSCACHE_ENABLED et DNSCACHE_SIZE."

L'erreur que vous recevez est en train d'être levée par Twisted, car Tordue d'un réacteur ne peut pas être redémarré. Il utilise une tonne de variables globales, et même si vous n'jimmy-plate-forme une sorte de code de le redémarrer (je l'ai vu faire), il n'y a aucune garantie que cela va fonctionner.

Honnêtement, si vous pensez que vous avez besoin de redémarrer le réacteur, vous êtes susceptible de faire quelque chose de mal.

En fonction de ce que vous voulez faire, je voudrais également en revue les L'exécution de Scrapy à partir d'un Script partie de la documentation, trop.

InformationsquelleAutor Rejected
1

L'erreur dans ce code:
```
def __call__(self):
    result1 = test.web_crawler()[1]
    result2 = test.web_crawler()[0] # here
```
web_crawler() retourne deux résultats, et à cette fin, il essaie de démarrer le processus deux fois, le redémarrage du Réacteur, comme indiqué par @Rejeté.

l'obtention de résultats à l'exécution d'une procédure unique, et de stocker à la fois les résultats dans un tuple, est la voie à suivre ici:
```
def __call__(self):
    result1, result2 = test.web_crawler()
```
InformationsquelleAutor data_garden
0

Cela a résolu mon problème,mettre code ci-dessous après reactor.run() ou process.start():
```
time.sleep(0.5)

os.execl(sys.executable, sys.executable, *sys.argv)
```
- vous voulez mettre votre code dans les blocs de code en l'entourant avec des tiques (`) ou, mieux encore, en le mettant en surbrillance et en appuyant sur ctrl + K(windows) ou commande + K (mac)
InformationsquelleAutor Neeraj Yadav

Que quelques personnes ont souligné déjà: Vous ne devriez pas avoir besoin de redémarrer le réacteur.

Idéalement si vous voulez à la chaîne de votre processus (crawl1 puis crawl2 puis crawl3) il suffit d'ajouter des rappels.

Par exemple, j'ai été en utilisant cette boucle d'araignée qui suit ce modèle:

1. Crawl A
2. Sleep N
3. goto 1

Et c'est à quoi il ressemble dans scrapy:

import time

from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from twisted.internet import reactor

class HttpbinSpider(scrapy.Spider):
    name = 'httpbin'
    allowed_domains = ['httpbin.org']
    start_urls = ['http://httpbin.org/ip']

    def parse(self, response):
        print(response.body)

def sleep(_, duration=5):
    print(f'sleeping for: {duration}')
    time.sleep(duration)  # block here


def crawl(runner):
    d = runner.crawl(HttpbinSpider)
    d.addBoth(sleep)
    d.addBoth(lambda _: crawl(runner))
    return d


def loop_crawl():
    runner = CrawlerRunner(get_project_settings())
    crawl(runner)
    reactor.run()


if __name__ == '__main__':
    loop_crawl()

Pour expliquer le processus de la crawl fonction des horaires d'une analyse et apporte deux rappels qui sont appelés lors de l'analyse: le blocage du sommeil et de l'appel récursif à lui-même (prévoir une autre analyse).

$ python endless_crawl.py 
b'{\n  "origin": "000.000.000.000"\n}\n'
sleeping for: 5
b'{\n  "origin": "000.000.000.000"\n}\n'
sleeping for: 5
b'{\n  "origin": "000.000.000.000"\n}\n'
sleeping for: 5
b'{\n  "origin": "000.000.000.000"\n}\n'
sleeping for: 5

J'ai en fait écrit un blog approfondies sur ce explorer.blog/scrapy-boucle et riche en fonctionnalités de mise en œuvre de gitlab.com/granitosaurus/scrapy-loop

InformationsquelleAutor Granitosaurus

Vous devez vous connecter pour publier un commentaire.