Comment donner l'URL de scrapy pour l'analyse?

Je veux utiliser scrapy pour l'analyse des pages web. Est-il un moyen de passer l'URL de démarrage du terminal lui-même?

Il est donné dans le la documentation que soit le nom de l'araignée ou l'URL peut être donné, mais quand j'ai donné l'url, il renvoie une erreur:

//nom de mon spider est un exemple, mais je donne l'url à la place de mon spider nom(Il fonctionne très bien si je donne spider nom).

scrapy d'analyse example.com

ERREUR:

Fichier
"/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py",
la ligne 43, de créer
soulever KeyError("Spider introuvable: %s" % spider_name) KeyError: 'Araignée non trouvé: example.com'

Comment puis-je faire scrapy à utiliser mon araignée sur l'url donnée dans le terminal??

Est example.com ajouté à la allowed_domains de votre araignée?
oui example.com est ajouté à allowed_domains. Ce que je veux vraiment, c'est donner start_url en ligne de commande. comment puis-je le faire?

InformationsquelleAutor G Gill | 2012-03-13

scrapy web-crawler

48

Je ne suis pas vraiment sûr de la ligne de commande en option. Cependant, vous pouvez écrire votre araignée comme ça.
```
class MySpider(BaseSpider):

    name = 'my_spider'    

    def __init__(self, *args, **kwargs): 
      super(MySpider, self).__init__(*args, **kwargs) 

      self.start_urls = [kwargs.get('start_url')] 
```
Et commencer comme:
scrapy crawl my_spider -a start_url="http://some_url"
- merci beaucoup, c'est exactement ce que je cherchais. Il a bien fonctionné pour moi 🙂
- Cette approche ne fonctionne que pour exactement une url. Si vous souhaitez fournir plus d'une url, reportez-vous à mon approche dans ce fil.
- Pour plusieurs Url: self.start_urls = kwargs.pop('start_urls').split(',') qui est run avant super().
InformationsquelleAutor Sjaak Trekhaak
11

Une manière encore plus facile pour permettre à plusieurs url-les arguments que ce que Pierre avait suggéré est en leur donnant comme une chaîne de caractères avec l'url séparés par une virgule, comme ceci:
```
-a start_urls="http://example1.com,http://example2.com"
```
Dans l'araignée vous suffit alors de diviser la chaîne de caractères ',' et obtenir un tableau d'url:
```
self.start_urls = kwargs.get('start_urls').split(',')
```
InformationsquelleAutor glindste
4

Utilisation scrapy analyser commande. Vous pouvez analyser une url avec votre spider. l'url est passé de la commande.
```
$ scrapy parse http://www.example.com/--spider=spider-name
```
http://doc.scrapy.org/en/latest/topics/commands.html#parse
- Malheureusement, scrapy analyser ne semble pas avoir des options pour enregistrer les résultats dans un fichier (dans différents formats) comme scrapy analyse ne
- Si vous êtes à la recherche pour juste debug pourquoi une url particulière de votre araignée est un échec sur ce est une option facile.
- Ne pouvez pas enregistrer/exporter vers un fichier facilement. Autrement, cela aurait été parfait.
InformationsquelleAutor Subhash
3

C'est une extension de l'approche adoptée par Sjaak Trekhaak dans ce fil. L'approche, car jusqu'à présent ne fonctionne que si vous fournir exactement un url. Par exemple, si vous souhaitez fournir plus d'une url comme ceci, par exemple:
```
-a start_url=http://url1.com,http://url2.com
```
puis Scrapy (j'utilise la version stable actuelle 0.14.4) prendra fin avec l'exception suivante:
```
error: running 'scrapy crawl' with more than one spider is no longer supported
```
Cependant, vous pouvez contourner ce problème en choisissant une variable différente pour chaque url de démarrage, avec un argument qui contient le nombre de passé url. Quelque chose comme ceci:
```
-a start_url1=http://url1.com 
-a start_url2=http://url2.com 
-a urls_num=2
```
Vous pouvez ensuite effectuer les opérations suivantes dans votre araignée:
```
class MySpider(BaseSpider):

    name = 'my_spider'    

    def __init__(self, *args, **kwargs): 
        super(MySpider, self).__init__(*args, **kwargs) 

        urls_num = int(kwargs.get('urls_num'))

        start_urls = []
        for i in xrange(1, urls_num):
            start_urls.append(kwargs.get('start_url{0}'.format(i)))

        self.start_urls = start_urls
```
C'est un peu moche hack, mais il fonctionne. Bien sûr, il est fastidieux d'écrire explicitement vers le bas tous les arguments de ligne de commande pour chaque url. Par conséquent, il est logique pour envelopper le scrapy crawl commande en Python sous-processus et de générer les arguments de ligne de commande dans une boucle ou quelque chose.

Espère que cela aide. 🙂
- Si je l'appelle, scrapy 0.24.4 comme ceci: scrapy crawl MySpider -a start_urls=http://example.com/ -o - -t json Tout fonctionne bien. Au départ, j'ai mis des options -o et - et de même que Vous erreur.
InformationsquelleAutor pemistahl

Sjaak Trekhaak a la bonne idée et ici est de savoir comment permettre à multiples:

class MySpider(scrapy.Spider):
    """
    This spider will try to crawl whatever is passed in `start_urls` which
    should be a comma-separated string of fully qualified URIs.

    Example: start_urls=http://localhost,http://example.com
    """
    def __init__(self, name=None, **kwargs):
        if 'start_urls' in kwargs:
            self.start_urls = kwargs.pop('start_urls').split(',')
        super(Spider, self).__init__(name, **kwargs)

InformationsquelleAutor Steven Almeroth

0

Vous pouvez aussi essayer ceci:
```
>>> scrapy view http://www.sitename.com
```
Il va ouvrir une fenêtre dans le navigateur de l'URL demandée.

InformationsquelleAutor Mayur Koshti

Vous devez vous connecter pour publier un commentaire.