Différence entre BeautifulSoup et Scrapy crawler?

Je veux faire un site qui montre la comparaison entre amazon et e-bay prix du produit.
Laquelle de ces fonctionnera mieux et pourquoi? Je suis un peu familier avec BeautifulSoup mais pas tellement avec Scrapy robot.

Pourquoi voudriez-vous utiliser les robots autre de ces deux sites ont un grand API? aws.amazon.com/python developer.ebay.com/common/api
je suis originaire de l'Inde et je pense que Amazon-Api ne prend pas en charge l'inde hôte. il n'y a pas de api(paramètres régionaux) pour l'inde. HOSTS = {'ca': 'ecs.amazonaws.ca', 'cn': 'webservices.amazon.cn', 'de': 'ecs.amazonaws.de', 'es': 'webservices.amazon.es', 'fr': 'ecs.amazonaws.fr', 'il': 'webservices.amazon.c'', 'jp': 'ecs.amazonaws.jp', 'royaume-uni': 'ecs.amazonaws.co.royaume-uni', 'nous': 'ecs.amazonaws.com',}
Et si je veux analyser un autre site qui n'a pas d'API ?

InformationsquelleAutor Nishant Bhakta | 2013-10-30

206

Scrapy est une Web-araignée ou web grattoir cadre, Vous donner Scrapy une racine de l'URL pour commencer à ramper, puis vous pouvez spécifier des contraintes sur le nombre de (nombre de) Url que vous souhaitez utiliser pour l'analyse et l'extraction,etc. C'est un cadre complet pour la web-raclage ou ramper.

Tout

BeautifulSoup est un l'analyse de la bibliothèque qui a également fait un assez bon travail de l'extraction de contenu à partir de l'URL et vous permet de faire analyser certaines parties d'entre eux sans tracas. Il ne récupère le contenu de l'URL que vous donnez, puis s'arrête. Il n'analyse pas, sauf si vous mettez manuellement à l'intérieur d'une boucle infinie avec certains critères.

Dans des mots simples, avec de Belles Soupe, vous pouvez construire quelque chose de similaire à Scrapy.
Belle Soupe est un bibliothèque tout Scrapy est un cadre complet.

source: http://www.quora.com/Python-programming-language-1/How-is-BeautifulSoup-different-from-Scrapy
- ce qui est plus rapide , je veux dire que je suis à l'aide de BeautifulSoup et cela prend environ 10sec à la ferraille de données ? ne scrapy plus vite que beautifulsoup ?
- Si vous utilisez beautifulsoup avec blocage de code, scrapy devrait être plus rapide aussi longtemps que il ya des requêtes indépendantes à faire, mais je suppose que vous pouvez également utiliser beautifulsoup avec asyncio pour obtenir de meilleures performances.
- Je dirais, Scrapy avec BeautifulSoup sera super rapide et vous seriez en mesure d'obtenir le meilleur des deux.
InformationsquelleAutor Medeiros
18

Je pense que les deux sont bons... im faire un projet qui utilise à la fois. J'ai d'abord ferraille toutes les pages à l'aide de scrapy et enregistrer sur une collection de mongodb à l'aide de leurs pipelines, également le téléchargement des images qui existe sur la page.
Après que j'utilise BeautifulSoup4 de faire un pos-traitement où je dois changer les valeurs des attributs et obtenir des balises spéciales.

Si vous ne savez pas quelles sont les pages produits que vous souhaitez, un bon outil sera scrapy, puisque vous pouvez l'utiliser leurs robots pour exécuter tous les amazon/ebay site web à la recherche pour les produits sans explicites pour la boucle.

Prendre un coup d'oeil à la scrapy de la documentation, il est très simple à utiliser.
- Donc, je peux utiliser Scrapy sur le serveur web car il ya beaucoup de dépendances comme (Tordu, pywin32, pyOpenSSL ete..). (Désolé pour cette question idiote, je suis nouveau sur python)
- Sur le serveur web? Je n'ai jamais essayer... je l'utilise sur le shell, exécutez la "scrapy analyse <nom de robot>" pour exécuter l'araignée... peut-être que vous pouvez l'utiliser sur le serveur, mais vous devez appeler ce à l'aide de python sous-processus module (docs.python.org/2/library/subprocess.html). Comme je l'ai dit de ne jamais essayer, mais peut-être que ça pourrait fonctionner... juste une note, utilisez le message du journal de scrapy juste pour que vous sachiez où des erreurs peuvent se produire sur votre robot (de scrapy journal d'importation).
InformationsquelleAutor rdenadai
3

La façon dont je le fais, c'est d'utiliser le eBay/Amazon API plutôt que de scrapy, puis d'analyser les résultats à l'aide BeautifulSoup.

L'Api vous donne un moyen officiel d'obtenir les mêmes données que vous auriez eu de scrapy robot, pas besoin de vous soucier de cacher votre identité, déconner avec les procurations,etc.
- La question clairement la demande pour des solutions là où les Api ne sont pas disponibles.
InformationsquelleAutor baldnbad
3

Les deux utilisent pour analyser les données.

Scrapy:
- Scrapy est un moyen rapide de haut niveau de l'analyse web et de web scraping cadre,
  utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de leurs pages.
- Mais il a certaines limites lorsque les données proviennent de java script ou
  chargement dynamicaly, nous pouvons venir en aide paquets comme splash,
  le sélénium, etc.
BeautifulSoup:
- Belle Soupe est une bibliothèque Python pour l'extraction de données de HTML et
  Des fichiers XML.
- on peut se servir de ce logiciel pour récupérer des données à partir de java script ou
  le chargement dynamique de pages.
Scrapy avec BeautifulSoup est l'un des meilleurs combo avec qui nous pouvons travailler pour gratter statique et dynamique des contenus

InformationsquelleAutor Arun Augustine
0

À l'aide de scrapy vous pouvez enregistrer des tonnes de code et de commencer avec la programmation structurée, Si vous n'aimez pas l'un de l'scapy pré-méthodes écrites puis BeautifulSoup peut être utilisé à la place de scrapy méthode.
Grand projet prend à la fois des avantages.

InformationsquelleAutor ethirajit
0

Les différences sont nombreuses et le choix d'un outil/de la technologie dépend des besoins individuels.

Quelques différences principales sont:
1. BeautifulSoup est relativement est facile à apprendre de Scrapy.
2. Les extensions, le support, la communauté est plus grande pour Scrapy que pour BeautifulSoup.
3. Scrapy doit être considéré comme un Spider tout BeautifulSoup est un Analyseur.
InformationsquelleAutor krish___na
-1

BeautifulSoup est uniquement utilisée pour analyser le code HTML et d'en extraire des données,

Scrapy est utilisé pour télécharger le HTML, les processus, les données et les enregistrer.

Pour comparaison Détaillée voir cette

InformationsquelleAutor Umer

Vous devez vous connecter pour publier un commentaire.