Différence entre BeautifulSoup et Scrapy crawler?
Je veux faire un site qui montre la comparaison entre amazon et e-bay prix du produit.
Laquelle de ces fonctionnera mieux et pourquoi? Je suis un peu familier avec BeautifulSoup mais pas tellement avec Scrapy robot.
- Pourquoi voudriez-vous utiliser les robots autre de ces deux sites ont un grand API? aws.amazon.com/python developer.ebay.com/common/api
- je suis originaire de l'Inde et je pense que Amazon-Api ne prend pas en charge l'inde hôte. il n'y a pas de api(paramètres régionaux) pour l'inde. HOSTS = {'ca': 'ecs.amazonaws.ca', 'cn': 'webservices.amazon.cn', 'de': 'ecs.amazonaws.de', 'es': 'webservices.amazon.es', 'fr': 'ecs.amazonaws.fr', 'il': 'webservices.amazon.c'', 'jp': 'ecs.amazonaws.jp', 'royaume-uni': 'ecs.amazonaws.co.royaume-uni', 'nous': 'ecs.amazonaws.com',}
- Et si je veux analyser un autre site qui n'a pas d'API ?
Vous devez vous connecter pour publier un commentaire.
Scrapy est une Web-araignée ou web grattoir cadre, Vous donner Scrapy une racine de l'URL pour commencer à ramper, puis vous pouvez spécifier des contraintes sur le nombre de (nombre de) Url que vous souhaitez utiliser pour l'analyse et l'extraction,etc. C'est un cadre complet pour la web-raclage ou ramper.
Tout
BeautifulSoup est un l'analyse de la bibliothèque qui a également fait un assez bon travail de l'extraction de contenu à partir de l'URL et vous permet de faire analyser certaines parties d'entre eux sans tracas. Il ne récupère le contenu de l'URL que vous donnez, puis s'arrête. Il n'analyse pas, sauf si vous mettez manuellement à l'intérieur d'une boucle infinie avec certains critères.
Dans des mots simples, avec de Belles Soupe, vous pouvez construire quelque chose de similaire à Scrapy.
Belle Soupe est un bibliothèque tout Scrapy est un cadre complet.
source: http://www.quora.com/Python-programming-language-1/How-is-BeautifulSoup-different-from-Scrapy
Je pense que les deux sont bons... im faire un projet qui utilise à la fois. J'ai d'abord ferraille toutes les pages à l'aide de scrapy et enregistrer sur une collection de mongodb à l'aide de leurs pipelines, également le téléchargement des images qui existe sur la page.
Après que j'utilise BeautifulSoup4 de faire un pos-traitement où je dois changer les valeurs des attributs et obtenir des balises spéciales.
Si vous ne savez pas quelles sont les pages produits que vous souhaitez, un bon outil sera scrapy, puisque vous pouvez l'utiliser leurs robots pour exécuter tous les amazon/ebay site web à la recherche pour les produits sans explicites pour la boucle.
Prendre un coup d'oeil à la scrapy de la documentation, il est très simple à utiliser.
La façon dont je le fais, c'est d'utiliser le eBay/Amazon API plutôt que de scrapy, puis d'analyser les résultats à l'aide BeautifulSoup.
L'Api vous donne un moyen officiel d'obtenir les mêmes données que vous auriez eu de scrapy robot, pas besoin de vous soucier de cacher votre identité, déconner avec les procurations,etc.
Les deux utilisent pour analyser les données.
Scrapy:
utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de leurs pages.
chargement dynamicaly, nous pouvons venir en aide paquets comme splash,
le sélénium, etc.
BeautifulSoup:
Belle Soupe est une bibliothèque Python pour l'extraction de données de HTML et
Des fichiers XML.
on peut se servir de ce logiciel pour récupérer des données à partir de java script ou
le chargement dynamique de pages.
Scrapy avec BeautifulSoup est l'un des meilleurs combo avec qui nous pouvons travailler pour gratter statique et dynamique des contenus
À l'aide de scrapy vous pouvez enregistrer des tonnes de code et de commencer avec la programmation structurée, Si vous n'aimez pas l'un de l'scapy pré-méthodes écrites puis BeautifulSoup peut être utilisé à la place de scrapy méthode.
Grand projet prend à la fois des avantages.
Les différences sont nombreuses et le choix d'un outil/de la technologie dépend des besoins individuels.
Quelques différences principales sont:
BeautifulSoup est uniquement utilisée pour analyser le code HTML et d'en extraire des données,
Scrapy est utilisé pour télécharger le HTML, les processus, les données et les enregistrer.
Pour comparaison Détaillée voir cette