Est-il possible que Scrapy pour obtenir le texte brut à partir du html brut, données directement au lieu d'utiliser xPath sélecteurs?

Par exemple:

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

ensuite,j'ai obtenu premières suivantes du code html:

<div id="content">
<h2>Welcome to Scrapy</h2>
<h3>What is Scrapy?</h3>
<p>Scrapy is a fast high-level screen scraping and web crawling
framework, used to crawl websites and extract structured data from their
pages. It can be used for a wide range of purposes, from data mining to
monitoring and automated testing.</p>
<h3>Features</h3>
<dl>
<dt>Simple</dt><dt>
</dt><dd>Scrapy was designed with simplicity in mind, by providing the features
you need without getting in your way</dd>
<dt>Productive</dt>
<dd>Just write the rules to extract the data from web pages and let Scrapy
crawl the entire web site for you</dd>
<dt>Fast</dt>
<dd>Scrapy is used in production crawlers to completely scrape more than
500 retailer sites daily, all in one server</dd>
<dt>Extensible</dt>
<dd>Scrapy was designed with extensibility in mind and so it provides
several mechanisms to plug new code without having to touch the framework
core
</dd><dt>Portable, open-source, 100% Python</dt>
<dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>
<dt>Batteries included</dt>
<dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
section</a> of the documentation for a list of them.</dd>
<dt>Well-documented &amp; well-tested</dt>
<dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
with <a href="http://static.scrapy.org/coverage-report/">very good code
coverage</a></dd>
<dt><a href="/community">Healthy community</a></dt>
<dd>
1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
</dd>
<dt><a href="/support">Commercial support</a></dt>
<dd>A few companies provide Scrapy consulting and support</dd>
<p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
glance</a>.
</p><h3>Companies using Scrapy</h3>
<p>Scrapy is being used in large production environments, to crawl
thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>
<h3>Where to start?</h3>
<p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.
</p></dl></div>

---------->Mais je veux obtenir le texte brut comme suit directement à partir de scrapy:-----

Bienvenue à Scrapy

Qu'est-ce que Scrapy?

Scrapy est un moyen rapide de haut niveau de capture d'écran et de l'analyse web
cadre, utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de
leurs pages. Il peut être utilisé pour un large éventail d'objectifs, à partir des données
l'exploitation minière de la surveillance et des tests automatisés.

Caractéristiques

Simple

Scrapy a été conçu avec la simplicité
dans l'esprit, en lui fournissant les fonctionnalités dont vous avez besoin sans dans votre

Productifs

il suffit d'écrire les règles pour extraire les données à partir de
pages web et de laisser Scrapy analyse de l'ensemble d'un site web pour vous

Rapide

Scrapy est utilisé dans la production de robots complètement
gratter plus de 500 détaillants sites de quotidiens, le tout dans un serveur

Extensible

Scrapy a été conçu avec l'extensibilité à l'esprit
et donc, il dispose de plusieurs mécanismes pour brancher le nouveau code sans avoir
pour toucher le noyau du framework

Portable, open-source, 100% Python

Scrapy est
entièrement écrit en Python et fonctionne sur Linux, Windows, Mac et
BSD

Piles incluses

Scrapy est livré avec de nombreuses
fonctionnalité intégrée. Cochez cette
la section de la documentation pour une liste d'entre eux.

Bien documenté & bien-testé

Scrapy est largement documenté et a un test complet
suite avec très
bonne couverture de code

communauté en Santé

de 1 500
les observateurs de, 350 fourches sur Github (lien)
700 fidèles sur
Twitter (lien)
850
questions sur StackOverflow (lien)
200
messages par mois sur les listes de diffusion (lien)
De 40 à 50 utilisateurs connectés en permanence à un canal IRC (lien)

soutien Commercial

Un peu d'entreprises
fournir Scrapy de conseil et de soutien

Toujours pas sûr si Scrapy est ce que vous cherchez?. Découvrez Scrapy à un
coup d'œil.

Entreprises à l'aide de Scrapy

Scrapy est utilisé dans de grands environnements de production, d'analyse
des milliers de sites de quotidiens. Voici une liste des Entreprises à l'aide de Scrapy.

Par où commencer?

Commencer par la lecture de Scrapy à un
coup d'œil, puis télécharger Scrapy et suivez
le Tutoriel.

Je ne veux pas utiliser tout xPath sélecteurs pour extraire ces p, h2, h3 etc,tags,depuis que je suis de l'analyse d'un site web dont le contenu est intégré dans une table, tbody, récursivement. Il peut être une tâche fastidieuse pour trouver ces xPath. Cela peut-il être mis en œuvre par une fonction intégrée dans Scrapy? Ou ai-je besoin d'outils externes pour le convertir? J'ai lu attentivement tous de Scrapy de docs, mais n'ont rien gagné. Ceci est un exemple de site qui peut convertir les raw html en texte brut: http://beaker.mailchimp.com/html-to-text

Oui..en glissement annuel peut le faire..
À l'aide intégrée dans la classe ou d'une fonction?

OriginalL'auteur inix | 2013-07-18

20

Scrapy n'ont pas cette fonctionnalité intégrée. html2text est ce que vous cherchez.

Voici un exemple d'araignée qui érafle wikipédia en python page, obtient un premier paragraphe à l'aide de xpath et convertit html en texte brut à l'aide html2text:
```
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
import html2text
class WikiSpider(BaseSpider):
name = "wiki_spider"
allowed_domains = ["www.wikipedia.org"]
start_urls = ["http://en.wikipedia.org/wiki/Python_(programming_language)"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sample = hxs.select("//div[@id='mw-content-text']/p[1]").extract()[0]
converter = html2text.HTML2Text()
converter.ignore_links = True
print(converter.handle(sample)) #Python 3 print syntax
```
imprime:

**Python** est largement utilisé à des fins générales, de programmation de haut niveau de la langue.[11][12][13] Sa philosophie de conception met l'accent sur le code
la lisibilité et sa syntaxe permet aux programmeurs d'exprimer des concepts dans
moins de lignes de code que ce ne serait possible dans des langues telles que
C.[14][15] La langue fournit les constructions destinées à permettre clair
des programmes à la fois sur la petite et à grande échelle.[16]

OriginalL'auteur alecxe

Une autre solution à l'aide de lxml.html's tostring() avec le paramètre method="text". lxml est utilisé dans Scrapy en interne. (paramètre encoding=unicode est généralement ce que vous voulez.)

Voir http://lxml.de/api/lxml.html-module.html pour plus de détails.

from scrapy.spider import BaseSpider
import lxml.etree
import lxml.html
class WikiSpider(BaseSpider):
name = "wiki_spider"
allowed_domains = ["www.wikipedia.org"]
start_urls = ["http://en.wikipedia.org/wiki/Python_(programming_language)"]
def parse(self, response):
root = lxml.html.fromstring(response.body)
# optionally remove tags that are not usually rendered in browsers
# javascript, HTML/HEAD, comments, add the tag names you dont want at the end
lxml.etree.strip_elements(root, lxml.etree.Comment, "script", "head")
# complete text
print lxml.html.tostring(root, method="text", encoding=unicode)
# or same as in alecxe's example spider,
# pinpoint a part of the document using XPath
#for p in root.xpath("//div[@id='mw-content-text']/p[1]"):
#   print lxml.html.tostring(p, method="text")

J'ai lu attentivement la lxml docs,il est vraiment un outil puissant,merci beaucoup.
Vous êtes les bienvenus. En effet, lxml-t-il tous et n'est pas si difficile à apprendre.
Je vous remercie, monsieur, cela m'aide beaucoup.

OriginalL'auteur paul trmbrth

3

En ce moment, je ne pense pas que vous avez besoin d'installer un 3ème partie de la bibliothèque. scrapy offre cette fonctionnalité à l'aide de sélecteurs:

Supposons que ce sélecteur complexe:
```
sel = Selector(text='<a href="#">Click here to go to the <strong>Next Page</strong></a>')
```
nous pouvons obtenir l'ensemble du texte à l'aide de:
```
text_content = sel.xpath("//a[1]//text()").extract()
# which results [u'Click here to go to the ', u'Next Page']
```
ensuite, vous pouvez les joindre facilement:
```
   ' '.join(text_content)
# Click here to go to the Next Page
```
OriginalL'auteur Reyraa

Vous devez vous connecter pour publier un commentaire.