Est-il possible que Scrapy pour obtenir le texte brut à partir du html brut, données directement au lieu d'utiliser xPath sélecteurs?

Par exemple:

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

ensuite,j'ai obtenu premières suivantes du code html:

<div id="content">
<h2>Welcome to Scrapy</h2>
<h3>What is Scrapy?</h3>
<p>Scrapy is a fast high-level screen scraping and web crawling
framework, used to crawl websites and extract structured data from their
pages. It can be used for a wide range of purposes, from data mining to
monitoring and automated testing.</p>
<h3>Features</h3>
<dl>
<dt>Simple</dt><dt>
</dt><dd>Scrapy was designed with simplicity in mind, by providing the features
you need without getting in your way</dd>
<dt>Productive</dt>
<dd>Just write the rules to extract the data from web pages and let Scrapy
crawl the entire web site for you</dd>
<dt>Fast</dt>
<dd>Scrapy is used in production crawlers to completely scrape more than
500 retailer sites daily, all in one server</dd>
<dt>Extensible</dt>
<dd>Scrapy was designed with extensibility in mind and so it provides
several mechanisms to plug new code without having to touch the framework
core
</dd><dt>Portable, open-source, 100% Python</dt>
<dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>
<dt>Batteries included</dt>
<dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
section</a> of the documentation for a list of them.</dd>
<dt>Well-documented &amp; well-tested</dt>
<dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
with <a href="http://static.scrapy.org/coverage-report/">very good code
coverage</a></dd>
<dt><a href="/community">Healthy community</a></dt>
<dd>
1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
</dd>
<dt><a href="/support">Commercial support</a></dt>
<dd>A few companies provide Scrapy consulting and support</dd>
<p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
glance</a>.
</p><h3>Companies using Scrapy</h3>
<p>Scrapy is being used in large production environments, to crawl
thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>
<h3>Where to start?</h3>
<p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.
</p></dl></div>

---------->Mais je veux obtenir le texte brut comme suit directement à partir de scrapy:-----

Bienvenue à Scrapy

Qu'est-ce que Scrapy?

Scrapy est un moyen rapide de haut niveau de capture d'écran et de l'analyse web
cadre, utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de
leurs pages. Il peut être utilisé pour un large éventail d'objectifs, à partir des données
l'exploitation minière de la surveillance et des tests automatisés.

Caractéristiques

Simple
Scrapy a été conçu avec la simplicité
dans l'esprit, en lui fournissant les fonctionnalités dont vous avez besoin sans dans votre
Productifs
il suffit d'écrire les règles pour extraire les données à partir de
pages web et de laisser Scrapy analyse de l'ensemble d'un site web pour vous
Rapide
Scrapy est utilisé dans la production de robots complètement
gratter plus de 500 détaillants sites de quotidiens, le tout dans un serveur
Extensible
Scrapy a été conçu avec l'extensibilité à l'esprit
et donc, il dispose de plusieurs mécanismes pour brancher le nouveau code sans avoir
pour toucher le noyau du framework
Portable, open-source, 100% Python
Scrapy est
entièrement écrit en Python et fonctionne sur Linux, Windows, Mac et
BSD
Piles incluses
Scrapy est livré avec de nombreuses
fonctionnalité intégrée. Cochez cette
la section de la documentation pour une liste d'entre eux.
Bien documenté & bien-testé
Scrapy est largement documenté et a un test complet
suite avec très
bonne couverture de code
communauté en Santé
de 1 500
les observateurs de, 350 fourches sur Github (lien)
700 fidèles sur
Twitter (lien)
850
questions sur StackOverflow (lien)
200
messages par mois sur les listes de diffusion (lien)
De 40 à 50 utilisateurs connectés en permanence à un canal IRC (lien)
soutien Commercial
Un peu d'entreprises
fournir Scrapy de conseil et de soutien

Toujours pas sûr si Scrapy est ce que vous cherchez?. Découvrez Scrapy à un
coup d'œil.

Entreprises à l'aide de Scrapy

Scrapy est utilisé dans de grands environnements de production, d'analyse
des milliers de sites de quotidiens. Voici une liste des Entreprises à l'aide de Scrapy.

Par où commencer?

Commencer par la lecture de Scrapy à un
coup d'œil, puis télécharger Scrapy et suivez
le Tutoriel.

Je ne veux pas utiliser tout xPath sélecteurs pour extraire ces p, h2, h3 etc,tags,depuis que je suis de l'analyse d'un site web dont le contenu est intégré dans une table, tbody, récursivement. Il peut être une tâche fastidieuse pour trouver ces xPath. Cela peut-il être mis en œuvre par une fonction intégrée dans Scrapy? Ou ai-je besoin d'outils externes pour le convertir? J'ai lu attentivement tous de Scrapy de docs, mais n'ont rien gagné. Ceci est un exemple de site qui peut convertir les raw html en texte brut: http://beaker.mailchimp.com/html-to-text

Oui..en glissement annuel peut le faire..
À l'aide intégrée dans la classe ou d'une fonction?

OriginalL'auteur inix | 2013-07-18