Comment puis-je récupérer le texte brut à partir d'un site web avec Scrapy?

Je voudrais avoir tout le texte visible à partir d'un site web, d'après le code HTML est affiché. Je travaille en Python avec Scrapy cadre.
Avec xpath('//body//text()') je suis en mesure de l'obtenir, mais avec les balises HTML, et je veux seulement le texte. Toute solution pour cela? Merci !

OriginalL'auteur tomasyany | 2014-04-18

L'option la plus simple serait de extrait //body//text() et join tout trouvé:

''.join(sel.select("//body//text()").extract()).strip()

où sel est un Sélecteur instance.

Une autre option est d'utiliser nltk's clean_html():

>>> import nltk
>>> html = """
... <div class="post-text" itemprop="description">
... 
...         <p>I would like to have all the text visible from a website, after the HTML is rendered. I'm working in Python with Scrapy framework.
... With <code>xpath('//body//text()')</code> I'm able to get it, but with the HTML tags, and I only want the text. Any solution for this? Thanks !</p>
... 
...     </div>"""
>>> nltk.clean_html(html)
"I would like to have all the text visible from a website, after the HTML is rendered. I'm working in Python with Scrapy framework.\nWith xpath('//body//text()') I'm able to get it, but with the HTML tags, and I only want the text. Any solution for this? Thanks !"

Une autre option est d'utiliser BeautifulSoup's get_text():

get_text()

Si vous voulez seulement la partie de texte d'un document ou d'une étiquette, vous
pouvez utiliser le get_text() méthode. Il renvoie tout le texte dans un document
ou en-dessous d'une balise, comme une seule chaîne Unicode.

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> print soup.get_text().strip()
I would like to have all the text visible from a website, after the HTML is rendered. I'm working in Python with Scrapy framework.
With xpath('//body//text()') I'm able to get it, but with the HTML tags, and I only want the text. Any solution for this? Thanks !

Une autre option est d'utiliser lxml.html's text_content():

.text_content()

Retourne le contenu du texte de l'élément, y compris
le contenu du texte de ses enfants, sans majoration.

>>> import lxml.html
>>> tree = lxml.html.fromstring(html)
>>> print tree.text_content().strip()
I would like to have all the text visible from a website, after the HTML is rendered. I'm working in Python with Scrapy framework.
With xpath('//body//text()') I'm able to get it, but with the HTML tags, and I only want the text. Any solution for this? Thanks !

J'ai supprimé ma question.. j'ai utilisé le code ci-dessous html = sel.sélectionnez("//corps//text()") de l'arbre = lxml.html.fromstring(html) de l'élément de['description'] = arbre.text_content().strip (), Mais j'obtiens le is_full_html = _looks_like_full_html_unicode(html) des exceptions.TypeError: chaîne de caractères ou un tampon ..erro. Ce qui s'est passé
nltk qui a le mieux fonctionné pour moi
Tout comme une mise à jour, nltk obsolète leurs clean_html méthode et, au lieu de recommander: NotImplementedError: To remove HTML markup, use BeautifulSoup's get_text() function

OriginalL'auteur

2

Avez-vous essayé?
```
xpath('//body//text()').re('(\w+)')
```
OU
```
 xpath('//body//text()').extract()
```
Cela fonctionne assez bien, mais encore les retours des balises html et des autres.

OriginalL'auteur
0

La xpath('//body//text()') n'est pas toujours au lecteur de louche dans les nœuds de votre dernière utilisation de la balise(dans votre cas le corps.) Si vous tapez xpath('//body/node()/text()').extract() vous verrez les nœuds qui sont en vous html le corps. Vous pouvez essayer de xpath('//body/descendant::text()').

OriginalL'auteur

Vous devez vous connecter pour publier un commentaire.