Comment puis-je extraire uniquement du texte dans le sélecteur d'éraflure en python

J'ai ce code

   site = hxs.select("//h1[@class='state']")
   log.msg(str(site[0].extract()),level=log.ERROR)

La sortie est

 [scrapy] ERROR: <h1 class="state"><strong>
            1</strong>
            <span> job containing <strong>php</strong> in <strong>region</strong> paying  <strong>$30-40k per year</strong></span>
                </h1>

Est-il possible d'obtenir uniquement le texte, sans les balises html

source d'informationauteur user825904

python scrapy

41
```
//h1[@class='state']
```
dans votre xpath vous sélectionnez h1 balise qui a class attribut state

c'est pourquoi c'est la sélection de tout ce qui vient en h1 element

si vous voulez juste de sélectionner le texte de h1 tag tout ce que vous avez à faire est de
```
//h1[@class='state']/text()
```
si vous souhaitez sélectionner un texte de h1 étiquette ainsi que ses enfants balises, vous devez utiliser
```
//h1[@class='state']//text()
```
donc, la différence est /text() pour la balise de texte et //text() pour le texte de la balise spécifique ainsi que ses enfants balises

mentionnés ci-dessous le code qui fonctionne pour vous
```
site = ''.join(hxs.select("//h1[@class='state']/text()").extract()).strip()
```

Vous pouvez utiliser BeautifulSoup get_text() fonctionnalité.

from bs4 import BeautifulSoup

text = '''
<td><a href="http://www.fakewebsite.com">Please can you strip me?</a>
<br/><a href="http://www.fakewebsite.com">I am waiting....</a>
</td>
'''
soup = BeautifulSoup(text)

print(soup.get_text())

1

Je n'ai pas la scrapy instance en cours d'exécution, donc je ne pouvais pas tester cela; mais vous pourriez essayer d'utiliser text() au sein de votre expression de recherche.

Par exemple:
```
site = hxs.select("//h1[@class='state']/text()")
```
(obtenu à partir de la tutoriel)
1

Vous pouvez utiliser BeautifulSoup à la bande de balises html, voici un exemple:
```
from BeautifulSoup import BeautifulSoup
''.join(BeautifulSoup(str(site[0].extract())).findAll(text=True))
```
Vous pouvez alors bande de toutes les autres espaces, de nouvelles lignes, etc.

si vous ne voulez pas utiliser de modules supplémentaires, vous pouvez essayer de simple regex:
```
# replace html tags with ' '
text = re.sub(r'<[^>]*?>', ' ', str(site[0].extract()))
```

Vous pouvez utiliser html2text

import html2text
converter = html2text.HTML2Text()
print converter.handle("<div>Please!!!<span>remove me</span></div>")

Vous devez vous connecter pour publier un commentaire.