BeautifulSoup: il suffit de pénétrer à l'intérieur d'une balise, n'importe comment beaucoup d'enfermer les tags il y a

Je suis en train de gratter tous les intérieurs html à partir de la  éléments dans une page web à l'aide de BeautifulSoup. Il y a des balises internes, mais je n'aime pas, je veux juste que l'intérieur du texte.

Par exemple, pour:

<p>Red</p>
<p><i>Blue</i></p>
<p>Yellow</p>
<p>Light <b>green</b></p>

Comment puis-je extraire:

Red
Blue
Yellow
Light green

Ni .string ni .contents[0] fait ce dont j'ai besoin. Ni ne .extract(), parce que je ne veux pas avoir à spécifier les balises internes à l'avance - je veux parler avec n'importe qui peut se produire.

Est-il "juste obtenir le visible HTML" type de méthode de BeautifulSoup?

----Mise à JOUR------

Sur des conseils, essayer:

soup = BeautifulSoup(open("test.html"))
p_tags = soup.findAll('p',text=True)
for i, p_tag in enumerate(p_tags): 
    print str(i) + p_tag

Mais ça n'aide pas - il imprime:

0Red
1

2Blue
3

4Yellow
5

6Light 
7green
8

InformationsquelleAutor AP257 | 2010-06-02

beautifulsoup python

67

Réponse courte: soup.findAll(text=True)

Cela a déjà été répondu, ici sur StackOverflow et dans le BeautifulSoup documentation.

Mise à JOUR:

À préciser, un morceau de code:
```
>>> txt = """\
Red
Blue
Yellow
Light green
"""
>>> import BeautifulSoup
>>> BeautifulSoup.__version__
'3.0.7a'
>>> soup = BeautifulSoup.BeautifulSoup(txt)
>>> for node in soup.findAll('p'):
 print ''.join(node.findAll(text=True))

Red
Blue
Yellow
Light green
```
- Merci! J'avais regardé les deux personnes, mais n'a pas pu extraire les bits importants de la StackOverflow question - et je trouve que le BeautifulSoup la documentation n'est vraiment utile que si vous savez déjà ce que vous faites. Ou peut-être que j'ai juste besoin de plus de café.
- En fait, il ne fonctionne pas (voir mise à jour).
- print ".join(soupe.findAll(texte=True))
- J'ai ajouté un code de travail exemple pour illustrer l'utilisation de .findAll(text=True) pour obtenir ce que vous voulez.
- Vous pouvez utiliser node.findAll(text=True)[0] trop
- Considérez ceci: '<a href="http://abc.xyz.com/">Business</a>' que les données pour BeautifulSoup(). Il ne fonctionne plus.
- Que l'extrait de code HTML ne contient pas un  marque, de sorte que le code de la réponse n'a aucune chance de fonctionner. Votre commentaire doit avoir été publié en tant que question distincte, bien que.
- Jamais l'esprit. J'ai trouvé une regex pour généraliser ce.
- href="http://stackoverflow.com/a/1732454/40076">d'habitude Vous ne devriez pas utiliser des expressions régulières pour analyser HTML.
InformationsquelleAutor taleinat

Accepté la réponse est grand, mais il est de 6 ans maintenant, voici donc le courant Belle Soupe 4 version de cette réponse:

>>> txt = """\
<p>Red</p>
<p><i>Blue</i></p>
<p>Yellow</p>
<p>Light <b>green</b></p>
"""
>>> from bs4 import BeautifulSoup, __version__
>>> __version__
'4.5.1'
>>> soup = BeautifulSoup(txt, "html.parser")
>>> print("".join(soup.strings))

Red
Blue
Yellow
Light green

InformationsquelleAutor Jaymon

Normalement les données de rebut, à partir du site web contient des balises.Pour éviter que les étiquettes et les afficher uniquement le contenu du texte, vous pouvez utiliser le texte de l'attribut.

Par exemple,

    from BeautifulSoup import BeautifulSoup

    import urllib2 
    url = urllib2.urlopen("https://www.python.org")

    content = url.read()

    soup = BeautifulSoup(content)

    title = soup.findAll("title")

    paragraphs = soup.findAll("p")

    print paragraphs[1] //Second paragraph with tags

    print paragraphs[1].text //Second paragraph without tags

Dans cet exemple, je collectionne tous les paragraphes de python site et l'afficher avec des balises et sans balises.

InformationsquelleAutor Codemaker

0

D'abord de convertir le html d'une chaîne à l'aide de str. Ensuite, utilisez le code suivant avec votre programme:
```
import re
x = str(soup.find_all('p'))
content = str(re.sub("<.*?>", "", x))
```
Ce qui est appelé un regex. Celui-ci va supprimer tout ce qui vient entre les deux balises html (y compris les balises).

InformationsquelleAutor toyotasupra

Vous devez vous connecter pour publier un commentaire.