La suppression de toutes les balises HTML ainsi que leur contenu à partir du texte
Je me demande comment je peux supprimer toutes les balises HTML ainsi que leur contenu, à l'aide de BeautifulSoup
.
D'entrée:
... text <strong>ha</strong> ... text
De sortie:
... text ... text
Mais si vous supprimez toutes les balises HTML à partir d'un document HTML, vous êtes juste à la fin avec une chaîne vide. Pensez-vous que vous souhaitez supprimer certains tags? Ou toutes les balises à l'intérieur de certains de haut niveau de la balise?
Plus pythoning réponse peut-être ceci: stackoverflow.com/questions/5598524/...
Plus pythoning réponse peut-être ceci: stackoverflow.com/questions/5598524/...
OriginalL'auteur Adam Silver | 2013-08-26
Vous devez vous connecter pour publier un commentaire.
Utilisation
replace_with()
(oureplaceWith()
):imprime:
Ou, comme @mata suggéré, vous pouvez utiliser
tag.decompose()
au lieu detag.replaceWith('')
- produira le même résultat, mais semble plus approprié.decompose
serait peut-être le choix plus approprié.d'accord, merci beaucoup!
Vous devriez probablement écrire que comme une réponse distincte.
La balise peut ne pas être nécessairement <strong>
Aussi je ne comprends pas, comment vais-je attraper le résultat? la balise.remplaceavec(") n'est pas l'attribution quoi que ce soit.
OriginalL'auteur alecxe
C'est pour XML, si vous le souhaitez pour HTML, modifier l'importation de
BeautifulStoneSoup
àBeautifulSoup
OriginalL'auteur dilbert