Comment trouver tous les le texte à l'intérieur <p> éléments dans une page HTML à l'aide de BeautifulSoup
J'ai besoin de trouver toutes les balises à l'intérieur de l'alinéa éléments dans un fichier HTML à l'aide de BeautifulSoup en Python.
Par exemple,
<p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p>
doit retourner à:
Many hundreds of cultivars exist.
P. S. Certains fichiers contiennent des caractères Unicode (Hindi) qui doivent être extraites.
Toutes les idées de comment faire cela?
- Découvrez stackoverflow.com/questions/517923/... pour la suppression de l'unicode dans Python.
Vous devez vous connecter pour publier un commentaire.
Voici comment vous pouvez le faire avec BeautifulSoup. Cela permettra d'éliminer toutes les étiquettes non en VALID_TAGS mais de garder le contenu de l'supprimé les balises.
Référence
ici est un référence