Le meilleur moyen de convertir le HTML en texte en clair à l'aide de Python
Je travaille sur un projet qui implique la conversion d'une grande quantité de contenu HTML brut/texte. J'ai écrit un module qui fait le travail OK, mais je me demandais si il y a certains outils standard pour aider à faire le travail.
celui-ci fonctionne très bien Le site n'est plus accessible depuis Aaron, l'auteur n'est plus. mais le code peut être trouvé sur github.com/aaronsw/html2text
Pour en sauver d'autres quelques temps à tourner en rond à partir de Google en arrière DONC, ici, est un Q&décrire cette Belle Soupe n'est pas vraiment plus maintenu: WebScraping avec BeautifulSoup ou LXML.HTML. Belle Soupe semble maintenue maintenant, je pense.
Html2Text semble être une bonne option
Le site n'est plus accessible depuis Aaron, l'auteur n'est plus.
mais le code peut être trouvé sur github.com/aaronsw/html2text
OriginalL'auteur Chris Ballance
Voici une bibliothèque python qui n'analyse HTML:
BeautifulSoup est une autre option.
Belle Soupe semble maintenue maintenant, je pense.
OriginalL'auteur tcarobruce