La conversion html vers texte avec Python

Je suis en train de convertir un bloc html en texte à l'aide de Python.

D'entrée:

<div class="body"><p><strong></strong></p>
<p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>

De sortie souhaité:

Lorem
ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo
ligula eget dolor. Aenean massa

Consectetuer adipiscing elit.
Certains
Lien Aenean commodo ligula eget dolor. Aenean massa

Aenean
massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean
commodo ligula eget dolor. Aenean massa

Lorem ipsum dolor sit
amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor.
Aenean massa

Consectetuer adipiscing elit. Aenean commodo
ligula eget dolor. Aenean massa

J'ai essayé d'utiliser html2text module sans beaucoup de succès (je suis tout à fait nouveau pour python :))

voici ce que j'ai essayé:

#!/usr/bin/env python

import urllib2
import html2text
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read())

txt = soup.find('div', {'class' : 'body'})

print html2text.html2text(txt)

le "txt" objet produit le bloc html ci-dessus. Je voudrais le convertir en texte et l'imprimer sur l'écran.

Toute aide avec le morceau de code serait très apprécié.

Avez-vous de l'utilisation de Python? lynx -dump filename.html va le faire. lynx.browser.org en outre, vous pouvez utiliser une expression XPath et w3.org/Tools/HTML-XML-utils.

InformationsquelleAutor Aaron Bandelli | 2013-02-04

Ce qui me manque? soup.get_text() donne exactement le même résultat que tu voulais...

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.get_text()

sortie

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa
Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

PS! Pour être exact, vous pouvez remplacer le saut de ligne avec un double -- et puis il est identique à votre exemple 🙂

soup.get_text().replace('\n','\n\n')

la soupe.get_text() est exactement ce dont j'avais besoin. Merci!!!!
BeautifulSoup 4 seulement, malheureusement.

InformationsquelleAutor root

Vous pouvez utiliser une expression régulière... mais pas recommandé...

Le code suivant supprime toutes les balises HTML dans vos données, vous donnant le texte.

import re

data = """<div class="body"><p><strong></strong></p>
<p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>"""

data = re.sub(r'<.*?>', '', data)

print data

Sortie

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa
Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

stackoverflow.com/questions/1732348/... 😉
Lol... ici l'OP ne veut pas faire n'importe quoi avec HTML en tant que tel, il veut juste le HTML arraché au total.
Encore, stackoverflow.com/a/1732454/517371 est très pertinent. Il y a plus de choses de mal avec /<.*?>/ que je pourrais énumérer ici, à 600 caractères.

InformationsquelleAutor ATOzTOA

2

La '\n' lieux un saut de ligne entre les paragraphes.
```
from bs4 import Beautifulsoup

soup = Beautifulsoup(text)
print(soup.get_text('\n'))
```
- En place également des retours à la ligne au milieu des phrases si vous avez par exemple "<p>That's <strong>not</strong> what I want</p>"
- Je vois encore des éléments XML dans la sortie (bien que ceux qui ne sont pas strictes des éléments HTML, comme [if gte mso 9]><xml><o:OfficeDocumentSettings><o:AllowPNG></o:AllowPNG>... . Comment puis-je filtre aussi?
- Je tiens également à convertir tous les caractères HTML, comme   ou ©
InformationsquelleAutor t-8ch

J'avais besoin d'un moyen de le faire sur un système du client, sans avoir à télécharger d'autres bibliothèques. Je n'ai jamais trouvé une bonne solution, j'ai donc créé mon propre. N'hésitez pas à utiliser cette option si vous le souhaitez.

import urllib 
def html2text(strText):
str1 = strText
int2 = str1.lower().find("<body")
if int2>0:
str1 = str1[int2:]
int2 = str1.lower().find("</body>")
if int2>0:
str1 = str1[:int2]
list1 = ['<br>',  '<tr',  '<td', '</p>', 'span>', 'li>', '</h', 'div>' ]
list2 = [chr(13), chr(13), chr(9), chr(13), chr(13),  chr(13), chr(13), chr(13)]
bolFlag1 = True
bolFlag2 = True
strReturn = ""
for int1 in range(len(str1)):
str2 = str1[int1]
for int2 in range(len(list1)):
if str1[int1:int1+len(list1[int2])].lower() == list1[int2]:
strReturn = strReturn + list2[int2]
if str1[int1:int1+7].lower() == '<script' or str1[int1:int1+9].lower() == '<noscript':
bolFlag1 = False
if str1[int1:int1+6].lower() == '<style':
bolFlag1 = False
if str1[int1:int1+7].lower() == '</style':
bolFlag1 = True
if str1[int1:int1+9].lower() == '</script>' or str1[int1:int1+11].lower() == '</noscript>':
bolFlag1 = True
if str2 == '<':
bolFlag2 = False
if bolFlag1 and bolFlag2 and (ord(str2) != 10) :
strReturn = strReturn + str2
if str2 == '>':
bolFlag2 = True
if bolFlag1 and bolFlag2:
strReturn = strReturn.replace(chr(32)+chr(13), chr(13))
strReturn = strReturn.replace(chr(9)+chr(13), chr(13))
strReturn = strReturn.replace(chr(13)+chr(32), chr(13))
strReturn = strReturn.replace(chr(13)+chr(9), chr(13))
strReturn = strReturn.replace(chr(13)+chr(13), chr(13))
strReturn = strReturn.replace(chr(13), '\n')
return strReturn
url = "http://www.theguardian.com/world/2014/sep/25/us-air-strikes-islamic-state-oil-isis"    
html = urllib.urlopen(url).read()    
print html2text(html)

C'était vraiment utile, merci.
La raison pour downvote est la mauvaise indentation. Le code a donc une complexité moyenne. C'est un peu difficile à résoudre.

InformationsquelleAutor Joseph Roten

0

Il est possible d'utiliser BeautifulSoup pour éliminer les scripts et semblables, même si vous pouvez avoir besoin d'expérimenter avec quelques sites différents pour s'assurer que vous avez couvert les différents types de choses que vous souhaitez exclure. Essayez ceci:
```
from requests import get
from bs4 import BeautifulSoup as BS
response = get('http://news.bbc.co.uk/2/hi/health/2284783.stm')
soup = BS(response.content, "html.parser")
for child in soup.body.children:
if child.name == 'script':
child.decompose() 
print(soup.body.get_text())
```
InformationsquelleAutor Sarah Messer

Il est possible à l'aide de python standard html.parser:

from html.parser import HTMLParser
class HTMLFilter(HTMLParser):
text = ""
def handle_data(self, data):
self.text += data
f = HTMLFilter()
f.feed(data)
print(f.text)

InformationsquelleAutor FrBrGeorge

Vous devez vous connecter pour publier un commentaire.