Analyse HTML à l'aide de Python

Je suis à la recherche d'un Analyseur HTML module Python qui peut m'aider à obtenir les étiquettes sous forme de listes Python/dictionnaires/objets.

Si j'ai un document de la forme:

<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>

alors qu'il devrait me donner un chemin pour accéder aux balises imbriquées par le nom ou l'id de la balise HTML, de sorte que je pouvais lui demander de m'obtenir le contenu/texte dans le div tag avec class='container' contenues dans le body tag, ou quelque chose de similaire.

Si vous avez utilisé Firefox "Inspecter l'élément" fonction (HTML), vous savez qu'il vous donne toutes les balises dans un joli imbriqués, comme un arbre.

Je préfère un module intégré mais que demandez peut-être même un peu trop.

Je suis passé par beaucoup de questions sur Stack Overflow, et quelques blogs sur internet, et la plupart d'entre eux suggèrent BeautifulSoup ou lxml ou HTMLParser mais quelques-uns de ces détails de la fonctionnalité et simplement la fin du débat sur qui est plus rapide/plus efficace.

comme tous les autres answerers, je vous recommande de BeautifulSoup, car il est vraiment bien cassé les fichiers HTML.
double possible de Parsing HTML en Python

InformationsquelleAutor ffledgling | 2012-07-29

168

De sorte que je pouvais lui demander de m'obtenir le contenu/texte dans la balise div class= "container" contenue dans la balise body, Ou quelque chose de similaire.
```
try: 
    from BeautifulSoup import BeautifulSoup
except ImportError:
    from bs4 import BeautifulSoup
html = #the HTML code you've written above
parsed_html = BeautifulSoup(html)
print parsed_html.body.find('div', attrs={'class':'container'}).text
```
Vous n'avez pas besoin de la performance descriptions, je suppose - il suffit de lire comment BeautifulSoup œuvres. Regardez ses la documentation officielle.
- Quel est exactement le parsed_html objet?
- parsed_html est un BeautifulSoup objet, pense comme un DOMElement ou DOMDocument, sauf qu'il y a "délicat" propriétés", comme le "corps" se réfère à la BeautifulSoup objet (n'oubliez pas, c'est un nœud de l'arborescence essentiellement) de la première (et dans ce cas le seul) de l'élément de corps de l'élément racine (dans notre cas, html)
- Juste une mise à jour: comme de BeautifulSoup 4, la ligne d'importation est maintenant from bs4 import BeautifulSoup
- Info générale: Si la performance est critique, une meilleure utilisation de la lxml de la bibliothèque à la place (voir la réponse ci-dessous). Avec cssselect il est très utile aswell et de la performance est souvent de 10 à 100 fois meilleure que les autres bibliothèques disponibles.
- remarque: class attribut est spécial: BeautifulSoup(html).find('div', 'container').text
- si lxml est installé; BeautifulSoup pouvez l'utiliser pour parser du html.
- Je sais, aussi loin que je me souviens de la BeatifulSoup avant fin, il est lent, mais j'ai peut-être tort. Avez-vous comparer?
- Je ne me rappelle pas avoir eu des problèmes de performances avec elle. YMMV. Vous pouvez essayer de passer parse_only=SoupStrainer(*interesting_parts) et voir si ça aide.
- parsed_html = BeautifulSoup(html) ne fonctionne pas pour moi, parsed_html = BeautifulSoup(html, 'html.parser') n'
InformationsquelleAutor Aadaam
70

Je suppose que ce que vous cherchez est pyquery:

pyquery: un jquery-comme la bibliothèque pour python.

Un exemple de ce que vous voulez peut-être comme:
```
from pyquery import PyQuery    
html = # Your HTML CODE
pq = PyQuery(html)
tag = pq('div#id') # or     tag = pq('div.class')
print tag.text()
```
Et il utilise le même sélecteurs comme Firefox ou google Chrome, inspecter l'élément. Par exemple:

La inspecté sélecteur d'élément est " div#mw-tête.noprint'. Ainsi, dans pyquery, vous avez juste besoin de passer ce sélecteur:
```
pq('div#mw-head.noprint')
```
- Je vous aime 3000 pour cette!
InformationsquelleAutor YusuMishi
37

Ici vous pouvez lire plus sur les différents parseurs HTML en Python et leur performance. Même si l'article date un peu il vous offre une bonne vue d'ensemble.

Python HTML analyseur de performances

Je le recommande BeautifulSoup, même si elle n'est pas intégrée dans. Juste parce que c'est si facile de travailler avec ces types de tâches. Par exemple:
```
import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.google.com/')
soup = BeautifulSoup(page)

x = soup.body.find('div', attrs={'class' : 'container'}).text
```
- Je cherchais quelque chose que les détails caractéristiques/fonctionnalités plutôt que sur la performance/efficacité. EDIT: Désolé pour la pré-maturité réponse, que le lien est réellement bon. Merci.
- Le premier point-la liste des types de résumer les caractéristiques et fonctions 🙂
- Si vous utilisez BeautifulSoup4 (dernière version): from bs4 import BeautifulSoup
InformationsquelleAutor Qiau
24

Par rapport à l'autre analyseur bibliothèques lxml est extrêmement rapide:
- http://blog.dispatched.ch/2010/08/16/beautifulsoup-vs-lxml-performance/
- http://www.ianbicking.org/blog/2008/03/python-html-parser-performance.html
Et avec cssselect c'est assez facile à utiliser pour gratter des pages HTML en trop:
```
from lxml.html import parse
doc = parse('http://www.google.com').getroot()
for div in doc.cssselect('a'):
    print '%s: %s' % (div.text_content(), div.get('href'))
```
lxml.html la Documentation
- HTTPS non pris en charge
- utilisation import requests, d'économiser de la mémoire tampon dans le fichier: stackoverflow.com/a/14114741/1518921 (ou urllib), après le chargement de fichiers enregistrés à l'aide de l'analyse, doc = parse('localfile.html').getroot()
InformationsquelleAutor Lenar Hoyt
7

Je recommande lxml pour l'analyse de code HTML. Voir "Parsing HTML" (sur la lxml site).

Dans mon expérience, Belle Soupe de dégâts sur un peu de code HTML complexe. Je crois que c'est parce que la Belle Soupe n'est pas un analyseur, plutôt une très bonne chaîne de l'analyseur.
- AIUI Belle Soupe peut être faite pour fonctionner avec la plupart des "backend" parseurs XML, lxml semble être celui de la prise en charge des analyseurs de crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser
- Certaines fonctions de BeautifulSoup sont très lent cependant.
InformationsquelleAutor Love and peace - Joe Codeswell

Je recommande d'utiliser justext bibliothèque:

https://github.com/miso-belica/jusText

Utilisation:
Python2:

import requests
import justext

response = requests.get("http://planet.python.org/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print paragraph.text

Python3:

import requests
import justext

response = requests.get("http://bbc.com/")
paragraphs = justext.justext(response.content, justext.get_stoplist("English"))
for paragraph in paragraphs:
    print (paragraph.text)

InformationsquelleAutor Wesam Na

Je voudrais utiliser EHP

https://github.com/iogf/ehp

Ici, il est:

from ehp import *

doc = '''<html>
<head>Heading</head>
<body attr1='val1'>
    <div class='container'>
        <div id='class'>Something here</div>
        <div>Something else</div>
    </div>
</body>
</html>
'''

html = Html()
dom = html.feed(doc)
for ind in dom.find('div', ('class', 'container')):
    print ind.text()

De sortie:

Something here
Something else

Veuillez expliquer. Que feriez-vous utiliser EHP plus populaires BeautifulSoup ou lxml?

InformationsquelleAutor Unknown Soldier

Vous devez vous connecter pour publier un commentaire.