Comment analyser un fichier HTML avec la table à l'aide de Python

J'ai un fichier html avec une table ( c'est un grand un seul, de sorte que seules exemple de code est donné ). Je veux récupérer les valeurs dans les tableaux. J'ai essayé le HTMLParser bibliothèque à partir de python.

J'ai commencé à coder comme ci-dessous. Ensuite, j'ai trouvé que l'attribut "class" est le même que le système défini de mot-clé. Donc sa me donne erreur.

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        if tag == 'tr':
            for class in attrs:
                if class == 'Table_row'

p = MyHTMLParser()
p.feed(ht)

Code HTML pour table

<table class="Table_rows" cellspacing="0" rules="all" border="1" id="MyDataGrid" style="width:700px;border-collapse:collapse;">

                    <tr class="Table_Heading">

                        <td>STATION CODE</td><td>STATION NAME</td><td>SCHEDULED ARRIVAL</td><td>SCHEDULED DEPARTURE</td><td>ACTUAL/ EXPECTED ARRIVAL</td><td>ACTUAL/ EXPECTED DEPARTURE</td>

                    </tr><tr class="Table_row">

                        <td>TVC </td><td style="width:160px;">ORIGON</td><td>Starting Station </td><td>05:00, 07 May 2011</td><td>Starting Station</td><td>05:00, 07 May 2011</td>

                    </tr><tr class="alternat_table_row">

                        <td>TVP </td><td>NEY YORK</td><td>05:04, 07 May 2011</td><td>05:05, 07 May 2011</td><td>05:04, 07 May 2011</td><td>05:05, 07 May 2011</td>

</tr>               
</table>

Mise à JOUR

Comment pourrais-je obtenir des données entre les balises?

J'ai écrit un petit et simple de la table HTML parser ne nécessitant pas de tout module externe: github.com/schmijos/html-table-parser-python3/blob/master/...

InformationsquelleAutor user567879 | 2011-05-07

4

Notez que la documentation de la handle_starttag méthode unis:

La balise argument est le nom de la
tag convertis en minuscules. Le attrs
l'argument est une liste de (nom, valeur)
les paires contenant les attributs trouvés
à l'intérieur de la balise <> les crochets.

Donc, vous êtes probablement à la recherche de quelque chose comme:
```
from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == 'tr':
            for name, value in attrs:
                if name == 'class':
                    print 'Found class', value

p = MyHTMLParser()
p.feed(ht)   
```
Imprime:
```
Found class Table_Heading
Found class Table_row
Found class alternat_table_row
```
P. S. je recommande également BeautifulSoup pour l'analyse de code HTML avec le langage Python.
- Comment imprimer les valeurs comme STATION CODE STATION NAME ORIGON ...?
- vous pouvez trouver td tags et de les traiter
- Désolé pour la question stupide. Ce que je veux, c'est que j'ai besoin de traiter ( ne pourrais pas trouver une méthode pour imprimer la valeur de b/w balises) balise td entre la balise table. Comment gérer que l'imbrication?
- pas sûr de ce que vous demandez exactement... Mais je vous recommande de jeter un oeil à BeautifulSoup - il offre un plus haut niveau de l'API pour le traitement HTML. HTMLParser est assez difficile à utiliser par rapport à elle
- Je veux imprimer les données dans tr le tag class=Table_Heading ou class=Table_row ou class=alternate_table_row seulement. Puis-je utiliser et cluause pour le faire fonctionner?
- avec HTMLParser vous devrez vous enregistrer à l'état - il ne pas le faire pour vous. Quand vous voyez le tr avec le bon class, tourner sur un drapeau. Puis dans handle_data vérifier ce drapeau et alors seulement prendre les données.
InformationsquelleAutor Eli Bendersky

Comment imprimer les valeurs comme la STATION de
CODE NOM DE LA STATION DE ORIGON ...?.

Vous pouvez le faire comme ceci avec BeautifulSoup.

from BeautifulSoup import BeautifulSoup

html = '''\
<td>STATION CODE</td><td>STATION NAME</td><td>SCHEDULED ARRIVAL</td><td>SCHEDULED DEPARTURE</td><td>ACTUAL/EXPECTED ARRIVAL</td><td>ACTUAL/EXPECTED DEPARTURE</td>
</tr><tr class="Table_row">
<td>TVC </td><td style="width:160px;">ORIGON</td><td>Starting Station </td><td>05:00, 07 May 2011</td><td>Starting Station</td><td>05:00, 07 May 2011</td>
'''

soup = BeautifulSoup(html)
tag = soup.findAll('td', limit=2)
tag_O = soup.findAll('td')[7]

for i in range(len(tag)):
    print tag[i].string
print tag_O.string

'''Output-->
STATION CODE
STATION NAME
ORIGON
'''

InformationsquelleAutor snippsat

1

Je vous recommande fortement de l'aide de l'BeautifulSoup de la bibliothèque. Il gère même cassé HTML avec facilité.

http://www.crummy.com/software/BeautifulSoup/

InformationsquelleAutor AgileVortex

Vous devez vous connecter pour publier un commentaire.