Comment puis-je analyser HTML avec html5lib, et d'interroger le HTML analysée avec XPath?

Je suis en train d'utiliser html5lib de parser une page html à quelque chose que je peux requête xpath. html5lib est proche de zéro, la documentation et j'ai passé trop de temps à essayer de comprendre ce problème. But ultime est de sortir la deuxième ligne du tableau:

<html>
    <table>
        <tr><td>Header</td></tr>
        <tr><td>Want This</td></tr>
    </table>
</html>

donc permet de l'essayer:

>>> doc = html5lib.parse('<html><table><tr><td>Header</td></tr><tr><td>Want This</td> </tr></table></html>', treebuilder='lxml')
>>> doc
<lxml.etree._ElementTree object at 0x1a1c290>

qui ressemble bien, permet de voir ce que nous avons:

>>> root = doc.getroot()
>>> print(lxml.etree.tostring(root))
<html:html xmlns:html="http://www.w3.org/1999/xhtml"><html:head/><html:body><html:table><html:tbody><html:tr><html:td>Header</html:td></html:tr><html:tr><html:td>Want This</html:td></html:tr></html:tbody></html:table></html:body></html:html>

LOL WUT?

au sérieux. J'ai été la planification sur l'utilisation de certains xpath pour obtenir les données que je veux, mais cela ne semble pas fonctionner. Que puis-je faire? Je suis prêt à essayer différentes bibliothèques et des approches.

OriginalL'auteur Dan.StackOverflow | 2010-04-01