L'analyse non-standard XML (balise CDATA)
Quand je veux l'analyse du document XML en Python à l'aide de BeautifulSoup de la bibliothèque,
J'ai été confronté à quelques problèmes. Le document XML que je veux analyser:
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>
Comme vous pouvez le voir ci-dessus, la balise est un peu étrange. À mon avis, que( tag) n'est pas un formulaire XML, droit? Comment puis-je analyser cette forme terrible?
Vous devez vous connecter pour publier un commentaire.
Vous n'avez pas besoin BeautifulStoneSoup ou lxml. Python est inclus batteries de faire le travail très bien, et il ne semble pas être quelque chose de non conforme à propos de votre XML.
Vous pouvez utiliser BeautifulSoup d'analyse XML:
Sous le capot, BeautifulSoup utilise lxml pour l'analyse de XML.
Bien qu'il n'est pas nécessaire ici, vous pouvez utiliser lxml directement, car il vous donne plus succincte des moyens de naviguer dans les données XML à l'aide de XPath: