L'analyse non-standard XML (balise CDATA)

Quand je veux l'analyse du document XML en Python à l'aide de BeautifulSoup de la bibliothèque,
J'ai été confronté à quelques problèmes. Le document XML que je veux analyser:

<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>

Comme vous pouvez le voir ci-dessus, la balise est un peu étrange. À mon avis, que( tag) n'est pas un formulaire XML, droit? Comment puis-je analyser cette forme terrible?

InformationsquelleAutor user513004 | 2011-10-16

Vous n'avez pas besoin BeautifulStoneSoup ou lxml. Python est inclus batteries de faire le travail très bien, et il ne semble pas être quelque chose de non conforme à propos de votre XML.

>>> content='''\
... <item>
... <title><![CDATA[Title Sample]]></title>
... <link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
... <time_start>2011-10-10 09:00:00</time_start>
... <time_end>2011-10-17 09:00:00</time_end>
... <price_original>35000</price_original>
... <price_now>20000</price_now>
... </item>'''
>>> import xml.etree.cElementTree as et
>>> foo = et.XML(content)
>>> for e in foo:
...     print e.tag, e.text, repr(e.tail)
...
title Title Sample '\n'
link None 'http://banhada.kr/?cateCode=09&viewCode=S0941580\n'
time_start 2011-10-10 09:00:00 '\n'
time_end 2011-10-17 09:00:00 '\n'
price_original 35000 '\n'
price_now 20000 '\n'
>>>

cela a fonctionné pour moi sur XML qui BeautifulSoup ne pouvais pas gérer!

InformationsquelleAutor John Machin

Vous pouvez utiliser BeautifulSoup d'analyse XML:

import bs4 as bs
content='''\
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''    

soup = bs.BeautifulSoup(content, 'xml')

title = soup.title
print(title.string)
# Title Sample

link = soup.link.nextSibling
print(link)
# http://banhada.kr/?cateCode=09&viewCode=S0941580

Sous le capot, BeautifulSoup utilise lxml pour l'analyse de XML.
Bien qu'il n'est pas nécessaire ici, vous pouvez utiliser lxml directement, car il vous donne plus succincte des moyens de naviguer dans les données XML à l'aide de XPath:

import lxml.etree as ET

content='''\
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''    

doc = ET.fromstring(content)

title = doc.find('title')
print(title.text)
# Title Sample

link = doc.find('link')
print(link.tail)
# http://banhada.kr/?cateCode=09&viewCode=S0941580

Wow. Je vous remercie pour votre kandness
UserWarning: Le BeautifulStoneSoup classe est obsolète. Au lieu de l'utiliser, passer features="xml" dans le BeautifulSoup constructeur.
Mise à jour de ma réponse à l'utilisation BeautifulSoup4.

InformationsquelleAutor unutbu

Vous devez vous connecter pour publier un commentaire.