Python: Extraire des informations à partir de xml à dictionnaire

J'ai besoin d'extraire des informations à partir d'un fichier xml, de l'isoler de balises xml avant et après, de stocker les informations dans un dictionnaire, puis la boucle à travers le dictionnaire pour imprimer une liste. Je suis un débutant absolu, donc j'aimerais le garder aussi simple que possible et je m'excuse si la façon dont j'ai décrit ce que j'aimerais faire, ne pas faire beaucoup de sens.

voici ce que j'ai jusqu'à présent.

for line in open("/people.xml"):
if "name" in line:
    print (line)
if "age" in line:
    print(line)

Courant De Sortie:

     <name>John</name>

  <age>14</age>

    <name>Kevin</name>

  <age>10</age>

    <name>Billy</name>

  <age>12</age>

De Sortie Désiré

Name          Age
John          14
Kevin         10
Billy         12

edit - Donc, en utilisant le code ci-dessous je peux obtenir de la sortie:

{'Billy': '12', 'John': '14', 'Kevin': '10'}

Personne ne sait comment les obtenir à partir de ce à un tableau avec les en-têtes comme ma sortie désirée?

Vous devriez être en utilisant xml.dom. Ça va rendre votre vie beaucoup plus facile.
J'ai besoin d'être à l'aide de python, je suis plus particulièrement à l'aide d'INACTIVITÉ sur un mac.

InformationsquelleAutor user1975140 | 2013-01-14

essayer xmldict (Convertir xml en python dictionnaires, et vice-versa.):

>>> xmldict.xml_to_dict('''
... <root>
...   <persons>
...     <person>
...       <name first="foo" last="bar" />
...     </person>
...     <person>
...       <name first="baz" last="bar" />
...     </person>
...   </persons>
... </root>
... ''')
{'root': {'persons': {'person': [{'name': {'last': 'bar', 'first': 'foo'}}, {'name': {'last': 'bar', 'first': 'baz'}}]}}}


# Converting dictionary to xml 
>>> xmldict.dict_to_xml({'root': {'persons': {'person': [{'name': {'last': 'bar', 'first': 'foo'}}, {'name': {'last': 'bar', 'first': 'baz'}}]}}})
'<root><persons><person><name><last>bar</last><first>foo</first></name></person><person><name><last>bar</last><first>baz</first></name></person></persons></root>'

ou essayer xmlmapper (liste de python dictionnaire avec la relation parent-enfant):

  >>> myxml='''<?xml version='1.0' encoding='us-ascii'?>
<slideshow title="Sample Slide Show" date="2012-12-31" author="Yours Truly" >
<slide type="all">
<title>Overview</title>
<item>Why
<em>WonderWidgets</em>
are great
</item>
<item/>
<item>Who
<em>buys</em>
WonderWidgets1
</item>
</slide>
</slideshow>'''
>>> x=xml_to_dict(myxml)
>>> for s in x:
print s
>>>
{'text': '', 'tail': None, 'tag': 'slideshow', 'xmlinfo': {'ownid': 1, 'parentid': 0}, 'xmlattb': {'date': '2012-12-31', 'author': 'Yours Truly', 'title': 'Sample Slide Show'}}
{'text': '', 'tail': '', 'tag': 'slide', 'xmlinfo': {'ownid': 2, 'parentid': 1}, 'xmlattb': {'type': 'all'}}
{'text': 'Overview', 'tail': '', 'tag': 'title', 'xmlinfo': {'ownid': 3, 'parentid': 2}, 'xmlattb': {}}
{'text': 'Why', 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 4, 'parentid': 2}, 'xmlattb': {}}
{'text': 'WonderWidgets', 'tail': 'are great', 'tag': 'em', 'xmlinfo': {'ownid': 5, 'parentid': 4}, 'xmlattb': {}}
{'text': None, 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 6, 'parentid': 2}, 'xmlattb': {}}
{'text': 'Who', 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 7, 'parentid': 2}, 'xmlattb': {}}
{'text': 'buys', 'tail': 'WonderWidgets1', 'tag': 'em', 'xmlinfo': {'ownid': 8, 'parentid': 7}, 'xmlattb': {}}

code ci-dessus donnera générateur. Lorsque vous parcourez, vous obtiendrez des informations dans dict clés; comme tag, text, xmlattb,tail et plus d'informations dans xmlinfo. Ici root élément aura parentid informations 0.

le xmldict eu de bug, >>> xml_to_dict("'<i type="all"><t>amour</t></i>"") produit {"i": {"t": "amour"}}. L'attribut type="tous" avait disparu.

InformationsquelleAutor namit

1

Utiliser un Analyseur XML pour cela. Par exemple,
```
import xml.etree.ElementTree as ET
doc = ET.parse('people.xml')
names = [name.text for name in doc.findall('.//name')]
ages = [age.text for age in doc.findall('.//age')]
people = dict(zip(names,ages))
print(people)
# {'Billy': '12', 'John': '14', 'Kevin': '10'}
```
- Cela n'a pas fonctionné, j'ai eu un message d'erreur se terminant avec ParseError: indésirable après l'élément de document: ligne 44, colonne 0
- Veuillez post les 45 premières lignes de votre people.xml fichier.
- Ok il y a une erreur dans la ligne 45 que je fixe, je peux maintenant obtenir la sortie {'Billy': '12', 'Jean': '14', 'Kevin': '10'}, mais j'ai besoin d'elle dans les colonnes comme dans le format en haut, avec les en-têtes. Je pense que mon utilisation de la liste de mots qui peut porter à confusion, mais comment puis-je obtenir ces données en colonnes?
InformationsquelleAutor unutbu
0

Il me semble que c'est un exercice pour apprendre comment analyser ce XML manuellement plutôt que de simplement en tirant une bibliothèque sur le sac pour le faire pour vous. Si je me trompe, je vous suggère de regarder le udacity vidéo par Steve Huffman qui peut être trouvé ici: http://www.udacity.com/view#Course/cs253/CourseRev/apr2012/Unit/362001/Nugget/365002. Il explique comment utiliser le minidom module pour analyser léger fichiers xml comme ces.

Maintenant, le premier point que je veux faire dans ma réponse, c'est que vous ne voulez pas créer un dictionnaire python pour imprimer l'ensemble de ces valeurs. Un dictionnaire python est tout simplement un ensemble de touches qui correspondent à des valeurs. Il n'y a aucun ordre, et ainsi de traversée dans l'ordre où elles apparaissent dans le fichier est une douleur dans le cul. Vous essayez d'imprimer tous les noms avec leurs âges correspondants, donc une structure de données comme une liste de tuples serait probablement mieux adapté pour rassembler vos données.

Il semble que la structure de votre fichier xml, c'est que chaque étiquette de nom est remplacé par un âge de balise qui lui correspond. Il semble également qu'une seule balise de nom par ligne. Cela rend les choses assez simples. Je ne vais pas écrire le plus efficace ou de solution universelle à ce problème, mais au lieu de cela, je vais essayer de faire le code le plus simple à comprendre que je peux.

Donc, nous allons d'abord créer une liste pour stocker les données:

Nous allons ensuite créer une liste pour stocker les données:
a_list = []

Maintenant, ouvrez votre fichier, et initialiser un couple de variables pour stocker chaque nom et âge:
```
from __future__ import with_statement
with open("/people.xml") as f:
name, age = None, None #initialize a name and an age variable to be used during traversals.
for line in f:
name = extract_name(line,name) # This function will be defined later.
age = extract_age(line) # So will this one.
if age: #We know that if age is defined, we can add a person to our list and reset our variables
a_list.append( (name,age) ) # and now we can re-initialize our variables.
name,age = None , None # otherwise simply read the next line until age is defined.
```
Maintenant, pour chaque ligne dans le fichier, nous avons voulu déterminer si elle contient un utilisateur. Si il l'a fait, nous avons voulu extraire le nom. Nous allons créer une fonction utilisée pour ce faire:
```
def extract_name(a_line,name): #we pass in the line as well as the name value that that we defined before beginning our traversal.
if name: # if the name is predefined, we simply want to keep the name at its current value. (we can clear it upon encountering the corresponding age.)
return name
if not "<name>" in a_line: #if no "<name>" in a_line, return. otherwise, extract new name.
return
name_pos = a_line.find("<name>")+6
end_pos = a_line.find("</name>")
return a_line[name_pos:end_pos]
```
Maintenant, nous devons créer une fonction pour analyser la ligne pour l'âge d'un utilisateur. Nous pouvons le faire d'une manière similaire à la fonction précédente, mais nous savons qu'une fois que nous avons un âge, elle sera ajoutée à la liste immédiatement. En tant que tel, nous n'avons jamais besoin de nous préoccuper de l'âge de la valeur précédente. La fonction peut donc ressembler à ceci:
```
def extract_age(a_line):
if not "<age>" in a_line: #if no "<age>" in a_line:
return
age_pos = a_line.find("<age>")+5 # else extract age from line and return it.
end_pos = a_line.find("</age>")
return a_line[age_pos:end_pos]
```
Enfin, vous souhaitez imprimer la liste. Vous pouvez le faire comme suit:
```
for item in a_list:
print '\t'.join(item)
```
Espère que cela a aidé. Je n'ai pas testé mon code, donc il peut encore être légèrement buggé. Les concepts sont là, cependant. 🙂
- tout bon jusqu'à retour à la ligne[name_pos:end_pos], où il est dit "retour" à l'extérieur de la fonction, quand je tiret, je reçois inattendue alinéa", lors de la passation d'un colon à la fin de la ligne précédente que j'ai obtenu syntaxe non valide'. Im peur c'est tout ce que je connais de l'essayer pour cela.
- oups, fait une petite erreur. dans chacune des définitions de fonction, vous aurez envie de remplacer chaque occurrence de "la ligne" de "a_line". Faire les modifications apportées à mon code maintenant. Aussi, assurez-vous d'utiliser systématiquement des quatre espaces ou une tabulation pour indenter votre code. Parfois python compilateurs ne pas les voir comme équivalent.
- aussi, remarqué que j'avais passé deux éléments plutôt qu'un n-uplet dans la jointure de paramètre. Ce bug devrait également être fixé.
- Stupide de recréer des choses qui existent déjà et ont été soigneusement mise au point. Peut-être intéressantes, comme un exercice académique, mais presque toujours la bonne chose à faire dans le monde réel de la faire travailler.
InformationsquelleAutor Master_Yoda

Voici une autre façon en utilisant lxml bibliothèque:

from lxml import objectify
def xml_to_dict(xml_str):
""" Convert xml to dict, using lxml v3.4.2 xml processing library, see http://lxml.de/"""
def xml_to_dict_recursion(xml_object):
dict_object = xml_object.__dict__
if not dict_object:  # if empty dict returned
return xml_object
for key, value in dict_object.items():
dict_object[key] = xml_to_dict_recursion(value)
return dict_object
return xml_to_dict_recursion(objectify.fromstring(xml_str))
xml_string = """<?xml version="1.0" encoding="UTF-8"?><Response><NewOrderResp>
<IndustryType>Test</IndustryType><SomeData><SomeNestedData1>1234</SomeNestedData1>
<SomeNestedData2>3455</SomeNestedData2></SomeData></NewOrderResp></Response>"""
print xml_to_dict(xml_string)

Pour préserver le nœud parent, utilisez ceci à la place:

def xml_to_dict(xml_str):
""" Convert xml to dict, using lxml v3.4.2 xml processing library, see http://lxml.de/"""
def xml_to_dict_recursion(xml_object):
dict_object = xml_object.__dict__
if not dict_object:  # if empty dict returned
return xml_object
for key, value in dict_object.items():
dict_object[key] = xml_to_dict_recursion(value)
return dict_object
xml_obj = objectify.fromstring(xml_str)
return {xml_obj.tag: xml_to_dict_recursion(xml_obj)}

Et si vous voulez seulement de retour d'un sous-arbre et le convertir en dict, vous pouvez utiliser Élément.find() :

xml_obj.find('.//')  # lxml.objectify.ObjectifiedElement instance

Voir lxml documentation.

InformationsquelleAutor radtek

Vous devez vous connecter pour publier un commentaire.