lxml.programme etree, élément.le texte ne retourne pas l'intégralité du texte de l'élément

J'ai mis au rebut html via xpath, que j'ai ensuite converti en un programme etree. Quelque chose de semblable à ceci:

<td> text1 <a> link </a> text2 </td>

mais quand je l'appelle élément.texte, je ne reçois texte1 (Il doit être là, quand je vérifie ma requête dans FireBug, le texte des éléments est mis en évidence, à la fois le texte avant et après l'embedded d'ancrage des éléments...

C'est une façon de le faire (extrait de code de mon peu de python gratter processeur). Me demande si c'est un lxml bug?
Voici l'extrait de code:
si l'élément.tag == "td": enfants = element.getchildren() if len(enfants) > 0: topic = (element.texte + enfants[0].la queue) else: topic = élément.texte print("\tTopic:\t\t%s" % sujet)

OriginalL'auteur user522034 | 2011-01-22

15

Utilisation element.xpath("string()") ou lxml.etree.tostring(element, method="text") - voir la documentation.

toString(élément, method="texte") fonctionne presque, mais il renvoie également le texte de l'embedded élément ancre, que je ne veux pas.
de l'élément.texte + enfant.queue fonctionne, mais je souhaite élément.texte travaillé la façon dont je le veux 🙂
de l'élément.xpath("chaîne de caractères()") renvoie le même résultat que *.tostring(). J'ai essayé de xpath("text()") qui ne renvoie pas le texte de l'élément d'ancrage, mais il renvoie une liste de 2 cordes. Merci de remarquer certaines choses.

OriginalL'auteur

Comme un service public à des personnes qui peuvent être aussi paresseux que je suis. Voici un code à partir de ci-dessus que vous pouvez exécuter.

from lxml import etree

def get_text1(node):
    result = node.text or ""
    for child in node:
        if child.tail is not None:
            result += child.tail
    return result

def get_text2(node):
    return ((node.text or '') +
            ''.join(map(get_text2, node)) +
            (node.tail or ''))

def get_text3(node):
    return (node.text or "") + "".join(
        [etree.tostring(child) for child in node.iterchildren()])


root = etree.fromstring(u"<td> text1 <a> link </a> text2 </td>")

print root.xpath("text()")
print get_text1(root)
print get_text2(root)
print root.xpath("string()")
print etree.tostring(root, method = "text")
print etree.tostring(root, method = "xml")
print get_text3(root)

De sortie est:

snowy:rpg$ python test.py 
[' text1 ', ' text2 ']
 text1  text2 
 text1  link  text2 
 text1  link  text2 
 text1  link  text2 
<td> text1 <a> link </a> text2 </td>
 text1 <a> link </a> text2

OriginalL'auteur

5

ressemble à un lxml bug pour moi, mais selon la conception si vous lisez la documentation. Je l'ai résolu comme ceci:
```
def node_text(node):
    if node.text:
        result = node.text
    else:
        result = ''
    for child in node:
        if child.tail is not None:
            result += child.tail
    return result
```
Ce n'est pas un bug, en fait, c'est la fonctionnalité qui vous permet d'interposer texte entre les sous-éléments d'un élément XML: stackoverflow.com/q/38520331/694360
Merci pour cette remarque. Je suppose que c'est utile, mais à mon humble avis, il serait beaucoup plus clair si .text serait juste de retour de l'intégralité du texte et de quelques autres bien nommé le bien ne contenir que la partie jusqu'à la première sous-élément. Que diriez -node.head. Cela donne aussi une idée de ce que ce que vous voulez suivant est child.tail sans avoir à stackoverflow premier.

OriginalL'auteur
3

Une autre chose qui semble bien fonctionner pour obtenir le texte d'un élément est "".join(element.itertext())

OriginalL'auteur

def get_text_recursive(node):
    return (node.text or '') + ''.join(map(get_text_recursive, node)) + (node.tail or '')

OriginalL'auteur

1
```
<td> text1 <a> link </a> text2 </td>
```
Voici comment il est (en ignorant les espaces):
```
td.text == 'text1'
a.text == 'link'
a.tail == 'text2'
```
Si vous ne voulez pas un texte qui est à l'intérieur des éléments d'enfant, alors vous pourriez recueillir que leurs queues:
```
text = td.text + ''.join([el.tail for el in td])
```
OriginalL'auteur
0

Si le element est égal à <td>. Vous pouvez effectuer les opérations suivantes.
```
element.xpath('.//text()')
```
Il vous donnera une liste de tous les éléments de texte à partir de self (la signification de la dot). // signifie qu'il va prendre tous les éléments et enfin text() est la fonction d'extraire le texte.

OriginalL'auteur
0
```
element.xpath('normalize-space()') also works.
```
Seulement coller du code n'est pas assez. Vous devez également expliquer pourquoi cela fonctionne 🙂

OriginalL'auteur

Vous devez vous connecter pour publier un commentaire.