Comment obtenir le source html d'un élément spécifique du sélénium?

La page que je suis à la recherche d'contient :

<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>

Je veux obtenir tout le texte dans le div, sauf pour le texte qui est dans le <h>.
(Je veux recevoir un "texte 1","texte 3" et "texte 4")
Il peut y avoir un peu de <h> éléments, ou rien du tout.
Et il peut y avoir quelques <p> éléments, même à l'intérieur de l'autre, ou aucun.

J'ai pensé à faire cela en faisant le source html de la div, et à l'aide d'une regex pour supprimer le <h> éléments. Mais le sélénium.get_text ne retourne pas le html, juste le texte (tout ça!).

Je sais que je peux utiliser selenium.get_html_source puis recherchez l'élément que j'ai besoin avec une regex, mais qui ressemble à des déchets depuis le sélénium sait comment trouver l'élément.

Quelqu'un aurait-il une meilleure solution?
Merci 🙂

OriginalL'auteur Rivka | 2009-11-29

python selenium

9

Le code suivant va vous donner le code HTML de l'élément div:
```
sel = selenium('localhost', 4444, browser, my_url)
html = sel.get_eval("this.browserbot.getCurrentWindow().document.getElementById('1').innerHTML")
```
ensuite, vous pouvez utiliser BeautifulSoup de l'analyser et d'en extraire ce que vous voulez vraiment.

J'espère que cela aide

Merci! Il a résolu le problème 🙂
alors pourquoi ne pas accepter la réponse? 🙂
désolé, je suis nouveau dans ce site... Vous avez voulu dire en cliquant sur le v, à droite ?
Pas de problème. Merci. Je passe quelques fois il y a quelques semaines sur un problème similaire et je suis heureux de savoir qu'elle fixe aussi le tien.
et bienvenue sur stackoverflow 🙂

OriginalL'auteur luc
4

Utilisation de xpath. De selenium.py:
Sans explicite localisateur de préfixe, le Sélénium utilise les stratégies par défaut:
- \**dom**\ , pour les locators commençant par "document".
- \**xpath**\ , pour les locators commençant par "//"
- \**identifiant**\ , sinon
Dans votre cas, vous pourriez essayer de
```
selenium.get_text("//div[@id='1']/descendant::*[not(self::h1)]")
```
Vous pouvez en apprendre plus sur xpath ici.

P. S. je ne sais pas si il y a une bonne documentation HTML disponibles pour python-sélénium, mais je n'ai pas trouvé d'; d'autre part, les docstrings de la selenium.py fichier semblent constituer une documentation complète. Donc, je suggère à la recherche de la source pour obtenir une meilleure compréhension de la façon dont il fonctionne.

OriginalL'auteur int3
1

Que sur l'utilisation de jQuery?

Edit:

Vous devez d'abord ajouter l' .JS fichiers, pour qui aller à l'www.jQuery.com.

Alors tout ce que vous devez faire est d'appeler un simple sélecteur jQuery:
```
alert($("div#1").html());
```
Je ne sais pas jQuery. Peut yo me donner un exemple? Merci!

OriginalL'auteur hminaya

La réponse choisie ne fonctionne pas dans Python 3 au moment de la rédaction. Au lieu d'utiliser ceci:

from selenium import webdriver

wd = webdriver.Firefox()
wd.get(url)
return wd.execute_script('return window.document.getElementById('1').innerHTML')

OriginalL'auteur Michael SM

Vous devez vous connecter pour publier un commentaire.