extrait de la classe nom de la balise beautifulsoup python
J'ai le code HTML suivant:
<td class="image">
<a href="/target/tt0111161/" title="Target Text 1">
<img alt="target img" height="74" src="img src url" title="image title" width="54"/>
</a>
</td>
<td class="title">
<span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0111161">
</span>
<a href="/target/tt0111161/">
Other Text
</a>
<span class="year_type">
(2013)
</span>
Je suis en train d'utiliser belle soupe pour analyser certains éléments dans un fichier délimité par des tabulations.
J'ai eu de une grande aide et disposent de:
for td in soup.select('td.title'):
span = td.select('span.wlb_wrapper')
if span:
print span[0].get('data-tconst') # To get `tt0082971`
Maintenant, je veux recevoir un "Texte Cible 1" .
J'ai essayé certaines choses comme le texte ci-dessus tels que:
for td in soup.select('td.image'): #trying to select the <td class="image"> tag
img = td.select('a.title') #from inside td I now try to look inside the a tag that also has the word title
if img:
print img[2].get('title') #if it finds anything, then I want to return the text in class 'title'
Avez-vous fait une tentative à l'extraction de vous-même?
J'ai édité le post ci-dessus
un autre thread ici: stackoverflow.com/questions/41369344/...
J'ai édité le post ci-dessus
un autre thread ici: stackoverflow.com/questions/41369344/...
OriginalL'auteur kegewe | 2014-02-06
Vous devez vous connecter pour publier un commentaire.
Si vous essayez d'obtenir un autre td basé sur la classe (c'est à dire td class="image" et td class="titre" vous pouvez utiliser belle soupe comme un dictionnaire pour obtenir les différentes classes.
Cela permettra de trouver tous les td class="image" dans le tableau.
oui, vous pouvez ajouter un elif déclaration qui ressemble pour la td, avec le titre, coller du code dans un commentaire échoué, de sorte que je vais mettre à jour ma réponse.
Merci, maintenant j'ai juste ajouté
def getinfo:
avant tout ça. Puis-je écrire getinfo CSV?Je n'ai personnellement jamais écrite dans un fichier csv, mais vous devriez être capable d'ouvrir un fichier avant de l'itération et au lieu d'afficher les valeurs, les écrire dans un fichier. Après l'itérateur, enregistrez le fichier.
OriginalL'auteur Jared Messenger
span.wlb_wrapper
est un sélecteur utilisé pour sélectionner<span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0111161">
. Reportez-vous cette & cette pour plus d'informations sur les sélecteurschangement dans votre code python
span = td.select('span.wlb_wrapper')
àspan = td.select('span')
& aussispan = td.select('span.year_type')
et voir de quoi il en retourne.Si vous essayez ci-dessus et d'analyser ce qui
span
vous obtiendrez ce que vous voulez.OriginalL'auteur hemanth