Scraperwiki + lxml. Comment faire pour obtenir l'attribut href d'un enfant d'un élément à une classe?
Sur le lien qui contient le "alpha" dans l'URL a de nombreux liens(hrefs) que je voudrais recueillir des 20 différentes pages et les coller sur la fin de l'générale url(avant-dernière ligne). Href sont trouvés dans un tableau qui classe est mys-élastique mys-gauche pour les td et l'un est évidemment l'élément qui contient l'attribut href. Toute aide serait grandement apprécié car j'ai travaillé sur ce pendant environ une semaine.
for i in range(1, 11):
# The HTML Scraper for the 20 pages that list all the exhibitors
url = 'http://ahr13.mapyourshow.com/5_0/exhibitor_results.cfm?alpha=%40&type=alpha&page=' + str(i) + '#GotoResults'
print url
list_html = scraperwiki.scrape(url)
root = lxml.html.fromstring(list_html)
href_element = root.cssselect('td.mys-elastic mys-left a')
for element in href_element:
# Convert HTMl to lxml Object
href = href_element.get('href')
print href
page_html = scraperwiki.scrape('http://ahr13.mapyourshow.com' + href)
print page_html
Quel est le problème exactement?
Comment familiariser avec
rds: Le problème est qu'il n'acquiert pas l'attribut href et l'enregistrer comme une variable de l'ajouter à l'url de base. Jon Clements: je ne connaissais pas vraiment jusqu'à ce que je cherché juste maintenant, ce terme est très utile, merci.
Comment familiariser avec
XPath
êtes-vous?rds: Le problème est qu'il n'acquiert pas l'attribut href et l'enregistrer comme une variable de l'ajouter à l'url de base. Jon Clements: je ne connaissais pas vraiment jusqu'à ce que je cherché juste maintenant, ce terme est très utile, merci.
OriginalL'auteur Patrick Artounian | 2013-01-02
Vous devez vous connecter pour publier un commentaire.
Pas besoin de bricolons avec javascript - tout est là dans le code html:
OriginalL'auteur pallih
désolé pour la période initiale de mal, j'étais pressé quand j'ai pris un coup d'oeil. Corrigé ma réponse, il devrait être bon maintenant. Notez que le xpath obtient à la fois régulière et gras des liens à partir de la table.
OriginalL'auteur root