web grattage contenu dynamique avec python
Je voudrais utiliser Python pour gratter le contenu de la "avez-vous Été à la recherche de ces auteurs:" la boîte sur les pages web comme celui-ci: http://academic.research.microsoft.com/Search?query=lander
Malheureusement, le contenu de la boîte d'obtenir chargés dynamiquement en JavaScript. Généralement dans cette situation, je peux lire le Javascript pour comprendre ce qui se passe, ou je peux utiliser une extension de navigateur comme Firebug pour trouver où est le contenu dynamique est à venir à partir de. Pas de chance en ce moment...le Javascript est assez alambiqué et Firebug ne donne pas beaucoup d'indices sur la façon d'obtenir le contenu.
Sont là toutes les astuces qui vous rendra la tâche facile?
Vous devez vous connecter pour publier un commentaire.
Au lieu d'essayer de le désosser, vous pouvez utiliser ghost.py pour interagir directement avec JavaScript sur la page.
Si vous exécutez la requête suivante dans une console chromée, vous verrez qu'il retourne tout ce que vous voulez.
Retourne
Vous pouvez exécuter le code JavaScript via python dans la vie réelle DOM à l'aide de ghost.py.
C'est vraiment cool:
Une question très semblable a été posée tout à l'heure ici.
Cité est le sélénium, à l'origine d'un environnement de test pour les web-apps.
J'ai l'habitude d'utiliser google Chrome, le Mode Développeur, qui à mon humble avis déjà donne encore plus de détails que Firefox.
Pour gratter du contenu dynamique, vous n'avez pas besoin d'un simple grattoir, mais un acteur à part entière navigateur sans.
dhamaniasad/HeadlessBrowsers: Une liste de (presque) tous les headless navigateurs web dans l'existence est la pleine liste de ce que j'ai vu; il énumère les langues chacun a des bindings pour.
(À noter que plus de quelques-uns de la liste des projets sont abandonnés!)