Grattage javascript généré des données à l'aide de Python
Je veux gratter quelques données de l'url suivante à l'aide de Python.
http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340
Il s'agit d'un résumé des informations de la société.
Ce que je veux gratter n'est pas indiqué sur la première page.
En cliquant sur l'onglet nommé "재무제표", vous pouvez accéder à des états financiers. Et en cliquant sur l'onglet nommé "현금흐름표', vous pouvez accéder à la rubrique "Flux de Trésorerie".
Je veux gratter la rubrique "Flux de Trésorerie" de données.
Cependant, les flux de Trésorerie de données est généré par javascript à travers l'url.
Le lien suivant est cette url qui est caché, http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=
De trésorerie flux de données est généré par la soumission de certaines valeur de l'option et de témoin à cette url.
Comme vous l'avez perçu, itemcode=078340 dans le premier lien signifie stock code et il y a 1680 stocks que je veux rassembler des flux de trésorerie de données. Je veux en faire une structure de boucle.
Est-il un bon moyen de gratter des flux de trésorerie de données?
J'ai essayé de scrapy mais scrapy est difficile de faire face avec mon autre grattage code déjà je suis en utilisant.
data-
)?Les conditions de service vous permettent de le faire?
Tadeck, les données sont extraites à partir du serveur.
c'est un site de journal. Et les données sont ouvertes à tous gratuitement, même si vous n'avez pas à vous connecter à utiliser
les conditions de service permettent à ... Quoi??? Qui donne un saut vol.
OriginalL'auteur trigger | 2012-04-07
Vous devez vous connecter pour publier un commentaire.
Il y a aussi dryscape (une bibliothèque écrite par moi, et donc que la recommandation est un peu biaisé, évidemment :)) qui utilise une rapide basé sur Webkit dans la mémoire du navigateur pour naviguer autour. Il comprend Javascript, trop, mais il est beaucoup plus léger que le Sélénium.
OriginalL'auteur Niklas B.
Si vous avez besoin de scape, le contenu de la page qui est mise à jour avec l'AJAX et vous n'êtes pas dans le contrôle de cette interface AJAX je voudrais utiliser le Sélénium navigateur automator pour la tâche:
http://code.google.com/p/selenium/
Le sélénium a des bindings Python
Il lance une véritable instance du navigateur, donc il peut faire et gratter 100% la même chose que vous voyez de vos propres yeux
Obtenir un document HTML contenu après AJAX mises à jour thru Sélénium API
Utilisation lxml + xpath /CSS sélecteurs d'analyser les parties pertinentes du document
puis-je remplacer jquery avec cette lxml +xpath partie à la fin (et suivez le reste des étapes)?
Le sélénium est livré avec son propre sélecteur CSS moteur (qui utilise probablement sous-jacents navigateur), de sorte que vous n'avez pas besoin ni de jQuery ni lxml plus
OriginalL'auteur Mikko Ohtamaa