Grattage javascript généré des données à l'aide de Python

Je veux gratter quelques données de l'url suivante à l'aide de Python.
http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340

Il s'agit d'un résumé des informations de la société.

Ce que je veux gratter n'est pas indiqué sur la première page.
En cliquant sur l'onglet nommé "재무제표", vous pouvez accéder à des états financiers. Et en cliquant sur l'onglet nommé "현금흐름표', vous pouvez accéder à la rubrique "Flux de Trésorerie".

Je veux gratter la rubrique "Flux de Trésorerie" de données.

Cependant, les flux de Trésorerie de données est généré par javascript à travers l'url.
Le lien suivant est cette url qui est caché, http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=

De trésorerie flux de données est généré par la soumission de certaines valeur de l'option et de témoin à cette url.

Comme vous l'avez perçu, itemcode=078340 dans le premier lien signifie stock code et il y a 1680 stocks que je veux rassembler des flux de trésorerie de données. Je veux en faire une structure de boucle.

Est-il un bon moyen de gratter des flux de trésorerie de données?
J'ai essayé de scrapy mais scrapy est difficile de faire face avec mon autre grattage code déjà je suis en utilisant.

Les données sont tirées par ajax à partir du serveur ou est stocké dans le code html d'une certaine manière (comme dans JS variable ou data-)?
Les conditions de service vous permettent de le faire?
Tadeck, les données sont extraites à partir du serveur.
c'est un site de journal. Et les données sont ouvertes à tous gratuitement, même si vous n'avez pas à vous connecter à utiliser
les conditions de service permettent à ... Quoi??? Qui donne un saut vol.

OriginalL'auteur trigger | 2012-04-07

9

Il y a aussi dryscape (une bibliothèque écrite par moi, et donc que la recommandation est un peu biaisé, évidemment :)) qui utilise une rapide basé sur Webkit dans la mémoire du navigateur pour naviguer autour. Il comprend Javascript, trop, mais il est beaucoup plus léger que le Sélénium.

Merci beaucoup. Je vais essayer

OriginalL'auteur Niklas B.
1

Si vous avez besoin de scape, le contenu de la page qui est mise à jour avec l'AJAX et vous n'êtes pas dans le contrôle de cette interface AJAX je voudrais utiliser le Sélénium navigateur automator pour la tâche:

http://code.google.com/p/selenium/
- Le sélénium a des bindings Python
- Il lance une véritable instance du navigateur, donc il peut faire et gratter 100% la même chose que vous voyez de vos propres yeux
- Obtenir un document HTML contenu après AJAX mises à jour thru Sélénium API
- Utilisation lxml + xpath /CSS sélecteurs d'analyser les parties pertinentes du document
Merci beaucoup. Je vais essayer de le sélénium.
puis-je remplacer jquery avec cette lxml +xpath partie à la fin (et suivez le reste des étapes)?
Le sélénium est livré avec son propre sélecteur CSS moteur (qui utilise probablement sous-jacents navigateur), de sorte que vous n'avez pas besoin ni de jQuery ni lxml plus

OriginalL'auteur Mikko Ohtamaa

Vous devez vous connecter pour publier un commentaire.