Grattage pages ajax à l'aide de python
J'ai déjà vu cette question à propos de grattage ajax, mais python n'est pas mentionné. J'ai considéré l'utilisation de scrapy, je crois qu'ils ont de la doc sur le sujet, mais comme vous pouvez le voir le site est en panne. Donc je ne sais pas quoi faire. Je veux faire ce qui suit:
Je n'ai qu'une url, example.com vous passez d'une page à l'autre en cliquant sur soumettre, l'url ne change pas, car ils sont à l'aide d'ajax pour afficher le contenu. Je veux gratter le contenu de chaque page, comment faire?
Permet de dire que je veux gratter seulement les chiffres, est-il autre chose que scrapy qui le ferait? Si non, voulez-vous me donner un morceau de code sur la façon de le faire, simplement parce que leur site est down, donc je ne peut pas atteindre les docs.
OriginalL'auteur Lynob | 2013-05-05
Vous devez vous connecter pour publier un commentaire.
Tout d'abord, scrapy docs sont disponibles à https://scrapy.readthedocs.org/en/latest/.
Parler de manipulation ajax web grattage. Fondamentalement, l'idée est plutôt simple:
XHR
demande va le serveurXHR
demande dans votre spiderVoir aussi:
Espère que ça aide.
blog.scrapy.org/scraping-ajax-sites-with-scrapy
qui n'est plus disponible, merci de me rappeler de readthedocs.comL'a obtenu. Si vous avez des problèmes avec l'araignée de mise en œuvre, pensez à publier une autre question que l'url qui êtes-vous essayer de ramper, ce bouton à cliquer, etc. Heureux de grattage!
voici l'URL que vous êtes en parle: web.archive.org/web/20130525095330/http://blog.scrapy.org/...
OriginalL'auteur alecxe
J'ai trouvé la réponse très utile, mais je tiens à le rendre plus simple.
demande.post prend trois paramètres de l'url, les données et les en-têtes. Les valeurs de ces trois attributs peuvent être trouvés dans la demande XHR.
Copie de l'ensemble de l'en-tête de demande et le formulaire de charger des données dans les variables ci-dessus et vous êtes bon pour aller
OriginalL'auteur Malak