comment soumettre une requête .page aspx en python

J'ai besoin de gratter les résultats de la requête à partir d'une .page web aspx.

http://legistar.council.nyc.gov/Legislation.aspx

L'url est statique, alors comment puis-je soumettre une requête à cette page et obtenir les résultats? Supposons que nous avons besoin de sélectionner "tous les ans" et "tous les types" à partir de la liste déroulante des menus.

Quelqu'un il faut savoir comment le faire.

InformationsquelleAutor twneale | 2009-09-26

28

Comme un aperçu, vous aurez besoin d'effectuer des quatre tâches principales:
- de soumettre la demande(s) pour le site web,
- pour récupérer les réponse(s) à partir du site
- pour analyser ces réponses
- d'avoir un peu de logique pour itérer dans les tâches ci-dessus, avec les paramètres associés à la navigation (pour les "à côté" des pages dans la liste de résultats)
La demande et la réponse http de la manipulation se fait avec des méthodes et des classes à partir de Python standard library urllib et urllib2. L'analyse des pages html qui peut être fait avec Python standard library HTMLParser ou avec d'autres modules tels que Belle Soupe

L'extrait de code suivant montre le demander et recevoir d'une recherche sur le site indiqué dans la question. Ce site est ASP-piloté et comme un résultat, nous devons nous assurer que nous envoyons plusieurs champs de formulaire, certains d'entre eux avec 'horrible' valeurs que ceux-ci sont utilisés par la logique ASP maintenir l'état et à authentifier la demande, dans une certaine mesure. En effet, la soumission. Les demandes doivent être adressées avec la méthode http POST que c'est ce qui est attendu de cette application ASP. La principale difficulté est d'identifier le champ de formulaire et de valeurs associées à laquelle ASP attend (arriver pages avec Python est la partie facile).

Ce code est fonctionnel, ou plus précisément, était fonctionnelle, jusqu'à ce que j'ai enlevé la plupart des VSTATE valeur, et peut-être introduit une faute de frappe ou deux en ajoutant des commentaires.
```
import urllib
import urllib2
uri = 'http://legistar.council.nyc.gov/Legislation.aspx'
#the http headers are useful to simulate a particular browser (some sites deny
#access to non-browsers (bots, etc.)
#also needed to pass the content type. 
headers = {
'HTTP_USER_AGENT': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.13) Gecko/2009073022 Firefox/3.0.13',
'HTTP_ACCEPT': 'text/html,application/xhtml+xml,application/xml; q=0.9,*/*; q=0.8',
'Content-Type': 'application/x-www-form-urlencoded'
}
# we group the form fields and their values in a list (any
# iterable, actually) of name-value tuples.  This helps
# with clarity and also makes it easy to later encoding of them.
formFields = (
# the viewstate is actualy 800+ characters in length! I truncated it
# for this sample code.  It can be lifted from the first page
# obtained from the site.  It may be ok to hardcode this value, or
# it may have to be refreshed each time /each day, by essentially
# running an extra page request and parse, for this specific value.
(r'__VSTATE', r'7TzretNIlrZiKb7EOB3AQE ... ...2qd6g5xD8CGXm5EftXtNPt+H8B'),
# following are more of these ASP form fields
(r'__VIEWSTATE', r''),
(r'__EVENTVALIDATION', r'/wEWDwL+raDpAgKnpt8nAs3q+pQOAs3q/pQOAs3qgpUOAs3qhpUOAoPE36ANAve684YCAoOs79EIAoOs89EIAoOs99EIAoOs39EIAoOs49EIAoOs09EIAoSs99EI6IQ74SEV9n4XbtWm1rEbB6Ic3/M='),
(r'ctl00_RadScriptManager1_HiddenField', ''), 
(r'ctl00_tabTop_ClientState', ''), 
(r'ctl00_ContentPlaceHolder1_menuMain_ClientState', ''),
(r'ctl00_ContentPlaceHolder1_gridMain_ClientState', ''),
#but then we come to fields of interest: the search
#criteria the collections to search from etc.
# Check boxes  
(r'ctl00$ContentPlaceHolder1$chkOptions$0', 'on'),  # file number
(r'ctl00$ContentPlaceHolder1$chkOptions$1', 'on'),  # Legislative text
(r'ctl00$ContentPlaceHolder1$chkOptions$2', 'on'),  # attachement
# etc. (not all listed)
(r'ctl00$ContentPlaceHolder1$txtSearch', 'york'),   # Search text
(r'ctl00$ContentPlaceHolder1$lstYears', 'All Years'),  # Years to include
(r'ctl00$ContentPlaceHolder1$lstTypeBasic', 'All Types'),  #types to include
(r'ctl00$ContentPlaceHolder1$btnSearch', 'Search Legislation')  # Search button itself
)
# these have to be encoded    
encodedFields = urllib.urlencode(formFields)
req = urllib2.Request(uri, encodedFields, headers)
f= urllib2.urlopen(req)     #that's the actual call to the http site.
# *** here would normally be the in-memory parsing of f 
#     contents, but instead I store this to file
#     this is useful during design, allowing to have a
#     sample of what is to be parsed in a text editor, for analysis.
try:
fout = open('tmp.htm', 'w')
except:
print('Could not open output file\n')
fout.writelines(f.readlines())
fout.close()
```
Que pour l'obtention de la première page. Comme dit ci-dessus, puis on aurait besoin pour analyser la page, c'est à dire trouver les pièces de l'intérêt et de les rassembler de manière appropriée, et de les stocker de fichier/base de données/où. Ce travail peut être fait dans de très nombreuses façons: en utilisant les analyseurs html, ou XSLT type de technogies (en effet, après l'analyse de l'html, xml), ou même pour brut d'emplois, la simple expression régulière. Aussi, un des éléments typiquement extraits c'est le "à côté de l'info", c'est à dire un lien de toutes sortes, qui peut être utilisé dans une nouvelle requête au serveur pour obtenir les pages suivantes.

Cela devrait vous donner une vague idée de ce que "longue main" html grattage est d'environ. Il existe de nombreuses autres approches, telles que l'dédié utilties, les scripts dans Mozilla (FireFox) GreaseMonkey plug-in, XSLT...
- Si je suis en utilisant Google Chrome, alors comment dois-je remplacer la valeur de 'HTTP_USER_AGENT'? Je suis désolé si cette question est stupide, puisque je n'ai pas beaucoup de contenus du web. Merci!
- un moyen facile de savoir ce que HTTP_USER_AGENT chaîne à utiliser pour un navigateur donné est de visiter all-nettools.com/toolbox/environmental-variables-test.php cette page va vous montrer les valeurs d'en-tête envoyé par le navigateur, rechercher "HTTP_USER_AGENT". La chaîne réelle dépend de l'OS et la version et version de Chrome, mais regarder quelques " comme Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36
- merci beaucoup pour votre réponse. J'ai essayé votre code avec le bon ensemble de valeurs de mon navigateur google chrome. Le résultat tmp.htm fichier dit "aucun résultat trouvé", alors que quand je mets "york" sur le site lui-même, il renvoie beaucoup. Savez-vous pourquoi?
- J'ai une question similaire, à ceci. mais je suis encore incapable de suivre les concepts.mon fils est ici stackoverflow.com/questions/32638741/.... si vous pourriez m'aider. Je vais l'apprécie beaucoup cet homme a été m'énerve pour un certain temps maintenant
- Quelqu'un pourrait-il expliquer comment le faire à l'aide de Python demandes module? Je crois que cela serait beaucoup plus facile...
- a travaillé comme un charme pour moi. Je n'ai pas l'état d'affichage et d'autres choses dans mon site. en dehors de cela pour la vérification des valeurs d'en-tête après le premier remplissage de données en temps & mise en valeur, inspecter l'élément, aller à des réseaux, cliquez sur le premier lien de la page, et aller à des en-têtes. vous obtiendrez toutes les valeurs d'en-tête. Je me suis même forme de données de clés.
- l'état d'affichage de champ ne cesse de changer pour chaque requête. Comment voulez-vous savoir le viewstate?
InformationsquelleAutor mjv
5

Le sélénium est un excellent outil à utiliser pour ce genre de tâche. Vous pouvez spécifier les valeurs d'un formulaire que vous souhaitez entrer et récupérer le code html de la page de réponse comme une chaîne de caractères dans un couple de lignes de code python.
À l'aide de Sélénium vous pourriez ne pas avoir à faire le travail manuel de la simulation d'un poste valide la demande et de l'ensemble de ses variables cachées, comme je l'ai découvert après beaucoup d'essais et d'erreur.
- Pourriez-vous donner quelques extrait de code?
- J'ai réussi à connecter , en vous connectant et en cliquant sur des liens à l'aide de sélénium je suis bloqué à la partie où vous souhaitez extraire des données à partir d'une page. Depuis l'URI reste la même, même après avoir cliqué, cela pose un problème .
InformationsquelleAutor user773328
4

Plus ASP.NET sites (celui que vous avez référencé compris) il fait publier leurs requêtes vers eux-mêmes à l'aide de HTTP POST verbe, et non pas le verbe GET. C'est pourquoi l'URL ne change pas comme vous l'avez noté.

Ce que vous devez faire est de regarder le code HTML généré et de capturer toutes leurs valeurs d'un formulaire. Assurez-vous de saisir toutes les valeurs d'un formulaire, comme certains d'entre eux sont utilisés pour la validation de la page et sans eux, votre POST demande sera refusée.

Autres que la validation, une page ASPX en ce qui concerne le décapage et le détachement n'est pas différent que les autres technologies web.

InformationsquelleAutor Jason Whitehorn

Le code dans les autres réponses a été utile; je n'aurais jamais été capable d'écrire mon robot sans.

Un problème que j'ai rencontré a été de cookies. Le site, j'étais en train de ramper été en utilisant des cookies pour enregistrer l'id de session/trucs de sécurité, j'ai donc dû ajouter du code pour obtenir mon robot au travail:

Ajouter cette importation:

    import cookielib

Init le cookie trucs:

    COOKIEFILE = 'cookies.lwp'          # the path and filename that you want to use to save your cookies in
cj = cookielib.LWPCookieJar()       # This is a subclass of FileCookieJar that has useful load and save methods

Installer CookieJar de sorte qu'il est utilisé comme valeur par défaut CookieProcessor dans le défaut de l'ouvreur gestionnaire:

    cj.load(COOKIEFILE)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)

Voir ce que les cookies le site utilise:

    print 'These are the cookies we have received so far :'
for index, cookie in enumerate(cj):
print index, '  :  ', cookie

Ce enregistre les cookies:

    cj.save(COOKIEFILE)                     # save the cookies

InformationsquelleAutor bill smith

0

"Supposons que nous avons besoin de sélectionner "tous les ans" et "tous les types" à partir de la liste déroulante des menus."

Que faire de ces options à l'URL qui vous est soumis.

Après tout, il s'élève à une requête HTTP envoyée par urllib2.

Ne sais comment faire ""tous les ans" et "tous les types" à partir de la liste déroulante des menus vous de faire les suivants.
1. Sélectionnez " "tous les ans" et "tous les types" à partir de la liste déroulante des menus
2. Notez l'URL qui est en fait soumis.
3. Utiliser cette URL dans urllib2.
- Apparemment, la page est une forme nécessitant la POSTE, mais l'idée est la même: prendre note du nom de champ, et de la valeur associée à "Tous les ans" et witn "tous les types" et l'utilisation urlib2.Demande pour obtenir les données.
- Je suis l'aide de Charles web debugging proxy pour regarder tout le trafic http, quand je surfe sur ce site et de soumettre des requêtes, et l'url est complètement statique. Il ne contient pas de paramètres à tous. Il y a la forme de données de passe en quelque sorte--ajax, je pense-mais je ne sais pas comment les présenter que les données du formulaire au serveur. Il semble tout à fait inintelligible pour moi. Le fait que je ne peux pas soumettre une requête en modifiant l'url est ce qui est déroutant pour moi.
- Une fois que vous obtenez les résultats du formulaire de cette page, si vous souhaitez scarpe cela, vous pouvez utiliser le module python HTMLParser ou Beautifulsoup pour analyser le code html de la page. Aussi grattage impliquera probablement plus urlib2 appels pour naviguer vers les pages de résultats.
InformationsquelleAutor S.Lott

Vous devez vous connecter pour publier un commentaire.