Gratter une page web qui nécessite qu'ils vous donner un cookie de session de la première

Je suis en train de gratter un fichier excel à partir d'un gouvernement "rôle d'équipage" de la base de données. Toutefois, l'URL, j'ai accès à ce fichier excel:

http://nrega.ap.gov.in/Nregs/FrontServlet?requestType=HouseholdInf_engRH&hhid=192420317026010002&actionVal=musterrolls&type=Normal

exige que j'ai un cookie de session à partir du site du gouvernement joint à la demande.

Comment pourrais-je récupérer le cookie de session avec une demande initiale de la page de destination (lorsqu'ils vous donnent le cookie de session) et ensuite l'utiliser pour frapper l'URL ci-dessus pour saisir notre fichier excel? Je suis sur Google App Engine à l'aide de Python.

J'ai essayé ceci:

import urllib2
import cookielib

url = 'http://nrega.ap.gov.in/Nregs/FrontServlet?requestType=HouseholdInf_engRH&hhid=192420317026010002&actionVal=musterrolls&type=Normal'


def grab_data_with_cookie(cookie_jar, url):
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_jar))
    data = opener.open(url)
    return data

cj = cookielib.CookieJar()

#grab the data 
data1 = grab_data_with_cookie(cj, url)
#the second time we do this, we get back the excel sheet.
data2 = grab_data_with_cookie(cj, url)

stuff2  = data2.read()

Je suis sûr que ce n'est pas la meilleure façon de le faire. Comment pourrais-je faire cela plus proprement, ou même en utilisant la demande de la bibliothèque?

Êtes-vous au courant de urlfetch sur App Engine? Si oui, quel est votre problème avec urlfetch? Si non, vérifiez la documentation et après revenir si vous avez d'autres questions.
Je préfère utiliser urllib2, httplib etc. "directement" plutôt que par urlfetch afin que je puisse plus facilement réutiliser ce code App Engine. Accordée que sur App Engine je pense que ces bibliothèques sont appel urlfetch de toute façon.
Question largement mises à jour, le problème était dû à un cookie, pas le reste du script.

OriginalL'auteur rd108 | 2012-03-17

11

À l'aide de les demandes c'est une tâche triviale:
```
>>> url = 'http://httpbin.org/cookies/set/requests-is/awesome'
>>> r = requests.get(url)

>>> print r.cookies
{'requests-is': 'awesome'}
```
N'avais pas vu cette bibliothèque. C'est génial, je vous remercie.
Ne pouvait pas obtenir que cela fonctionne, malheureusement. J'ai essayé r1 = demandes.get(url), r2 = demandes.get(url,cookies=r1.les cookies), mais je serai de retour la "page d'atterrissage" dans r2.texte qui veut dire que je ne suis pas connecté, apparemment. L'amour de cette bibliothèque si, et ressemble à urllib3 est maintenant fonctionnel dans App Engine bac à sable.
Mise à jour, ai eu de travail. Ne pas modifier le code, doit avoir été plus variable d'environnement crud raté le test. Merci!!!!
Il semble Affiche Originale souhaite utiliser des cookies de session pour les demandes suivantes. Avec les Demandes de la bibliothèque vous l'avez suggéré, ce qui peut être accompli à l'aide de Session() des objets: docs.python-requests.org/en/master/user/advanced
Je reçois <RequestsCookieJar[]> sur Python3

OriginalL'auteur Burhan Khalid
3

Utilisant des cookies, et urllib2:
```
import cookielib
import urllib2

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# use opener to open different urls
```
Vous pouvez utiliser la même ouverture pour plusieurs connexions:
```
data = [opener.open(url).read() for url in urls]
```
Ou de l'installer dans le monde entier:
```
urllib2.install_opener(opener)
```
Dans ce dernier cas, le reste du code est le même avec ou sans l'utilisation de cookies support:
```
data = [urllib2.urlopen(url).read() for url in urls]
```
Merci, j'ai utilisé ces deux bibliothèques et obtenu quelque chose de travail. Vous ne savez pas comment nettoyer c'est bien, mais la question est modifié pour inclure le code ci-dessus.

OriginalL'auteur jfs

Vous devez vous connecter pour publier un commentaire.