Python suivre les redirections et puis de télécharger la page?

J'ai le script python ci et il fonctionne à merveille.

import urllib2

url = 'http://abc.com' # write the url here

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data

cependant, certains de l'URL je donne, il peut rediriger 2 fois ou plus. Comment puis-je avoir python attendre pour les redirections pour terminer avant de charger les données.
Par exemple, lorsque vous utilisez le code ci-dessus avec

http://www.google.com/search?hl=en&q=KEYWORD&btnI=1

qui est le equvilant de frapper l'im lucky bouton sur une recherche google, j'obtiens:

>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1'
>>> usick = urllib2.urlopen(url)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open
    response = meth(req, response)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response
    'http', request, response, code, msg, hdrs)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error
    return self._call_chain(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain
    result = func(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
>>>

J'ai essayé de le (url, des données, des temps d'arrêt) cependant, je ne sais pas quoi y mettre.

EDIT:
J'ai effectivement trouvé si je n'ai pas de redirection et de l'utilisation de l'en-tête du premier lien, je peux récupérer l'emplacement de la prochaine rediriger et de l'utiliser comme mon dernier lien

êtes-vous familier avec HTTPRedirectHandler
Je n'étais pas. Juste googlé. Je peux voir comment faire ne PAS suivre. Cependant, je ne peux pas le forcer À suivre
Je sais, ça fait un moment, mais pouvez-vous creuser profondément dans la mémoire de voûte et de me dire comment vous avez résolu ce problème? merci!

InformationsquelleAutor Cripto | 2012-01-11

18

Vous pourriez être mieux avec les Demandes de la bibliothèque qui a la meilleure Api pour contrôler la redirection de manutention:

http://docs.python-requests.org/en/latest/user/quickstart/#redirection-and-history

Demandes:

http://pypi.python.org/pypi/requests/ (urllib de remplacement pour les humains)
- N'était pas la bonne réponse, mais il m'a aidé à trouver ce dont j'avais besoin.
- Pourriez-vous nous dire ce que vous avez trouver pour résoudre votre problème?
- Cette fonctionnalité juste SOUFFLÉ mon esprit. Aussi, il est important de noter pour les autres demandes (de la TÊTE), vous devez définir allow_redirects à True pour que cela fonctionne.
- Alors que le pointeur est correct, ce n'est pas de s'occuper immédiatement de la question abordée.
InformationsquelleAutor Mikko Ohtamaa
2

Utilisation requests que l'autre réponse unis, voici un exemple. La redirection sera en r.url. Dans l'exemple ci-dessous le http est redirigé vers https

Pour la TÊTE:
```
In [1]:     import requests
   ...:     r = requests.head('http://github.com', allow_redirects=True)
   ...:     r.url

Out[1]: 'https://github.com/'
```
Pour OBTENIR:
```
In [1]:     import requests
   ...:     r = requests.get('http://github.com')
   ...:     r.url

Out[1]: 'https://github.com/'
```
Note de TÊTE, vous devez spécifier allow_redirects mais si vous n'en avez pas, vous pouvez l'obtenir dans les en-têtes, mais ce n'est pas conseillé.
```
In [1]: import requests

In [2]: r = requests.head('http://github.com')

In [3]: r.headers.get('location')
Out[3]: 'https://github.com/'
```
À téléchargement de la page, vous devez OBTENIR, vous pouvez alors accéder à la page en utilisant soit r.content
- Pourquoi l'obtenir par l'en-tête n'est pas conseillé?
- Je sais que ce n'était pas si longtemps, mais elle se sent comme elle, je pense que j'ai fait une validation et l'a trouvé pour ne pas être fiable, elle peut dire aussi que dans les docs. Si vous faites une validation laissez-moi savoir ce que vous trouvez.
InformationsquelleAutor Glen Thompson
-3

Faire, vous devez absolument le faire de cette façon? Comment sur l'utilisation de quelque chose comme sergé ( http://twill.idyll.org/) - fait ce que vous voulez faire est très facile (et c'est Python).

InformationsquelleAutor OgnenD

Vous devez vous connecter pour publier un commentaire.