urllib2 try et except sur 404

Je suis en train de passer par une série de numérotée pages de données à l'aide de urlib2. Ce que je veux faire est d'utiliser un rapport d'essai, mais j'ai peu de connaissance de celui-ci, à en Juger par la lecture un peu, il semble être fondée sur des "noms" qui sont des exceptions, par exemple, IOError etc. Je ne sais pas quel est le code d'erreur est que je suis à la recherche, qui est une partie du problème.

J'ai écrit /collé à partir d' 'urllib2 le manuel" mon urllib2 page de l'extraction de routine ainsi:

def fetch_page(url,useragent)
    urlopen = urllib2.urlopen
    Request = urllib2.Request
    cj = cookielib.LWPCookieJar()

    txheaders =  {'User-agent' : useragent}

    if os.path.isfile(COOKIEFILE):
        cj.load(COOKIEFILE)
        print "previous cookie loaded..."
    else:
        print "no ospath to cookfile"

    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    urllib2.install_opener(opener)
    try:
        req = urllib2.Request(url, useragent)
        # create a request object

        handle = urlopen(req)
        # and open it to return a handle on the url

    except IOError, e:
        print 'Failed to open "%s".' % url
        if hasattr(e, 'code'):
            print 'We failed with error code - %s.' % e.code
        elif hasattr(e, 'reason'):
            print "The error object has the following 'reason' attribute :"
            print e.reason
            print "This usually means the server doesn't exist,",
            print "is down, or we don't have an internet connection."
            return False

    else:
        print
        if cj is None:
            print "We don't have a cookie library available - sorry."
            print "I can't show you any cookies."
        else:
            print 'These are the cookies we have received so far :'
            for index, cookie in enumerate(cj):
                print index, '  :  ', cookie
                cj.save(COOKIEFILE)           # save the cookies again

        page = handle.read()
        return (page)

def fetch_series():

  useragent="Firefox...etc."
  url="www.example.com/01.html"
  try:
    fetch_page(url,useragent)
  except [something]:
    print "failed to get page"
    sys.exit()

Le bas la fonction est juste un exemple pour voir ce que je veux dire, quelqu'un peut me dire ce que je devrais y mettre ? J'ai fait la page de l'extraction de la fonction retourne False si elle obtient une erreur 404, est-ce correct ? Alors pourquoi ne pas l'exception Faux: le travail ? Merci pour toute aide que vous pouvez donner.

ok ainsi que par des conseils ici, j'ai essayé:

except urlib2.URLError, e:

except URLError, e:

except URLError:

except urllib2.IOError, e:

except IOError, e:

except IOError:

except urllib2.HTTPError, e:

except urllib2.HTTPError:

except HTTPError:

aucune de ces travaux.

Pour Python 3, voir: HTTP Get code d'Erreur de demandes.des exceptions.HTTPError

OriginalL'auteur | 2011-11-24

9

Je vous recommande de vérifier la merveilleuse demande module.

Avec elle, vous pouvez obtenir la fonctionnalité que vous posez sur:
```
import requests
from requests.exceptions import HTTPError

try:
    r = requests.get('http://httpbin.org/status/200')
    r.raise_for_status()
except HTTPError:
    print 'Could not download page'
else:
    print r.url, 'downloaded successfully'

try:
    r = requests.get('http://httpbin.org/status/404')
    r.raise_for_status()
except HTTPError:
    print 'Could not download', r.url
else:
    print r.url, 'downloaded successfully'
```
Donc, vous suggérez j'écris toute chose de nouveau et d'utiliser quelque chose d'autre, ou est-ce que certains d'ajouter à urllib2 ? garder à l'esprit que je suis un total de newb, ce qui m'a pris âge de comprendre comment obtenir une page de téléchargement ! si ce n'est pas cassé, ne le répare pas 😉 est-ce que la gestion des cookies et redirige ainsi cette demande ?
Je suis tellement fatigué que je n'ai pas commencer par vous remercier, donc, désolé pour ça. Merci beaucoup de prendre le temps d'aider un frère.
hey, vous êtes de droite, ce module est assez cool, et bien que urllib2 n'est pas cassé (il fonctionne pour moi en ce moment) je vois ce que tu veux dire au sujet de la simplicité. merci.
je n'avais aucune idée de ce que de superbes conseils, ce fut à l'avance, la différence est plutôt choquant.

OriginalL'auteur Acorn
34

Vous devez attraper urllib2.HTTPError si vous voulez détecter une erreur 404:
```
try:
    req = urllib2.Request(url, useragent)
    # create a request object

    handle = urllib2.urlopen(req)
    # and open it to return a handle on the url
except urllib2.HTTPError, e:
    print 'We failed with error code - %s.' % e.code

    if e.code == 404:
        # do stuff..  
    else:
        # other stuff...

    return False
else:
    # ...
```
De l'attraper dans fetch_series():
```
def fetch_page(url,useragent)
    urlopen = urllib2.urlopen
    Request = urllib2.Request
    cj = cookielib.LWPCookieJar()
    try:
        urlopen()
        #...
    except IOError, e:
        # ...   
    else:
        #...

def fetch_series(): 
    useragent=”Firefox...etc.”
    url=”www.example.com/01.html
    try:
        fetch_page(url,useragent)
    except urllib2.HTTPError, e:
        print “failed to get page”
```
http://docs.python.org/library/urllib2.html:

exception urllib2.HTTPError

Bien qu'étant une exception (une sous-classe de URLError), un HTTPError peut
aussi fonctionner comme un non-exceptionnel fichier comme valeur de retour (le même
chose que urlopen() retours). Ceci est utile lors de la manipulation exotiques
Les erreurs HTTP, telles que les demandes d'authentification.

code

Un code d'état HTTP tel que défini dans la RFC 2616. Cette valeur numérique correspond à la valeur trouvée dans le dictionnaire de codes trouvés
dans BaseHTTPServer.BaseHTTPRequestHandler.responses.

Je suis en essais pour que, en dehors de la urllib2 fonction mais, est-ce que la matière ? Je veux qu'il soit une fonction générique pour beaucoup de choses, et puis regardez pour les types d'erreurs à l'extérieur.
Merci pour votre aide!
ok, je vais lui donner un aller, merci, Va être demain. creuser le nom de trop 😉
oh, je vois, je suppose que je serais d'avoir à tester la valeur de retour de la récupérer. ah vous les gars. peut votre fichier des autorisations d'être toujours dans un ordre parfait, et peut-être votre boîtes de ne jamais être 0wned par skiddz (au moins) 😀
hmmm, N'a pas l'air de fonctionner, juste allé tout droit... je vais regarder à nouveau demain, lorsque je suis moins fatigué. Encore un grand merci.

OriginalL'auteur chown

Interactive piquer:

Pour la recherche sur la nature et le contenu de ces exceptions en python préférable de simplement essayer la clé des appels de manière interactive:

>>> f = urllib2.urlopen('http://httpbin.org/status/404')
Traceback (most recent call last):
...
  File "C:\Python27\lib\urllib2.py", line 558, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
HTTPError: HTTP Error 404: NOT FOUND

Puis sys.last_value contient la valeur d'exception qui a chuté à la interactive, et peut être joué avec:

( utilisez la touche de TABULATION + . auto-expansion du shell interactif, dir(), vars() ...)

>>> ev = sys.last_value
>>> ev.__class__
<class 'urllib2.HTTPError'>
>>> dir(ev)
['_HTTPError__super_init', '__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__getitem__', '__getslice__', '__hash__', '__init__', '__iter__', '__module__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__unicode__', '__weakref__', 'args', 'close', 'code', 'errno', 'filename', 'fileno', 'fp', 'getcode', 'geturl', 'hdrs', 'headers', 'info', 'message', 'msg', 'next', 'read', 'readline', 'readlines', 'reason', 'strerror', 'url']
>>> vars(ev)
{'fp': <addinfourl at 140193880 whose fp = <socket._fileobject object at 0x01062370>>, 'fileno': <bound method _fileobject.fileno of <socket._fileobject object at 0x01062370>>, 'code': 404, 'hdrs': <httplib.HTTPMessage instance at 0x085ADF80>, 'read': <bound method _fileobject.read of <socket._fileobject object at 0x01062370>>, 'readlines': <bound method _fileobject.readlines of <socket._fileobject object at 0x01062370>>, 'next': <bound method _fileobject.next of <socket._fileobject object at 0x01062370>>, 'headers': <httplib.HTTPMessage instance at 0x085ADF80>, '__iter__': <bound method _fileobject.__iter__ of <socket._fileobject object at 0x01062370>>, 'url': 'http://httpbin.org/status/404', 'msg': 'NOT FOUND', 'readline': <bound method _fileobject.readline of <socket._fileobject object at 0x01062370>>}
>>> sys.last_value.code
404

Essayer de manutention:

>>> try: f = urllib2.urlopen('http://httpbin.org/status/404')
... except urllib2.HTTPError, ev:
...     print ev, "'s error code is", ev.code
...     
HTTP Error 404: NOT FOUND 's error code is 404

La construction d'une simple ouvreur qui ne jette pas les erreurs HTTP:

>>> ho = urllib2.OpenerDirector()
>>> ho.add_handler(urllib2.HTTPHandler())
>>> f = ho.open('http://localhost:8080/cgi/somescript.py'); f
<addinfourl at 138851272 whose fp = <socket._fileobject object at 0x01062370>>
>>> f.code
500
>>> f.read()
'Execution error: <pre style="background-color:#faa">\nNameError: name \'e\' is not defined\n<pre>\n'

Les gestionnaires par défaut de urllib2.build_opener:

default_classes = [ProxyHandler, UnknownHandler, HTTPHandler,
HTTPDefaultErrorHandler, HTTPRedirectHandler,
FTPHandler, FileHandler, HTTPErrorProcessor]

OriginalL'auteur kxr

Vous devez vous connecter pour publier un commentaire.