Comment attraper erreur 404 dans urllib.urlretrieve

Contexte: je suis en utilisant urllib.urlretrieve, contrairement à toute autre fonction dans le urllib* modules, en raison de la fonction de raccordement de soutien (voir reporthook ci-dessous) .. qui est utilisé pour afficher le texte de la barre de progression. C'est Python >=2.6.

>>> urllib.urlretrieve(url[, filename[, reporthook[, data]]])

Cependant, urlretrieve est tellement stupide qu'il ne laisse aucun moyen de détecter l'état de la requête HTTP (par exemple: c'était une 404 ou 200?).

>>> fn, h = urllib.urlretrieve('http://google.com/foo/bar')
>>> h.items() 
[('date', 'Thu, 20 Aug 2009 20:07:40 GMT'),
 ('expires', '-1'),
 ('content-type', 'text/html; charset=ISO-8859-1'),
 ('server', 'gws'),
 ('cache-control', 'private, max-age=0')]
>>> h.status
''
>>>

Quel est le meilleur moyen connu pour télécharger une distance de fichier HTTP avec crochet de support de type (pour montrer la barre de progression) et un décent HTTP erreur de manipulation?

Ne fournissant pas une HTTP Statut sur votre demande doit probablement être considéré comme un bug dans la stdlib (mais de vérifier la beaucoup mieux de la bibliothèque, les demandes ci-dessous)
c'est tellement stupide que urlretrieve ne peut pas gérer cela avec un retour d'état

InformationsquelleAutor Reinstate Monica | 2009-08-20

28

Découvrez urllib.urlretrieve's code complet:
```
def urlretrieve(url, filename=None, reporthook=None, data=None):
  global _urlopener
  if not _urlopener:
    _urlopener = FancyURLopener()
  return _urlopener.retrieve(url, filename, reporthook, data)
```
En d'autres termes, vous pouvez utiliser urllib.FancyURLopener (c'est une partie du public urllib API). Vous pouvez remplacer http_error_default pour détecter une erreur 404:
```
class MyURLopener(urllib.FancyURLopener):
  def http_error_default(self, url, fp, errcode, errmsg, headers):
    # handle errors the way you'd like to

fn, h = MyURLopener().retrieve(url, reporthook=my_report_hook)
```
- Je ne veux pas spécifier les gestionnaires; est-il lancer des exceptions comme urllib2.urlopen?
- Il est très facile de se faire jeter. FancyURLopener sous-classes URLopener qui ne jeter, de sorte que vous pouvez essayer d'appeler la classe de base de la mise en œuvre: def http_error_default(...): URLopener.http_error_default(...)
- C'est une très bonne solution, je l'ai utilisé moi-même tout à l'heure.
- Vous devriez plutôt faire ouvreur = MyURLopener() et puis ouvreur.récupérer() pour conserver l'ouvreur objet vivant. Dans le cas contraire (si vous ne le tout sur une seule ligne) nouvellement créé ouvreur sera immédiatement libéré juste après le processus de récupération. Cela va effacer les fichiers temporaires, les données ont été téléchargées à l'avant vous avez une chance de l'utiliser.
InformationsquelleAutor orip
14

Vous devez utiliser:
```
import urllib2

try:
    resp = urllib2.urlopen("http://www.google.com/this-gives-a-404/")
except urllib2.URLError, e:
    if not hasattr(e, "code"):
        raise
    resp = e

print "Gave", resp.code, resp.msg
print "=" * 80
print resp.read(80)
```
Edit: La logique ici est que si vous vous attendez à l'état d'exception, c'est une exception pour que ça arrive, et vous n'avez probablement même pas y penser, donc au lieu de laisser votre code de continuer à fonctionner alors qu'il a échoué, le comportement par défaut est--assez sensiblement--pour inhiber son exécution.
- crochet de support de type?
- Sridhar, voir stackoverflow.com/a/9740603/819417
InformationsquelleAutor lericson
2

L'URL de l'Ouvreur de l'objet "récupérer" méthode prend en charge la reporthook et déclenche une exception sur 404.

http://docs.python.org/library/urllib.html#url-opener-objects

InformationsquelleAutor Mark

Vous devez vous connecter pour publier un commentaire.