Télécharger le fichier image à partir de la page HTML la source à l'aide de python?
Je suis en train d'écrire un racloir, qui télécharge tous les fichiers image à partir d'une page HTML et les enregistre dans un dossier spécifique. toutes les images sont la partie de la page HTML.
- Et quelle est la question?
- "Comment puis-je %s" % titre
Vous devez vous connecter pour publier un commentaire.
Voici un code pour télécharger toutes les images à partir de l'URL fournie, et de les enregistrer dans le dossier de sortie spécifié. Vous pouvez le modifier selon vos propres besoins.
Edit: Vous pouvez spécifier le dossier de sortie maintenant.
open(..).write(urlopen(..)
pourrait être remplacé parurllib.urlretrieve()
De Ryan solution est bonne, mais échoue si la source de l'image Url une Url absolue ou quoi que ce soit qui ne donne pas un bon résultat quand simplement concaténé à la page principale de l'URL. urljoin reconnaît absolue contre les Url relatives, afin de remplacer la boucle dans le milieu de l':
Vous devez télécharger la page et analyser un document html, retrouvez votre image avec la regex et le télécharger.. Vous pouvez utiliser urllib2 pour le téléchargement et la Belle Soupe d'analyse de fichier html.
Et c'est la fonction pour télécharger une image:
while
boucle (pas son contenu!)Utilisation htmllib pour extraire toutes les balises img (remplacer do_img), puis utilisez urllib2 pour télécharger toutes les images.
Si la demande a besoin d'une autorisation reportez-vous à celui-ci: