Télécharger le fichier image à partir de la page HTML la source à l'aide de python?

Je suis en train d'écrire un racloir, qui télécharge tous les fichiers image à partir d'une page HTML et les enregistre dans un dossier spécifique. toutes les images sont la partie de la page HTML.

Et quelle est la question?
"Comment puis-je %s" % titre

InformationsquelleAutor Mohit Ranka | 2008-11-02

python screen-scraping

Voici un code pour télécharger toutes les images à partir de l'URL fournie, et de les enregistrer dans le dossier de sortie spécifié. Vous pouvez le modifier selon vos propres besoins.

"""
dumpimages.py
    Downloads all the images on the supplied URL, and saves them to the
    specified output file ("/test/" by default)

Usage:
    python dumpimages.py http://example.com/[output]
"""
from bs4 import BeautifulSoup as bs
from urllib.request import (
    urlopen, urlparse, urlunparse, urlretrieve)
import os
import sys

def main(url, out_folder="/test/"):
    """Downloads all the images at 'url' to /test/"""
    soup = bs(urlopen(url))
    parsed = list(urlparse(url))

    for image in soup.findAll("img"):
        print("Image: %(src)s" % image)
        filename = image["src"].split("/")[-1]
        parsed[2] = image["src"]
        outpath = os.path.join(out_folder, filename)
        if image["src"].lower().startswith("http"):
            urlretrieve(image["src"], outpath)
        else:
            urlretrieve(urlunparse(parsed), outpath)

def _usage():
    print("usage: python dumpimages.py http://example.com [outpath]")

if __name__ == "__main__":
    url = sys.argv[-1]
    out_folder = "/test/"
    if not url.lower().startswith("http"):
        out_folder = sys.argv[-1]
        url = sys.argv[-2]
        if not url.lower().startswith("http"):
            _usage()
            sys.exit(-1)
    main(url, out_folder)

Edit: Vous pouvez spécifier le dossier de sortie maintenant.

open(..).write(urlopen(..) pourrait être remplacé par urllib.urlretrieve()
Merci pour cette remarque. Édité code de réfléchir.
Votre code ne fonctionne pas si l'image emplacements sont définis par rapport à un document HTML. Pouvez vous s'il vous plaît inclure le correctif fourni par unutbu dans le cas où quelqu'un utilise votre script dans le futur?
J'ai rencontré le même problème. J'ai fini juste à l'aide de regexp pour trouver toutes les images, les liens, ce qui est plus fiable que Beautifulsoup, à mon avis.
code semble vieux et ne sont pas compatibles avec python3...

InformationsquelleAutor

12

De Ryan solution est bonne, mais échoue si la source de l'image Url une Url absolue ou quoi que ce soit qui ne donne pas un bon résultat quand simplement concaténé à la page principale de l'URL. urljoin reconnaît absolue contre les Url relatives, afin de remplacer la boucle dans le milieu de l':
```
for image in soup.findAll("img"):
    print "Image: %(src)s" % image
    image_url = urlparse.urljoin(url, image['src'])
    filename = image["src"].split("/")[-1]
    outpath = os.path.join(out_folder, filename)
    urlretrieve(image_url, outpath)
```
InformationsquelleAutor Catherine Devlin
8

Vous devez télécharger la page et analyser un document html, retrouvez votre image avec la regex et le télécharger.. Vous pouvez utiliser urllib2 pour le téléchargement et la Belle Soupe d'analyse de fichier html.

InformationsquelleAutor user20955

Et c'est la fonction pour télécharger une image:

def download_photo(self, img_url, filename):
    file_path = "%s%s" % (DOWNLOADED_IMAGE_PATH, filename)
    downloaded_image = file(file_path, "wb")

    image_on_web = urllib.urlopen(img_url)
    while True:
        buf = image_on_web.read(65536)
        if len(buf) == 0:
            break
        downloaded_image.write(buf)
    downloaded_image.close()
    image_on_web.close()

    return file_path

fonctionne très bien pour moi lors de la suppression de la while boucle (pas son contenu!)

InformationsquelleAutor Dingo

3

Utilisation htmllib pour extraire toutes les balises img (remplacer do_img), puis utilisez urllib2 pour télécharger toutes les images.
- Cela suppose non rompu html, quelle Belle Soupe peut faire face.
- D'autre part, c'est en utilisant uniquement des modules de la bibliothèque standard.
InformationsquelleAutor Martin v. Löwis

Si la demande a besoin d'une autorisation reportez-vous à celui-ci:

r_img = requests.get(img_url, auth=(username, password)) 
f = open('000000.jpg','wb') 
f.write(r_img.content) 
f.close()

InformationsquelleAutor Lerner Zhang

Vous devez vous connecter pour publier un commentaire.