Comment extraire et de télécharger toutes les images d'un site web à l'aide de beautifulSoup?
Je suis en train d'extraire et de télécharger toutes les images à partir d'une url.
J'ai écrit un script
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
url = "http://filmygyan.in/katrina-kaifs-top-10-cutest-pics-gallery/"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)
# download all images
for imgUrl in imgUrls:
try:
imgData = urllib2.urlopen(imgUrl).read()
fileName = basename(urlsplit(imgUrl)[2])
output = open(fileName,'wb')
output.write(imgData)
output.close()
except:
pass
Je ne veux pas d'extraire de l'image de cette page, voyez cette image http://i.share.pho.to/1c9884b1_l.jpeg
Je veux juste obtenir toutes les images sans en cliquant sur le bouton "Suivant"
Je ne suis pas arriver comment puis-je obtenir les toutes photos dans les "à Côté" de la classe.?Quels sont les changements que je dois faire à findall?
Vous souhaitez utiliser BeautifulSoup, mais ne savez pas comment procéder?
Oui.Je ne suis pas sûr de savoir comment dois-je utiliser findall ou findnext? Script ci-dessus, va attirer toutes les images de cette url, mais ce que je veux (voir le lien de l'image) pour récupérer toutes les images de ce diaporama qui sont à venir après avoir cliqué sur le bouton suivant.
Dites-moi une chose, pourquoi voulez-vous télécharger des images à partir filmygyan? Alors, je peux vous donner la solution de votre requête..!
Utiliser les wget
rien de spécial.Je suis juste d'apprentissage.
Oui.Je ne suis pas sûr de savoir comment dois-je utiliser findall ou findnext? Script ci-dessus, va attirer toutes les images de cette url, mais ce que je veux (voir le lien de l'image) pour récupérer toutes les images de ce diaporama qui sont à venir après avoir cliqué sur le bouton suivant.
Dites-moi une chose, pourquoi voulez-vous télécharger des images à partir filmygyan? Alors, je peux vous donner la solution de votre requête..!
Utiliser les wget
rien de spécial.Je suis juste d'apprentissage.
OriginalL'auteur user2711817 | 2013-08-23
Vous devez vous connecter pour publier un commentaire.
Les éléments suivants doivent extraire toutes les images à partir d'une page donnée et l'écrire dans le répertoire où le script est en cours d'exécution.
OriginalL'auteur Jonathan
Si vous ne souhaitez que des photos, puis vous pouvez seulement de téléchargement d'eux sans même la suppression de la page web. La tous ont la même URL:
Si simple code qui vous donnera toutes les images:
Avec Beautifulsoup, vous aurez à cliquer ou aller à la page suivante pour ferrailler les images. Si vous voulez ot de la ferraille chaque page individuellement essayez de scrathem à l'aide de n'classe qui est
shutterset_katrina-kaifs-top-10-cutest-pics-gallery
Si vous utilisez des URL? C'est totalement différente. Si vous avez besoin d'obtenir toutes les images de la nouvelle URL, ouvrir une autre question. Si vous souhaitez faire un script qui fonctionne pour toutes les pages de votre site, alors vous aurez à fournir votre NOUVEAU question avec toutes les informations nécessaires (comme ce que les classes, id ou les étiquettes sont utilisées sur chaque page)
okey.Je pensais que ce script est d'aller travailler pour toutes les url car je l'ai vérifié sur certaines url, mais après 2 ou 3 url je suis coincé parce que cette fois, l'url n'a pas été suivant le modèle comme (1,12) (1,20).On dirait que j'ai à poster une autre Question pour obtenir toutes les images à partir de n'importe quelle url pour ce.
Oui, vous le faites. Mais savez-vous combien d'Url, vous aurez, à partir duquel vous souhaitez télécharger des images? Je pense qu'il y a un bagout avec lequel vous pouvez faire un script qui va travailler pour toutes les pages de ces Url
Oui je suis à essayer de comprendre ce modèle.Peut-être que je devrais regarder pour que "div" dans lequel toutes les images sont contenues.
OriginalL'auteur 4d4c