Télécharger 1000 premières images de la recherche google

Je fais un peu de recherche sur google images

http://www.google.com/search?hl=en&q=panda&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.,cf.osb&biw=1287&bih=672&um=1&ie=UTF-8&tbm=isch&source=og&sa=N&tab=wi&ei=qW4FUJigJ4jWtAbToInABg

et le résultat est des milliers de photos. Je suis à la recherche d'un script shell qui va télécharger la première n images, par exemple 1000 ou 500.

Comment puis-je faire cela ?

Je suppose que j'ai besoin de l'avancée des expressions régulières ou quelque chose comme ça. J'ai essayé beaucoup de choses mais en vain, quelqu'un peut m'aider s'il vous plaît?

Vous dites que vous avez essayé beaucoup de choses - comme? =)
comme l'utilisation de curl et wget avec la combinaison avec la commande grep . . . mais il ne m'a pas donné tous les résultats escomptés , j'ai mis 2 jours d'efforts dans l'analyse et la encore beaucoup de problèmes
pas un script shell, mais si vous êtes toujours à la recherche d'un script de ligne de commande cette option peut vous aider github.com/hardikvasa/google-images-download

OriginalL'auteur Lukap | 2012-07-17

19

mise à jour 3: j'ai corrigé le script fonctionne avec phantomjs 2.x.

mise à jour 2: j'ai modifié le script pour utiliser phantomjs. Il est plus difficile à installer, mais au moins il fonctionne à nouveau. http://sam.nipl.net/b/google-images http://sam.nipl.net/b/google-images.js

mise à jour 1: Malheureusement cela ne fonctionne plus. Il semble que Javascript et autre magie est maintenant nécessaire de trouver l'endroit où les images se trouvent. Voici une version du script pour yahoo recherche d'image: http://sam.nipl.net/code/nipl-tools/bin/yimg

réponse originale à cette question: j'ai piraté quelque chose ensemble pour cela. J'ai l'habitude d'écrire de petits outils et de les utiliser ensemble, mais vous l'avez demandé un script shell, pas trois douzaines. C'est délibérément dense code.

http://sam.nipl.net/code/nipl-tools/bin/google-images

Il semble fonctionner très bien jusqu'à présent. S'il vous plaît laissez-moi savoir si vous pouvez l'améliorer, ou de suggérer les meilleures techniques de codage (étant donné que c'est un script shell).
```
#!/bin/bash
[ $# = 0 ] && { prog=`basename "$0"`;
echo >&2 "usage: $prog query count parallel safe opts timeout tries agent1 agent2
e.g. : $prog ostrich
$prog nipl 100 20 on isz:l,itp:clipart 5 10"; exit 2; }
query=$1 count=${2:-20} parallel=${3:-10} safe=$4 opts=$5 timeout=${6:-10} tries=${7:-2}
agent1=${8:-Mozilla/5.0} agent2=${9:-Googlebot-Image/1.0}
query_esc=`perl -e 'use URI::Escape; print uri_escape($ARGV[0]);' "$query"`
dir=`echo "$query_esc" | sed 's/%20/-/g'`; mkdir "$dir" || exit 2; cd "$dir"
url="http://www.google.com/search?tbm=isch&safe=$safe&tbs=$opts&q=$query_esc" procs=0
echo >.URL "$url" ; for A; do echo >>.args "$A"; done
htmlsplit() { tr '\n\r \t' ' ' | sed 's/</\n</g; s/>/>\n/g; s/\n *\n/\n/g; s/^ *\n//; s/$//;'; }
for start in `seq 0 20 $[$count-1]`; do
wget -U"$agent1" -T"$timeout" --tries="$tries" -O- "$url&start=$start" | htmlsplit
done | perl -ne 'use HTML::Entities; /^<a .*?href="(.*?)"/and print decode_entities($1), "\n";' | grep '/imgres?' |
perl -ne 'use URI::Escape; ($img, $ref) = map { uri_unescape($_) } /imgurl=(.*?)&imgrefurl=(.*?)&/;
$ext = $img; for ($ext) { s,.*[/.],,; s/[^a-z0-9].*//i; $_ ||= "img"; }
$save = sprintf("%04d.$ext", ++$i); print join("\t", $save, $img, $ref), "\n";' |
tee -a .images.tsv |
while IFS=$'\t' read -r save img ref; do
wget -U"$agent2" -T"$timeout" --tries="$tries" --referer="$ref" -O "$save" "$img" || rm "$save" &
procs=$[$procs + 1]; [ $procs = $parallel ] && { wait; procs=0; }
done ; wait
```
Caractéristiques:
- moins de 1500 octets
- explique l'utilisation, si elle est exécutée sans args
- téléchargements plein d'images en parallèle
- sûr option de recherche
- la taille de l'image, le type, etc. opte chaîne
- timeout /tentatives options
- emprunte l'identité de googlebot pour récupérer toutes les images
- numéros de fichiers image
- enregistre les métadonnées
Je vais poster une version modulaire certain temps, pour montrer que cela peut être fait très bien avec un ensemble de scripts shell et outils simples.

merci pour votre solution, mais s'il vous plaît pouvez-vous me donner quelque chose de plus modulaire ou quelque chose qui est plus lisible ? Je ne sais pas shell si bon et je ne peux pas le rendre plus modulaire. Merci à ceux à nouveau
Ok, je vais voir ce que je peux faire. Mais, si je le coller dans la réponse ce sera une longue réponse! Avez-vous essayer de l'exécuter?
J'ai modifié le script pour utiliser "phantomjs", un captif navigateur web. Cela le rend plus difficile à installer, mais au moins il fonctionne à nouveau. sam.nipl.net/b/google-images sam.nipl.net/b/google-images.js j'ai corrigé l'ancienne version du script, mais il ne fonctionne que pour un maximum de 100 les images, car il ne peut pas simuler le défilement de la page. sam.nipl.net/b/google-images-old
vous pourriez grep la liste d'images, juste pour le PNG images avant de les télécharger: insérer grep $'\.png\t' | avant la dernière boucle while. Je ne suis pas au courant de tout option dans yahoo recherche d'image pour renvoyer uniquement les images PNG, bien que je pense que google n'a une telle option.
regarde mon Python solution ici stackoverflow.com/a/28487500/2875380 je van de téléchargement de 100 images à haute résolution à l'aide de python

OriginalL'auteur Sam Watkins
6

Je ne pense pas que vous pouvez obtenir la totalité de la tâche à l'aide de regexes seul. Il y a 3 parties de ce problème-

1.Extrait les liens de toutes les images -----> ne peut pas être fait avec regexes. Vous avez besoin d'utiliser un site web en fonction de la langue pour cette. Google a des Api pour le faire par programmation. Découvrez ici et ici.

2.En supposant que vous avez réussi dans la première étape avec certains de langues sur le web, vous pouvez utiliser les regex qui utilise lookaheads pour extraire l'image exacte URL
```
(?<=imgurl=).*?(?=&)
```
Ci-dessus regex dit - Saisir tout départ après imgurl= et jusqu'à ce que vous rencontrez le & symbole. Voir ici pour un exemple, où j'ai pris l'URL de la première image de votre résultat de recherche et des extraits de l'URL de l'image.

Comment ai-je arriver au-dessus de la regex? En examinant les liens des images trouvées dans la recherche d'images.

3.Maintenant que vous avez l'Url de l'image, l'utilisation de certaines langues sur le web/l'outil de téléchargement de vos images.

De mon point de vue, la "bonne réponse" à cette question est d'utiliser les Api et oublier d'essayer de traiter le code HTML. Je l'avais mis beaucoup plus de concentration et d'orientation sur la partie de la réponse! 😉 En raclant le HTML est toujours beaucoup plus compliqué que ce qu'il devrait être... surtout dans un shell-script'!
u peut trouver ma solution de travail en python beautifulsoup, j'ai pu gratter 100 images à résolution intégrale du formulaire de la recherche d'image google stackoverflow.com/questions/20716842/...
louable, mais je maintiens mon affirmation que le grattage est une solution à court terme redevables sur la partie à distance ne change pas quelque chose d'aussi simple que de leur mise en page. Les api sont conçus pour un but, si ce but est de retourner des résultats de recherche, alors que c'est la meilleure chose à utiliser.

OriginalL'auteur Pavan Manjunath
2

Plutôt que de le faire en shell avec les expressions régulières, vous pouvez avoir un temps plus facile si vous utilisez quelque chose qui peut effectivement analyser le code HTML lui-même, comme PHP de la classe DOMDocument.

Si vous êtes coincé en utilisant seulement la coquille et de la nécessité de slurp Url de l'image, vous ne pouvez pas être totalement hors de la chance. Les Expressions régulières sont inappropriés pour l'analyse HTML, parce que le HTML n'est pas un langage régulier. Mais vous pouvez toujours être en mesure de s'en sortir si vos données d'entrée est hautement prévisible. (Il n'y a aucune garantie de cela, parce que Google met à jour ses produits et services régulièrement et souvent sans préavis.)

Cela dit, dans la sortie de l'URL que vous avez indiqué dans votre question, à chaque URL de l'image semble être incorporé dans une ancre des liens vers /imgres?…. Si l'on peut analyser ces liens, nous pouvons probablement de recueillir ce que nous avons besoin d'eux. Au sein de ces liens, Url de l'image semble être précédé &imgurl=. Donc, nous allons gratter cette.
```
#!/usr/local/bin/bash
# Possibly violate Google's terms of service by lying about our user agent
agent="Mozilla/5.0 (X11; FreeBSD amd64; rv:12.0) Gecko/20100101 Firefox/12.0"
# Search URL
url="http://www.google.com/search?hl=en&q=panda&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.,cf.osb&biw=1287&bih=672&um=1&ie=UTF-8&tbm=isch&source=og&sa=N&tab=wi&ei=qW4FUJigJ4jWtAbToInABg"
curl -A "$agent" -s -D- "$url" \
| awk '{gsub(/<a href=/,"\n")} 1' \
| awk '
/imgres/{
sub(/" class=rg_l >.*/, "");       # clean things up
split($0, fields, "\&amp;");       # gather the "GET" fields
for (n=1; n<=length(fields); n++) {
split(fields[n], a, "=");        # split name=value pair
getvars[a[1]]=a[2];              # store in array
}
print getvars["imgurl"];           # print the result
}
'
```
Je suis l'aide de deux awk commandes parce que ... eh bien, je suis paresseux, et qui a été le moyen le plus rapide pour générer des lignes dans lesquelles je pourrais facilement trouver le "imgres" de la chaîne. On pourrait passer plus de temps à tout nettoyer et de le rendre plus élégant, mais la loi des rendements décroissants dicte que c'est pour autant que je aller avec celui-ci. 🙂

Ce script renvoie une liste d'Url que vous pouvez télécharger facilement à l'aide d'autres shell outils. Par exemple, si le script est appelé getimages, puis:
```
./getimages | xargs -n 1 wget
```
Noter que Google semble être en me donnant seulement 83 résultats (et non 1000) lorsque j'exécute ce avec l'URL de recherche que vous avez spécifié dans votre question. Il est possible que ce est juste la première page de Google serait généralement à un navigateur avant "expansion" de la page (à l'aide de JavaScript) quand j'arrive près du fond. Le bon façon de gérer ce qui serait d'utiliser Google API de recherche, par Pavan réponse, et de PAYER google pour leurs données si vous êtes plus de 100 recherches par jour.

"awk: ligne 5: illégal de référence pour les champs array", avez-vous essayé le script ? il n'a fonctionné pour vous ? cause il ne fonctionne pas pour moi 🙁
Oui, il a travaillé pour moi. Rappelez-vous qu'il existe différentes versions de awk. Peut-être le vôtre ne pas laisser length() retourner le nombre d'éléments dans un tableau. Quel genre de awk êtes-vous en cours d'exécution? (Exécuter awk --version un indice.) Si je peux dupliquer votre erreur, je vais poster une mise à jour de la fixation.
"$ awk --version awk: n'est pas une option: --version" , peut-être que j'ai besoin d'installer quelque chose ? sudo apt-get install awk ne fonctionne pas
comment installer votre version ?, peut-être que c'est la solution la plus simple , si je peux installer votre version de awk ce serait génial

OriginalL'auteur ghoti
1

Tellement la charge de travail ? Pourquoi ne pas utiliser Bulk Image Downloader?
Il dispose de 100 images limitation.

Et besoin de codage pour les sites ayant Java image de téléspectateurs.

OriginalL'auteur sam
0

Plutôt que de tenter d'analyser le code HTML (ce qui est très difficile et le risque de rupture), pensez à l'API est mis en évidence par @Paven dans sa réponse.

En outre, envisager d'utiliser un outil qui tente déjà de faire quelque chose de similaire. WGET (web-get) a une araignée comme caractéristique de suivre les liens (en particulier pour les types de fichiers spécifiés). Voir cette réponse à un StackOverflow question "comment puis-je utiliser wget pour télécharger toutes les images dans un dossier unique'.

Regex est très utile, mais je ne pense pas que c'est dans ce contexte - n'oubliez pas la Regex mantra:

Certaines personnes, lorsqu'ils sont confrontés à un problème, pense que "je sais, je vais utiliser des expressions régulières." Maintenant, ils ont deux problèmes.

-- Jamie Zawinski

OriginalL'auteur Ray Hayes
0

avec la réponse de Pavan Manjunath, si vous voulez hauteur & largeur de l'image

(?<=imgurl=)(?<imgurl>.*?)(?=&).*?(?<=h=)(?<height>.*?)(?=&).*?(?<=w=)(?<width>.*?)(?=&)

Vous obtenir 3 regex groupes imgurl, hauteur & largeur avec l'information.

Vous n'avez pas besoin de tout ces lookarounds: imgurl=(?<imgurl>.*?)&.*?h=(?<height>.*?)&.*?w=(?<width>.*?)&. (Pavan ne devriez pas avoir utilisé.) Aussi, vous êtes en supposant que ces attributs apparaissent toujours dans le même ordre.

OriginalL'auteur LeMoussel
0

J'ai trouvé un moyen plus facile de le faire avec cet outil je peux confirmer que ça fonctionne bien comme de ce post.

Demandes de fonctionnalités pour le développeur: le
- Obtenir un aperçu de l'image(s) afin de vérifier qu'elle est correcte.
- Autoriser la saisie de plusieurs termes de manière séquentielle (c'est à dire le traitement par lots).
OriginalL'auteur Vijay

Script Python: pour télécharger les images en pleine résolution formulaire de Recherche d'Images de Google
actuellement, il téléchargements de 100 images par requête

from bs4 import BeautifulSoup
import requests
import re
import urllib2
import os
import cookielib
import json
def get_soup(url,header):
return BeautifulSoup(urllib2.urlopen(urllib2.Request(url,headers=header)),"html.parser")
query = raw_input("query image")# you can change the query for the image  here
image_type="ActiOn"
query= query.split()
query='+'.join(query)
url="https://www.google.co.in/search?q="+query+"&source=lnms&tbm=isch"
print url
#add the directory for your image here
DIR="C:\\Users\\Rishabh\\Pictures\\"+query.split('+')[0]+"\\"
header={'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36"
}
soup = get_soup(url,header)
ActualImages=[]# contains the link for Large original images, type of  image
for a in soup.find_all("div",{"class":"rg_meta"}):
link , Type =json.loads(a.text)["ou"]  ,json.loads(a.text)["ity"]
ActualImages.append((link,Type))
print  "there are total" , len(ActualImages),"images"
###print images
for i , (img , Type) in enumerate( ActualImages):
try:
req = urllib2.Request(img, headers={'User-Agent' : header})
raw_img = urllib2.urlopen(req).read()
if not os.path.exists(DIR):
os.mkdir(DIR)
cntr = len([i for i in os.listdir(DIR) if image_type in i]) + 1
print cntr
if len(Type)==0:
f = open(DIR + image_type + "_"+ str(cntr)+".jpg", 'wb')
else :
f = open(DIR + image_type + "_"+ str(cntr)+"."+Type, 'wb')
f.write(raw_img)
f.close()
except Exception as e:
print "could not load : "+img
print e

je suis re poster ma solution ici la solution originale que j'avais posté sur la question suivante
https://stackoverflow.com/a/28487500/2875380

OriginalL'auteur rishabhr0y

0

Comment au sujet de l'utilisation de cette bibliothèque?google-images-télécharger

Pour quiconque cherche toujours une manière décente pour télécharger 100s d'images, peuvent utiliser cet argument de ligne de commande code.

OriginalL'auteur Hardik Vasa

-1

il y a d'autres bibliothèques sur github - ce qui semble tout à fait bonne
https://github.com/Achillefs/google-cse

g = GoogleCSE.image_search('Ian Kilminster')
img = g.fetch.results.first.link
file = img.split('/').last
File.open(file,'w') {|f| f.write(open(img).read)} 
`open -a Preview #{file}`

OriginalL'auteur johndpope

Vous devez vous connecter pour publier un commentaire.