miroir http site web, à l'exclusion de certains fichiers
J'aimerais miroir un simple mot de passe-protégés portail web, certaines données que j'aimerais garder miroir & up-to-date. Essentiellement, ce site est juste une liste de répertoire avec des données organisées dans des dossiers & je n'ai pas vraiment de soins au sujet de garder les fichiers html & d'autres éléments de mise en forme.
Cependant, il existe de nombreux types de fichiers qui sont trop gros pour le télécharger, donc je veux les ignorer.
À l'aide de la wget -m -R/--reject
drapeau près ce que je veux, sauf que tous les fichiers téléchargés, puis si elles correspondent à l'-R drapeau, alors qu'ils sont supprimés.
Voici comment j'utilise wget
:
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
Qui produit une sortie comme ça, confirmant qu'un fichier exclus (index.html) (un) est téléchargé, et (b) puis est supprimé:
...
--2012-05-23 09:38:38-- http://web.server.org/folder/
La réutilisation de connexion web.serveur.org:80.
Requête HTTP envoyée, dans l'attente de la réponse... 401 Authorization required
La réutilisation de connexion web.serveur.org:80.
Requête HTTP envoyée, dans l'attente de la réponse... 200 OK
Longueur: 2677 (2.6 K) [text/html]
Enregistrement: `web.server.org/folder/index.html'
100%[======================================================================================================================>] 2,677 --.-K/s en 0s- Tête Last-modified manquantes-temps-des timbres éteint.
2012-05-23 09:38:39 (328 MO/s) - "le web.server.org/folder/index.html" sauvé [2677/2677]La suppression web.server.org/folder/index.html depuis, elle devrait être rejetée.
...
est-il un moyen de forcer wget pour rejeter le fichier avant de le télécharger?
Est-il une alternative à prendre en compte?
Aussi, pourquoi dois-je obtenir un 401 Authorization Required
d'erreur pour chaque fichier téléchargé, en dépit de la fourniture de nom d'utilisateur & mot de passe. C'est comme wget
essaie de se connecter non-authentifiés à chaque fois, avant de tenter le nom d'utilisateur/mot de passe.
grâce, Marque
OriginalL'auteur drmjc | 2012-05-23
Vous devez vous connecter pour publier un commentaire.
Pavuk (http://www.pavuk.org) regardé comme une alternative prometteuse qui permet de mettre en miroir des sites web, à l'exclusion de fichiers basés sur des modèles url, et les extensions de nom de fichier... mais pavuk 0.9.35 seg-défauts/meurt au hasard au milieu de longs transferts & ne semblent pas être développé activement (cette version a été construite Nov 2008).
Pour info, voici comment je l'utilise:
pavuk -mode mirror -force_reget -preserve_time -progress -Robots -auth_scheme 3 -auth_name x -auth_passwd x -dsfx 'html,bam,bai,tiff,jpg' -dont_leave_site -remove_old -cdir /path/to/root -subdir /path/to/root -skip_url_pattern ’*icons*’ -skip_url_pattern '*styles*' -skip_url_pattern '*images*' -skip_url_pattern '*bam*' -skip_url_pattern '*solidstats*' http://web.server.org/folder 2>&1 | tee pavuk-
date.log
en fin de compte,
wget --exclude-directories
a fait le tour:Depuis le
--exclude-directories
les caractères génériques ne sont pas span '/', vous avez besoin de former vos requêtes très précisément pour éviter le téléchargement des dossiers entiers.Marque
OriginalL'auteur drmjc
Parameter --reject 'pattern'
effectivement travaillé pour moi avec wget 1.14.Par exemple:
Tous les
*.rpm
les fichiers n'ont pas été téléchargés à tous, seuls les index.OriginalL'auteur radzimir
Pas possible avec wget: http://linuxgazette.net/160/misc/lg/how_to_make_wget_exclude_a_particular_link_when_mirroring.html
Bien, je ne suis pas sûr que les versions plus récentes, cependant.
Environ 401 du code, aucun état n'est tenu (cookie n'est utilisé pour l'authentification HTTP), de sorte que le nom d'utilisateur et le mot de passe doit être envoyé avec chaque demande. wget essayer la demande w/o & passer d'abord avant de recourir à elle.
OriginalL'auteur nhahtdh
wget -X directory_to_exclude[,other_directory_to_exclude] -r ftp://URL_ftp_server
wget -X /public_html/vidéos/public_html/audio ftp:SERVER/public_html/*
OriginalL'auteur josejavierfm