Télécharger tous les fichiers d'un type particulier à partir d'un site web à l'aide de wget

La suite n'a pas de travail. Je ne sais pas pourquoi il ne s'arrête que dans l'url de départ, ne rentrez pas dans les liens de la recherche pour le type de fichier donné.

wget -r -Un .pdf home_page_url

Tout autre moyen de télécharger récursivement tous les fichiers pdf dans un site web. ?

Double Possible de Comment télécharger tous les liens .les fichiers zip sur une page web donnée à l'aide de wget/curl?

OriginalL'auteur Neil | 2013-08-16

1

Il peut être basé sur un robots.txt. Essayez d'ajouter -e robots=off.

D'autres problèmes possibles sont basées sur les cookies d'authentification ou de rejet d'agent de wget.
Voir ces exemples.

EDIT: Le point ".pdf" est faux selon sunsite.univie.ac.au

Essayé, mais même résultat. Ce n'est pas un cookie de site web pour vous. J'ai pu télécharger à l'aide de python urllib ouvert de manière récursive.Peut-être le journal va vous aider. Essentiellement, il téléchargements de la page d'accueil, dit-Retrait <page d'accueil url> depuis elle devrait être rejetée. Frappe alors une page qui n'a pas de liens et de chantiers. Pour les autres liens dans l'espoir de mage ?
Essayé quoi? La suppression de la dot? Ignorant la robots.txt? Ou la simulation d'un navigateur? Ou tous?
Essayé de l'enlever dot et ignorant robot
Pouvez essayer le navigateur. http://www.askapache.com/linux/wget-header-trick.html
Cet utilisateur a eu un problème similaire et il semble qu'il est résolu.

OriginalL'auteur rimrul
1

la cmd suivantes fonctionne pour moi, il va télécharger les images d'un site
```
wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/
```
OriginalL'auteur telehan

Vous devez vous connecter pour publier un commentaire.