Python/Java script pour télécharger tous .des fichiers pdf à partir d'un site web
Je me demandais si il était possible d'écrire un script qui pourrait aller par programme tout au long d'une page web et télécharger tous .fichier pdf liens automatiquement. Avant de commencer à essayer sur mon propre, je veux savoir si oui ou non cela est possible.
Ce qui concerne
C'est certainement possible.
OriginalL'auteur sudobangbang | 2014-02-15
Vous devez vous connecter pour publier un commentaire.
Oui c'est possible.
pour le téléchargement des fichiers pdf, vous n'avez même pas besoin d'utiliser de Belles Soupe ou Scrapy.
Téléchargement de python est très simple
Construire une liste de tous les linkpdf liens & télécharger
Référence à la façon de construire une liste de liens:
http://www.pythonforbeginners.com/code/regular-expression-re-findall
Si vous avez besoin de ramper à travers plusieurs pages liées, alors peut-être l'un des cadres pourrait aider
Si vous êtes prêt à construire votre propre robot voici un excellent tutoriel, qui btw est aussi une bonne introduction à Python.
https://www.udacity.com/course/viewer#!/c-cs101
OriginalL'auteur kender99
Oui, c'est possible.
En python, c'est simple;
urllib
vous aidera à télécharger des fichiers à partir de net.Par exemple:
Maintenant, vous avez besoin de faire un script qui vous permettra de trouver des liens se terminant par .pdf.
Exemple de page html :
Voici un lien
Vous devez télécharger la page html et l'utilisation d'un htmlparser ou utiliser une expression régulière.
OriginalL'auteur aovbros
Oui, c'est possible. Ceci est appelé le web scraping. Pour Python, il y a différentes formules pour aider à cela, y compris scrapy, beautifulsoup, mécaniser, ainsi que de nombreux autres.
OriginalL'auteur Will
Utilisation
urllib
de téléchargement de fichiers. Par exemple:Exemple de script pour trouver des liens se terminant par .pdf:
https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/DownloadSamplePapers.py
OriginalL'auteur Laxman