Comment explorer un site web / extraire des données dans une base de données avec python?

J'aimerais construire une webapp pour aider d'autres étudiants de mon université créer leurs horaires. Pour ce faire j'ai besoin d'analyser les schémas directeurs (un énorme page html) ainsi qu'un lien pour une description détaillée pour chaque cours dans une base de données, de préférence en python. Aussi, j'ai besoin de vous connecter pour accéder à ces données.

Comment cela fonctionnerait-il?
Quels outils/bibliothèques/dois-je utiliser?
Sont là de bons tutoriels sur cette?
Comment puis-je mieux faire face à des données binaires (par exemple, joli pdf)?
Le sont déjà de bonnes solutions pour que?

source d'informationauteur McEnroe

python web-crawler

11
- demande pour télécharger les pages.
  - Voici un exemple de comment se connecter à un site web et les pages de téléchargement: https://stackoverflow.com/a/8316989/311220
- lxml pour gratter les données.
Si vous souhaitez utiliser un puissant grattage cadre il y a Scrapy. Il a une bonne documentation. Il est peut-être un peu exagéré en fonction de votre tâche.
3

Scrapy est probablement la meilleure bibliothèque Python pour l'analyse. Il peut maintenir l'état pour les sessions authentifiées.

Traiter avec des données binaires doivent être traités séparément. Pour chaque type de fichier, vous devrez gérer différemment selon votre propre logique. Pour presque n'importe quel genre de format, vous serez probablement en mesure de trouver une bibliothèque. Par exemple, jetez un oeil à PyPDF pour la manipulation de fichiers Pdf. Pour les fichiers excel, vous pouvez essayer xlrd.

J'ai apprécié l'utilisation BeatifulSoup pour l'extraction des données html

C'est aussi simple que cela:

from BeautifulSoup import BeautifulSoup 
import urllib

ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')

urls = [item.enclosure['url'] for item in items]

0

Pour cela, il existe un outil très utile appelé web-récolte
Lien vers leur site web http://web-harvest.sourceforge.net/
Je l'utilise pour analyser les pages web

Vous devez vous connecter pour publier un commentaire.