Comment explorer un site web / extraire des données dans une base de données avec python?
J'aimerais construire une webapp pour aider d'autres étudiants de mon université créer leurs horaires. Pour ce faire j'ai besoin d'analyser les schémas directeurs (un énorme page html) ainsi qu'un lien pour une description détaillée pour chaque cours dans une base de données, de préférence en python. Aussi, j'ai besoin de vous connecter pour accéder à ces données.
- Comment cela fonctionnerait-il?
- Quels outils/bibliothèques/dois-je utiliser?
- Sont là de bons tutoriels sur cette?
- Comment puis-je mieux faire face à des données binaires (par exemple, joli pdf)?
- Le sont déjà de bonnes solutions pour que?
source d'informationauteur McEnroe
Vous devez vous connecter pour publier un commentaire.
demande
pour télécharger les pages.lxml
pour gratter les données.Si vous souhaitez utiliser un puissant grattage cadre il y a
Scrapy
. Il a une bonne documentation. Il est peut-être un peu exagéré en fonction de votre tâche.Scrapy est probablement la meilleure bibliothèque Python pour l'analyse. Il peut maintenir l'état pour les sessions authentifiées.
Traiter avec des données binaires doivent être traités séparément. Pour chaque type de fichier, vous devrez gérer différemment selon votre propre logique. Pour presque n'importe quel genre de format, vous serez probablement en mesure de trouver une bibliothèque. Par exemple, jetez un oeil à PyPDF pour la manipulation de fichiers Pdf. Pour les fichiers excel, vous pouvez essayer xlrd.
J'ai apprécié l'utilisation BeatifulSoup pour l'extraction des données html
C'est aussi simple que cela:
Pour cela, il existe un outil très utile appelé web-récolte
Lien vers leur site web http://web-harvest.sourceforge.net/
Je l'utilise pour analyser les pages web