L'accaparement du texte à partir d'une page web
Je voudrais écrire un programme qui vous permettra de trouver l'arrêt de bus de fois et de mettre à jour mon site personnel en conséquence.
Si je devais le faire manuellement je
- Visite www.calgarytransit.com
- Entrez un numéro de l'arrêt. ie) 9510
- Cliquez sur le bouton "next bus"
Les résultats peuvent se présenter comme suit:
10:16p Route 154
10:46p Route 154
11:32p Route 154
Une fois que j'ai attrapé le temps et les routes alors je vais mettre à jour ma page en conséquence.
Je n'ai aucune idée par où commencer. Je sais diddly squat sur la programmation web, mais peut l'écrire en C et en Python. Quels sont les sujets et les bibliothèques que je puisse voir?
OriginalL'auteur vinc456 | 2009-01-07
Vous devez vous connecter pour publier un commentaire.
Belle Soupe est une bibliothèque Python conçu pour l'analyse des pages web. Entre elle et urllib2 (urllib.demande en Python 3) vous devriez être en mesure de comprendre ce dont vous avez besoin.
+1 pour la Belle Soupe.
-1: urllib. Devrait être urllib2.
Doh, vous avez raison. Corrigé, et j'ai aussi ajouté un lien vers urllib.demande de Py3k.
J'ai eu des problèmes de déploiement d'un analyseur développé avec BeautifulSoup-3.0.x pour une Ubuntu 10.04 système - il toujours d'étranglement lors de l'analyse d'entrée. S'avère Lucid Lynx est livré avec BeautifulSoup-3.1.0.1 qui n'est pas exactement une bonne version (crummy.com/software/BeautifulSoup/3.1-problems.html). Résolu d'expédition de ma version de BS (3.0.x) avec mon programme.
OriginalL'auteur Jeremy
Ce que vous demandez est appelé "web scraping." Je suis sûr que si vous avez autour de google, vous trouverez quelques trucs, mais l'idée centrale est que vous voulez ouvrir une connexion au site web, puisent dans le code HTML, l'analyser et d'identifier les morceaux que vous voulez.
La Python Wiki a un bon beaucoup de choses sur ce.
OriginalL'auteur Charlie Martin
Puisque vous écrivez en C, vous voudrez peut-être vérifier cURL; en particulier, jetez un oeil à libcurl. C'est génial.
OriginalL'auteur
Vous pouvez utiliser le mécaniser la bibliothèque est disponible pour Python http://wwwsearch.sourceforge.net/mechanize/
OriginalL'auteur cheeming
Vous pouvez utiliser Perl pour vous aider à remplir votre tâche.
Votre responce objet peut vous dire si il réussi ainsi que le retour par le contenu de la page.Vous pouvez également utiliser cette même bibliothèque poster sur une page.
Voici un peu de documentation. http://metacpan.org/pod/LWP::UserAgent
OriginalL'auteur J.J.
Que le site ne marche pas offrir une API pour que vous puissiez être en mesure d'obtenir les données dont vous avez besoin. Dans ce cas, vous aurez besoin de parser le HTML de la page renvoyée par, par exemple, une demande CURL .
OriginalL'auteur Luca Matteis
Ce qui est appelé Web grattage, et il a même son propre Article de Wikipedia où vous pouvez trouver de plus amples informations.
Aussi, vous pouvez trouver plus de détails dans cette DONC la discussion.
OriginalL'auteur splintor
Aussi longtemps que la mise en page de la page web de votre tentative de 'gratter' ne marche pas, changer régulièrement, vous devriez être en mesure d'analyser le code html avec tout de jour moderne langage de programmation.
OriginalL'auteur Jobo