Comment puis-je écran gratter avec Perl?
J'ai besoin d'afficher certaines valeurs qui sont stockées dans un site web, pour cela j'ai besoin de gratter le site et aller chercher le contenu de la table. Des idées?
OriginalL'auteur |
Vous devez vous connecter pour publier un commentaire.
Si vous êtes familier avec jQuery, vous pourriez vouloir vérifier pQuery, ce qui le rend très facile:
Il y a aussi HTML::DOM.
Ce que vous faites, cependant, ne pas utiliser des expressions régulières pour cela.
OriginalL'auteur Paolo Bergantino
J'ai utilisé Tableau HTML Extrait dans le passé.
Personnellement, je la trouve un peu lourde à utiliser, mais peut-être que je n'ai pas compris le modèle d'objet.
J'ai l'habitude d'utiliser cette partie du manuel d'examiner les données:
OriginalL'auteur
Bien que j'ai généralement fait avec LWP/LWP::Simple, le courant 'préféré' module pour n'importe quelle sorte de page web de grattage en Perl est WWW::Mechanize.
WWW::Mechanize est pour toute sorte d'interaction avec un site web. Il n'a jamais été visée uniquement à des tests automatisés.
Cependant, le Test::WWW::Mechanize est visée uniquement à des tests automatisés. C'est un wrapper autour de WWW::Mechanize.
OriginalL'auteur
Si vous êtes familier avec XPath, vous pouvez également utiliser HTML:: "TreeBuilder":: XPath. Et si vous n'êtes pas... eh bien, vous devriez être ;--)
OriginalL'auteur
Vous pouvez également utiliser ce simple module perl WEB::Grattoir, c'est simple à comprendre et à rendre la vie facile pour moi. suivre cet exemple pour plus d'informations.
http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
OriginalL'auteur
Similaires Stackoverflow questions ont un oeil à....
Je fais comme à l'aide de pQuery pour des choses comme cela, cependant Web::Grattoir a l'air intéressant.
OriginalL'auteur
Je ne veux pas le glisser jusqu'à une mort fil, mais quelqu'un googler à travers ce fil devrait aussi checkout WWW::Scripter - 'Pour les scripts des sites web qui ont des scripts
heureux de données à distance de l'agrégation 😉
OriginalL'auteur
Prendre un coup d'oeil à la magie Web::Grattoir, c'est LA outil pour le web scraping.
OriginalL'auteur
- Je utiliser LWP::UserAgent pour la plupart de ma capture d'écran besoins. Vous pouvez également coupler cela avec HTTP::Cookies si vous avez besoin de Cookies soutien.
Voici un exemple simple sur la façon d'obtenir la source.
OriginalL'auteur
Découvrez ce petit exemple de web scraping avec perl:
texte du lien
OriginalL'auteur