Votre meilleur pari serait d'utiliser Mécaniser.Il peut suivre les liens, formulaires de soumission, tout ce que vous aurez besoin, client web-sage. Par ailleurs, n'utilisez pas les regexes pour analyser le code HTML. L'utilisation d'un analyseur HTML.
7
Si vous voulez quelque chose de plus haut niveau, essayez de wombatqui est ce petit bijou, je l'ai construite sur le dessus de Mécaniser et d'Nokogiri. Il est capable d'analyser des pages et de suivre les liens à l'aide d'un simple et de haut niveau DSL.
6
Je sais que la réponse a été acceptée, mais Hpricot est également très populaire pour l'analyse de code HTML.
Tout ce que vous avez à faire est de prendre un coup d'oeil à la source html des pages et essayer de trouver un XPath ou CSS expression qui correspond à des éléments recherchés, puis utiliser quelque chose comme:
doc.search("//p[@class='posted']")
2
Mechanize est génial. Si vous cherchez à apprendre quelque chose de nouveau, vous pourriez jeter un oeil à Scrubyt: https://github.com/scrubber/scrubyt. Il ressemble à Mécaniser + Hpricot. Je n'ai jamais utilisé, mais il semble intéressant.
1
Nokogiri est grande, mais je trouve la sortie faciles à travailler avec. J'ai écrit un rubis gemme de créer facilement des classes hors HTML: https://github.com/jassa/hyper_api
La HyperAPI gem utilise Nokogiri pour analyser HTML avec les sélecteurs CSS.
E. g.
Post=HyperAPI.new_class do
string title:'div#title'
string body:'div#body'
string author:'#details .author'
integer comments_count:'#extra .comment'do
size
endend# => Post
post =Post.new(html_string)# => #<Post title: 'Hi there!', body: 'This blog post will talk about...', author: 'Bob', comments_count: 74>
Votre meilleur pari serait d'utiliser Mécaniser.Il peut suivre les liens, formulaires de soumission, tout ce que vous aurez besoin, client web-sage. Par ailleurs, n'utilisez pas les regexes pour analyser le code HTML. L'utilisation d'un analyseur HTML.
Si vous voulez quelque chose de plus haut niveau, essayez de wombatqui est ce petit bijou, je l'ai construite sur le dessus de Mécaniser et d'Nokogiri. Il est capable d'analyser des pages et de suivre les liens à l'aide d'un simple et de haut niveau DSL.
Je sais que la réponse a été acceptée, mais Hpricot est également très populaire pour l'analyse de code HTML.
Tout ce que vous avez à faire est de prendre un coup d'oeil à la source html des pages et essayer de trouver un XPath ou CSS expression qui correspond à des éléments recherchés, puis utiliser quelque chose comme:
Mechanize est génial. Si vous cherchez à apprendre quelque chose de nouveau, vous pourriez jeter un oeil à Scrubyt: https://github.com/scrubber/scrubyt. Il ressemble à Mécaniser + Hpricot. Je n'ai jamais utilisé, mais il semble intéressant.
Nokogiri est grande, mais je trouve la sortie faciles à travailler avec. J'ai écrit un rubis gemme de créer facilement des classes hors HTML: https://github.com/jassa/hyper_api
La HyperAPI gem utilise Nokogiri pour analyser HTML avec les sélecteurs CSS.
E. g.