Web Scraping avec Scala

Demandais juste si quelqu'un connaît un site web de grattage de la bibliothèque qui prend avantage de la Scala succincte de la syntaxe. Jusqu'à présent, j'ai trouvé Chafe, mais cela semble mal documentés et mis à jour. Je me demandais si quelqu'un là-bas a fait racler avec Scala et a des conseils. (Je suis en train de l'intégrer dans un Scala cadre plutôt que d'utiliser un grattoir écrit, par exemple, Python.)

Le racleur de libs qui peu travaillé pour moi sont httpunit et interface htmlunit. Mais ils sont les bibliothèques Java et non explicitement Scala.
Lorsqu'ils sont confrontés à un problème similaire, j'ai trouvé ce Scala HTML bibliothèque utile. C'est un peu vieux, mais encore a fait le tour pour moi. J'ai enveloppé avec un TAS de construire ici. HTH
Juste pour informer que j'ai écrit un souteneur Jsoup: github.com/filosganga/ssoup
J'ai écrit un DSL pour construire de grattage Akka acteur systèmes, il utilise JSoup et de jet-client sous le capot. Le DSL fourni manipule un immuable contexte (inspiré par pulvérisation de routage), on peut trouver ici: github.com/bfil/scalescrape
J'aime vraiment cet article montrant comment le faire racler avec akka: foat.me/articles/ramper avec akka

InformationsquelleAutor Michael Tingley | 2013-02-07

12

Il y a d'abord une pléthore de HTML de grattage libs dans la JVM tout ce que vous devez faire est de pimp un d'entre eux (pimp my bibliothèque de modèle).

Les quatre que j'ai utilisé sont:
- Interface htmlunit - Va émuler le navigateur et même d'exécuter Javascript
- Jéricho - Préserve la mise en forme et de idéal si vous souhaitez modifier la raclée HTML
- NekoHtml
- JSoup -- ~~ne fonctionne pas avec Scala~~. Pourrait fonctionner
J'ai utilisé le Sélénium, mais jamais pour le grattage. Scala est un wrapper autour de sélénium.

Je recommanderais le proxénétisme existant Java bibliothèque de plus de la moitié cuit Scala lib.
- "mi cuit Scala", peut-être deux fois aussi bon que "(plus) cuit au four java" si.
- Eh bien, si son sur des oui. Personne n'aime brûlé les cookies 🙂 .... Puis à nouveau, vous ne pouvez pas obtenir de salmonella provenant de plus de biscuits comme vous pouvez partir en vertu de biscuits 🙂 . Peu importe, je pense toujours que vous ne devriez pas jouer de la langue biais notamment depuis Groovy, Scala et Clojure sont bons à interagir avec les Java. En plus de Java 8 est hors, alors j'espère que il y aura de moins en moins au fil de la cuisson.
- Ces jours, il est également scala-grattoir de la bibliothèque qui est un wrapper autour de JSoup. Il apporte tout à fait pratique de la syntaxe pour l'extraction de données à partir de pages html.
InformationsquelleAutor Adam Gent
8

Je n'ai pas de Scala-recommandation spécifique, mais pour la JVM en général, j'ai eu un bon succès avec:
- JSoup Vous pouvez les sélecteurs CSS pour "gratter" le document. Vraiment agréable de travailler avec.
- Utilisation Tagsoup pour obtenir votre entrée HTML, XML, puis utiliser les processeurs XML pour "Gratter".
La Tagsoup itinéraire fonctionne très bien avec Scala depuis Scala XML intégré "dsl" est assez concis (si vous pouvez pardonner ses perf questions et occasionnel de l'API étrangeté). Aussi, Tagsoup va gérer presque toutes les ordures de document que vous donnez. Il a aussi des subtilités comme intégré dans la compréhension de nombreuses entités HTML que d'autres SAXParsers va s'étouffer comme étant non déclarées.

tl;dr - JSoup + sélecteurs CSS si possible, sinon Tagsoup + scala XML. Si lent, c'est ok, tagsoup d'abord, puis jsoup le résultat.
- Pour info la dernière fois que j'ai vérifié JSoup ne fonctionne pas avec Scala: issues.scala-lang.org/browse/SI-3809
- Bizarre. Je suis avec succès à l'aide de JSoup 1.7.1 dans un projet avec scala 2.9.2. Il est possible que mon utilisation de il ne déclenche pas la question (?)
- Probablement. Nous avons trouvé ces la manière dure et je n'ai plus le code. En fait, malheureusement, c'était l'une des nombreuses raisons pour lesquelles nous avons cessé d'utiliser Scala 🙁
- Ressemble à la JSoup auteur fixe la Scala question de quelques années en arrière: github.com/jhy/jsoup/pull/54
- Putain ce un rappel de combien de temps sa fait. Si je me souviens bien, je ne pense même pas à la Scala de 2,9 était quand il est arrivé.
InformationsquelleAutor overthink
2

Je le recommande Goose: https://github.com/jiminoc/goose

Il n'est pas aussi générale que vous pourriez avoir besoin, mais si vous êtes en raclant le contenu de l'article à partir de sites populaires, il peut fonctionner hors de la boîte. Il fournit également un cadre pour vous de travailler à partir de, si vous souhaitez étendre leur code afin de couvrir d'autres sites.

InformationsquelleAutor scalapeno

Vous devez vous connecter pour publier un commentaire.