Ce que PHP web crawler bibliothèques sont disponibles?
Je suis à la recherche pour certains robuste, bien documenté PHP web crawler scripts. Peut-être un PHP port de projet Java - http://wiki.apache.org/nutch/NutchTutorial
Je suis à la recherche à la fois libre et non des versions gratuites.
Pas de robot va faire les données de grattage, c'est quelque chose que vous allez avoir à écrire vous-même. Et aussi assurez-vous que vous soulevez n'est pas de droit d'auteur.
Double Possible de les Meilleures Méthodes pour analyser HTML
Supplémentaire possible les doublons dans stackoverflow.com/search?q=web+crawler+php
désolé je n'ai pas besoin d'aide pour l'analyse de code html.
Si vous n'avez pas besoin de l'aide de l'analyse syntaxique HTML, vous devriez peut-être préciser ce que vous êtes après. Le analysées HTML ne sera pas magiquement se transformer en morceaux que vous jugez important. Il devra être analysée. Veuillez mettre à jour votre question pour souligner ce que vous cherchez ou au moins ce que vous ne cherchez pas. En outre, s'il vous plaît aller à travers la liés résultats de recherche et de voir si elles contiennent des conseils utiles. Si vous avez encore des questions ensuite, pointez dans votre question. En d'autres termes: stackoverflow.com/questions/ask-advice
Double Possible de les Meilleures Méthodes pour analyser HTML
Supplémentaire possible les doublons dans stackoverflow.com/search?q=web+crawler+php
désolé je n'ai pas besoin d'aide pour l'analyse de code html.
Si vous n'avez pas besoin de l'aide de l'analyse syntaxique HTML, vous devriez peut-être préciser ce que vous êtes après. Le analysées HTML ne sera pas magiquement se transformer en morceaux que vous jugez important. Il devra être analysée. Veuillez mettre à jour votre question pour souligner ce que vous cherchez ou au moins ce que vous ne cherchez pas. En outre, s'il vous plaît aller à travers la liés résultats de recherche et de voir si elles contiennent des conseils utiles. Si vous avez encore des questions ensuite, pointez dans votre question. En d'autres termes: stackoverflow.com/questions/ask-advice
OriginalL'auteur Jason | 2011-01-30
Vous devez vous connecter pour publier un commentaire.
Juste donner Snoopy un essai.
Extrait: "Snoopy est une classe PHP qui permet de simuler un navigateur web. Il automatise les tâches de récupération de contenu de page web et l'affichage des formulaires, par exemple."
OriginalL'auteur Mimikry
https://github.com/fabpot/Goutte est aussi une bonne bibliothèque compatible avec le psr-0 standard.
OriginalL'auteur Ajay Patel
Vous pouvez utiliser PHP Simple HTML DOM Parser . C'est vraiment simple et utile.
OriginalL'auteur Eray
J'ai été en utilisant Simple HTML DOM pendant environ 3 ans avant que je découvre phpQuery. C'est beaucoup plus rapide, pas de travail de manière récursive (vous pouvez en fait un dump) et a un support complet pour les sélecteurs jQuery et méthodes.
Hmm, d'accord. Elles s'étendent sur les sélecteurs CSS. Je suppose que c'est valable distinction ensuite. Désolé. J'ai rarement vu des gens se servir de quelque chose qui n'est pas dans l'ensemble des sélecteurs CSS quand ils parlent de jQuery sélecteurs. Ils font sonner comme jQuery inventé.
ouais, je h8 "comme nous l'avons inventé" partie trop 🙂 Plus d'infos au sizzlejs.com
OriginalL'auteur Kemo
Il y a un grand tutoriel ici qui combine guzzlehttp et symfony/dom-robot
Dans le cas où le lien est perdu ici, c'est le code que vous pouvez utiliser.
OriginalL'auteur Harish NInge Gowda
si vous pensez à une forte composante de base de donner un essai à http://symfony.com/doc/2.0/components/dom_crawler.html
c'est incroyable, avoir une des caractéristiques comme sélecteur css.
OriginalL'auteur Ajay Patel
Je sais que c'est un peu vieille question. Beaucoup de bibliothèques utiles est sorti depuis.
Donner un coup de feu à Crawlzone. Il est rapide, bien documenté, asynchrone internet ramper cadre avec beaucoup de fonctionnalités intéressantes:
Également consulter l'article que j'ai écrit à ce sujet:
https://www.codementor.io/zstate/this-is-how-i-crawl-n98s6myxm
OriginalL'auteur zstate
Personne n'a mentionné wget comme un bon point de départ?.
@ Plus http://www.erichynds.com/ubuntulinux/automatically-crawl-a-website-looking-for-errors/
OriginalL'auteur dsomnus