Ce que PHP web crawler bibliothèques sont disponibles?

Je suis à la recherche pour certains robuste, bien documenté PHP web crawler scripts. Peut-être un PHP port de projet Java - http://wiki.apache.org/nutch/NutchTutorial

Je suis à la recherche à la fois libre et non des versions gratuites.

Pas de robot va faire les données de grattage, c'est quelque chose que vous allez avoir à écrire vous-même. Et aussi assurez-vous que vous soulevez n'est pas de droit d'auteur.
Double Possible de les Meilleures Méthodes pour analyser HTML
Supplémentaire possible les doublons dans stackoverflow.com/search?q=web+crawler+php
désolé je n'ai pas besoin d'aide pour l'analyse de code html.
Si vous n'avez pas besoin de l'aide de l'analyse syntaxique HTML, vous devriez peut-être préciser ce que vous êtes après. Le analysées HTML ne sera pas magiquement se transformer en morceaux que vous jugez important. Il devra être analysée. Veuillez mettre à jour votre question pour souligner ce que vous cherchez ou au moins ce que vous ne cherchez pas. En outre, s'il vous plaît aller à travers la liés résultats de recherche et de voir si elles contiennent des conseils utiles. Si vous avez encore des questions ensuite, pointez dans votre question. En d'autres termes: stackoverflow.com/questions/ask-advice

OriginalL'auteur Jason | 2011-01-30

php web-crawler

4

Juste donner Snoopy un essai.

Extrait: "Snoopy est une classe PHP qui permet de simuler un navigateur web. Il automatise les tâches de récupération de contenu de page web et l'affichage des formulaires, par exemple."

L'homme désolé, je sais que c'est un vieux post, mais les gens toujours lire cette réponse et je downvoted parce que Snoopy utilise les Regex pour analyser le code HTML et it n'est pas cool...

OriginalL'auteur Mimikry
4

https://github.com/fabpot/Goutte est aussi une bonne bibliothèque compatible avec le psr-0 standard.

OriginalL'auteur Ajay Patel
2

Vous pouvez utiliser PHP Simple HTML DOM Parser . C'est vraiment simple et utile.

Suggéré tiers des alternatives à la SimpleHtmlDom qui en fait utiliser les DOM au lieu de traitement de Chaîne: phpQuery, Zend_Dom, QueryPath et FluentDom.

OriginalL'auteur Eray
2

J'ai été en utilisant Simple HTML DOM pendant environ 3 ans avant que je découvre phpQuery. C'est beaucoup plus rapide, pas de travail de manière récursive (vous pouvez en fait un dump) et a un support complet pour les sélecteurs jQuery et méthodes.

Nan, ils sont des sélecteurs jQuery. À partir de jQuery.com: "Emprunt de CSS 1-3), puis en ajoutant sa propre, jQuery propose un ensemble puissant d'outils pour la mise en correspondance d'un ensemble d'éléments dans un document."
Hmm, d'accord. Elles s'étendent sur les sélecteurs CSS. Je suppose que c'est valable distinction ensuite. Désolé. J'ai rarement vu des gens se servir de quelque chose qui n'est pas dans l'ensemble des sélecteurs CSS quand ils parlent de jQuery sélecteurs. Ils font sonner comme jQuery inventé.
ouais, je h8 "comme nous l'avons inventé" partie trop 🙂 Plus d'infos au sizzlejs.com

OriginalL'auteur Kemo

Il y a un grand tutoriel ici qui combine guzzlehttp et symfony/dom-robot

Dans le cas où le lien est perdu ici, c'est le code que vous pouvez utiliser.

use Guzzle\Http\Client;
use Symfony\Component\DomCrawler\Crawler;
use RuntimeException;

//create http client instance
$client = new GuzzleHttp\ClientClient('http://download.cloud.com/releases');

//create a request
$response = $client->request('/3.0.6/api_3.0.6/TOC_Domain_Admin.html');

//get status code
$status = $response->getStatusCode();

//this is the response body from the requested page (usually html)
//$result = $response->getBody();

//crate crawler instance from body HTML code
$crawler = new Crawler($response->getBody(true));

//apply css selector filter
$filter = $crawler->filter('div.apismallbullet_box');
$result = array();

if (iterator_count($filter) > 1) {

    //iterate over filter results
    foreach ($filter as $i => $content) {

        //create crawler instance for result
        $cralwer = new Crawler($content);
        //extract the values needed
        $result[$i] = array(
            'topic' => $crawler->filter('h5')->text();
            'className' => trim(str_replace(' ', '', $result[$i]['topic'])) . 'Client'
        );
    }
} else {
    throw new RuntimeException('Got empty result processing the dataset!');
}

OriginalL'auteur Harish NInge Gowda

1

si vous pensez à une forte composante de base de donner un essai à http://symfony.com/doc/2.0/components/dom_crawler.html

c'est incroyable, avoir une des caractéristiques comme sélecteur css.

OriginalL'auteur Ajay Patel
1

Je sais que c'est un peu vieille question. Beaucoup de bibliothèques utiles est sorti depuis.

Donner un coup de feu à Crawlzone. Il est rapide, bien documenté, asynchrone internet ramper cadre avec beaucoup de fonctionnalités intéressantes:
- Asynchrone ramper avec personnalisable simultanéité.
- Automatiquement la limitation de ramper vitesse en fonction de la charge du site web que vous analysez.
- Si configuré, filtre automatiquement les demandes interdit par la robots.txt l'exclusion standard.
- Simple système middleware permet d'ajouter des en-têtes, d'extraire des données, de filtre ou de brancher n'importe quelle des fonctionnalités personnalisées à la demande et la réponse.
- Riches fonctionnalités de filtrage.
- Capacité à mettre en rampant profondeur
- Facile à étendre le noyau en accrochant dans le processus d'exploration à l'aide d'événements.
- Arrêter robot tout temps et de recommencer sans perdre le progrès.
Également consulter l'article que j'ai écrit à ce sujet:

https://www.codementor.io/zstate/this-is-how-i-crawl-n98s6myxm

OriginalL'auteur zstate
-2

Personne n'a mentionné wget comme un bon point de départ?.
```
wget -r --level=10 -nd http://www.mydomain.com/
```
@ Plus http://www.erichynds.com/ubuntulinux/automatically-crawl-a-website-looking-for-errors/

OriginalL'auteur dsomnus

Vous devez vous connecter pour publier un commentaire.