Ce qui est un bon outil Web Crawler
- Je faire indexer beaucoup de pages web, à quoi bon webcrawler utilitaires? Je suis de préférence après quelque chose qui .NET peut parler, mais ce n'est pas un écueil.
Ce que j'ai vraiment besoin, c'est quelque chose que je peux donner une url de site & il permettra de suivre tous les liens et de stocker le contenu pour l'indexation.
Vous pouvez utiliser crawler4j si vous êtes ok avec l'aide de java. Voici un guide étape par étape pour configurer crawler4j avec l'extrait de code pour tirer des images, des liens et des e-mails à l'aide de que - buggybread.com/2013/01/create-your-own-email-and-image.html
OriginalL'auteur Glenn Slaven | 2008-10-07
Vous devez vous connecter pour publier un commentaire.
HTTrack -- http://www.httrack.com/ -- est un très bon Site, très copieuse. Fonctionne assez bien. L'ai utilisé pendant un long moment.
Nutch est un web crawler(robot est le type de programme que vous cherchez) -- http://lucene.apache.org/nutch/ -- qui utilise un top notch utilitaire de recherche lucene.
OriginalL'auteur anjanb
Crawler4j est un open source Java robot qui fournit une interface simple pour l'analyse du Web. Vous pouvez configurer un multi-thread crawler web en 5 minutes.
Vous pouvez définir votre propre filtre à visiter les pages ou pas (url) et de définir une opération pour chaque analysées page en fonction de votre logique.
Quelques raisons pour choisir crawler4j;
OriginalL'auteur cuneytykaya
Searcharoo.NET contient une araignée que les analyses et les index de contenu, et un moteur de recherche à utiliser. Vous devriez être capable de trouver votre chemin autour de la Searcharoo.Indexer.EXE le code pour intercepter le contenu tel qu'il est téléchargé, et ajouter votre propre code personnalisé à partir de là...
C'est très basique (tout le code source est inclus, et il est expliqué dans six CodeProject articles, dont la plus récente est ici Searcharoo v6): l'araignée suit des liens, des images interactives, des images, obéit à des ROBOTS directives, analyse de certains non-types de fichiers HTML. Il est destiné aux sites web simples (pas l'intégralité du web).
Nutch/Lucene est presque certainement une plus robuste/commercial-grade solution - mais je n'ai pas regardé leur code. Pas sûr de ce que vous êtes désireux d'accomplir, mais avez-vous aussi vu Microsoft Search Server Express?
Avertissement: je suis l'auteur de Searcharoo; il suffit de le proposer ici comme une option.
OriginalL'auteur Conceptdev
Sphider est assez bonne. C'est du PHP, mais il pourrait être de quelque secours.
OriginalL'auteur Darryl Hein
- Je utiliser Mozenda Web de Grattage logiciel. Vous auriez pu facilement il analyse tous les liens et de récupérer toutes les informations dont vous avez besoin et il est un grand
logiciel pour de l'argent.
OriginalL'auteur Amber
Je n'ai pas utilisé encore, mais cette semble intéressant. L'auteur a écrit à partir de zéro et posté la façon dont il l'a fait. Le code est disponible pour le téléchargement.
OriginalL'auteur Dave Neeley