Comment concevoir un robot d'indexation web en Java?

Je suis en train de travailler sur un projet qui doit à la conception d'un robot d'indexation web en Java, ce qui peut prendre une requête de l'utilisateur sur un sujet news et ensuite visiter les différents sites web de nouvelles et ensuite extraire le contenu des nouvelles à partir de ces pages et de les stocker dans certains fichiers/bases de données. J'ai besoin de cela pour faire un résumé de l'ensemble des contenus stockés. Je suis nouveau sur ce champ et attendre de l'aide de personnes qui ont de l'expérience comment le faire.

Droit maintenant, j'ai le code pour extraire le contenu des nouvelles à partir d'une seule page qui prend la page manuellement, mais je n'ai aucune idée de comment l'intégrer dans un site web crawler pour extraire le contenu de différentes pages.

Quelqu'un peut-il donner quelques bons liens vers des tutoriels ou des implémentations en Java que je peux utiliser ou modifier en fonction de mes besoins?

OriginalL'auteur dark_shadow | 2012-04-04