Comment un agrégateur est-il construit?

Disons que je veux agréger les informations liées à un créneau spécifique du marché à partir de nombreuses sources (peut-être les voyages, la technologie, ou quoi que ce soit).
Comment dois-je procéder?

Avoir un robot/robot qui explore le web pour trouver les informations dont j'ai besoin (comment aurais-je dire le robot qu'à l'analyse, car je ne veux pas obtenir tout le web?)?
Un système d'indexation à l'indice et d'organiser les informations que j'ai analysé et aussi un moteur de recherche?

Sont comme les systèmes de Nutch lucene.apache.org/nutch OK d'être utilisées pour ce que je veux? Recommandez-vous autre chose?

Ou pouvez-vous recommander une autre approche?

Par exemple, comment Techmeme.com est-il construit? (c'est un agrégateur de nouvelles technologies et c'est totalement automatisé - seulement récemment, ils ont ajouté quelques intervention humaine).
Que faudrait-il faire pour construire un tel service?

Ou comment faire Kayak.com agréger leurs données? (C'est un voyage agrégateur au service).

source d'informationauteur