Comment un agrégateur est-il construit?
Disons que je veux agréger les informations liées à un créneau spécifique du marché à partir de nombreuses sources (peut-être les voyages, la technologie, ou quoi que ce soit).
Comment dois-je procéder?
Avoir un robot/robot qui explore le web pour trouver les informations dont j'ai besoin (comment aurais-je dire le robot qu'à l'analyse, car je ne veux pas obtenir tout le web?)?
Un système d'indexation à l'indice et d'organiser les informations que j'ai analysé et aussi un moteur de recherche?
Sont comme les systèmes de Nutch lucene.apache.org/nutch OK d'être utilisées pour ce que je veux? Recommandez-vous autre chose?
Ou pouvez-vous recommander une autre approche?
Par exemple, comment Techmeme.com est-il construit? (c'est un agrégateur de nouvelles technologies et c'est totalement automatisé - seulement récemment, ils ont ajouté quelques intervention humaine).
Que faudrait-il faire pour construire un tel service?
Ou comment faire Kayak.com agréger leurs données? (C'est un voyage agrégateur au service).
source d'informationauteur
Vous devez vous connecter pour publier un commentaire.
Cela dépend de l'agrégateur que vous recherchez.
Types:
Typcially un agrégateur est un système de sous-programmes:
De base pour un look découvrez ce: http://en.wikipedia.org/wiki/Aggregator
Il vous donnera un aperçu des agrégateurs en général.
En termes de la façon de construire votre propre agrégateur si vous êtes à la recherche de quelque chose hors de la boîte que vous pouvez obtenir le contenu que TU veux, je te suggère ceci: http://dailyme.com/
Si vous êtes à la recherche d'une base de code /architecture pour CONSTRUIRE votre propre agrégateur de service, je vous suggère de regarder quelque chose de simple - comme: Ouvrir Reddit de http://www.reddit.com/
Vous devez définir ce que votre application va faire. La construction de votre propre site web crawler est un énorme travail que vous avez tendance à garder en ajoutant de nouvelles fonctionnalités, comme vous trouvez que vous avez besoin d'eux... seulement de compliquer votre design, etc...
La construction d'un agrégateur est très différent. Alors qu'un robot récupère simplement les données à traiter plus tard, un agrégateur prend déjà défini les ensembles de données et les met ensemble. Si vous utilisez un agrégateur, vous aurez probablement envie de chercher déjà défini voyage les flux, les flux financiers, les voyages de données, etc... Un agrégateur est plus facile de construire de l'OMI, mais c'est plus limitée.
Si vous, au lieu de cela, vous voulez construire un robot, vous aurez besoin de définir le début des pages, de définir les conditions de la fin (analyse de la profondeur, le temps, etc...) et ainsi de suite et puis encore à traiter les données par la suite (c'est d'agrégation, de résumer et ainsi de suite).