Comment gérez-vous avec PhantomJS
Je suis en train d'essayer de tirer parti de PhantomJS et l'araignée l'ensemble d'un domaine. Je veux commencer à la racine de domaine par exemple www.domain.com - tirez sur tous les liens (un.href) et puis avoir que de l'extraction de chaque de nouveaux liens et de l'ajout de nouveaux liens pour le québec si elles n'ont pas été analysé ou au québec.
Des Idées, De L'Aide?
Merci d'avance!
source d'informationauteur John Murch
Vous devez vous connecter pour publier un commentaire.
Vous pourriez être intéressé à vérifier Pjscrape (avertissement: ceci est mon projet), de l'Open Source de grattage bibliothèque construite au sommet de PhantomJS. Il a un support intégré pour la recherche des pages et en raclant les informations de chaque mesure qu'il progresse. Vous pourriez araignée d'un site entier, en regardant chaque ancre de lien, avec un petit script comme ceci:
Par défaut, ce va sauter les pages déjà visités et seulement de suivre les liens sur le domaine actuel, bien que ces dernières puissent à la fois être modifié dans vos paramètres.
C'est une vieille question, mais pour la mise à jour, un impressionnant moderne réponse est http://www.nightmarejs.org/ ( github: https://github.com/segmentio/nightmare )
Citant un exemple éloquent à partir de leur page d'accueil:
RAW PHANTOMJS:
AVEC CAUCHEMAR:
Tout d'abord, sélectionnez tous les points de contrôle sur la page d'index et de faire une liste de la href valeurs. Vous pouvez soit le faire avec PhantomJS document sélecteur ou avec des sélecteurs jQuery. Ensuite, pour chaque page, faites la même chose jusqu'à ce qu'une page ne contient plus de nouveaux liens. Vous devriez avoir une liste de tous les liens et une liste de liens pour chaque page afin d'être en mesure de déterminer si un lien a déjà été traité. Vous pouvez penser de l'analyse web comme un arbre. Le nœud racine de l'arbre est la page d'index et de l'enfant les nœuds sont les pages liées à la page d'index. Chaque nœud enfant peut avoir un ou plusieurs enfants selon les liens que l'enfant pages contiennent. J'espère que cette aide.