Comment obtenir toutes les pages web sur un domaine

Je suis un simple spider web et je me demandais si il existe un moyen qui peut être déclenché dans mon code PHP que je peux obtenir toutes les pages web sur un domaine...

e.g Permet de dire que je voulais obtenir toutes les pages du site web Stackoverflow.com . Cela signifie qu'il désire obtenir:
https://stackoverflow.com/questions/ask
tirant les pages web d'un site pour adultes -- comment obtenir le passé de l'accord de siège?
https://stackoverflow.com/questions/1234214/
Meilleurs Rails Analyseur HTML

Et tous les liens. Comment puis-je obtenir. Ou est-il un API ou RÉPERTOIRE qui peut me permettre d'obtenir que?

Aussi est-il un moyen pour que je puisse obtenir tous les sous-domaines?

Btw, comment les robots d'analyse des sites web qui n'ont pas SiteMaps ou Flux de Syndication?

Acclamations.

Ce que vous demandez est une faille de sécurité importante portable à tous les domaines web. Il peut y avoir un, mais j'espère que vous ne le trouverez pas!
Hahaha...je n'avais aucune idée. Alors comment est-ce que Google Index de pages web si il n'existe pas de telle chose?
Comme vous l'avez peut-être remarqué, il y a BEAUCOUP de pages, qui ne sont pas dans l'index de Google. En gros, si une page est dans l'index de google, il y a un lien. Pas de lien, pas de moteur de recherche. Dans de nombreux cas d'utilisation, ce lien provient du site lui-même et est fourni exactement pour que purpouse.

InformationsquelleAutor William The Dev | 2012-12-17

2

Si un site veut que vous soyez en mesure de le faire, ils vont probablement fournir un Sitemap. En utilisant une combinaison d'un sitemap et en suivant les liens sur les pages, vous devriez être en mesure de parcourir toutes les pages sur un site mais c'est vraiment pour le propriétaire du site, et comment elle est accessible en faire.

Si le site ne pas voulez-vous pour ce faire, il n'y a rien que vous pouvez faire pour le contourner. HTTP ne fournit pas de mécanisme standard pour lister le contenu d'un répertoire.
- Sitemaps ont été introduites en 2005...comment fait Google et Yahoo index des sites avant?
- En suivant des liens sur les pages (en regardant href attributs etc). Beaucoup de ce qui est en bas du site - si vous ne fournissez pas un sitemap et vous ne fournissez pas un bon mécanisme de navigation pour votre site, vous n'obtiendrez pas de bons Google couverture soit.
- Ah...Ok. Donc, ils commencent à partir de index.php et l'espoir que les liens sur la page d'index va conduire à d'autres qui vont entraîner les autres et nous espérons hey peut couvrir l'ensemble du site. L'a obtenu.
- NB: Ne commencez pas à index.php, commencer à / - pas chaque site dispose d'une "index.php" (StackOverflow être un exemple de celui qui n'est pas). Aussi, démarrer avec sitemap.xml (si disponible), pour obtenir une liste de votre base de pages, puis analyser ces pages pour parcourir le reste de votre site. Ce que vous avez rencontré ici est en quelque sorte le point de l'ensemble de la SEO (en autant qu'il n'y a aucun point). Le RÉFÉRENCEMENT est vraiment juste à faire le site navigables par un robot.
- Sitemap.xml ...je ne connaissais pas celui-là. Juste remarqué que de nombreux sites l'ont. Nice. Donc, comme file_get_contents($url) alors que $url est bien comme index.php, index.html, default.php, default.html ... Merci s'accoupler.
- Comme je l'ai dit (en l'absence d'un sitemap) commencent à / (comme dans http://www.domain.com/), plutôt que d'ajouter aléatoire des noms de fichier. / signifie "la page par défaut du site" - eh bien, en fait, il signifie "le répertoire racine", mais 99,999% des sites, soit vous servir d'une page à partir de cette URL ou vous rediriger vers la page par défaut.
- Aussi, si vous allez obtenir dans ce genre de chose, je vous recommande fortement de vous familiariser avec ce document. C'est un peu sec, je l'avoue, mais c'est le plus utile, le document sur l'internet pour un développeur web, à mon humble avis.
- Ses vrai...elle est sèche. Mais il y a beaucoup d'infos utiles. Cheers bro!
- Au fait, comment est-ce que Google les pages d'index qui sont dynamiques? Quelque chose comme ceci website.com/index.php?id=2&p=1 ils sont répertoriés dans le sitemap pour Google d'indexer ou est-ce que Google ne intelligent de remplissage ou de bruteforce où il insère les valeurs possibles de p et id?
- Encore une fois, tout en suivant des liens. Ils n'inventez pas de valeurs pour les paramètres, qui ne serait pas faire de bien à personne. Mais dans l'exemple de l'URL que vous donnez là, j'imagine id est certaine ID de produit ou de quelque chose, et il y aura un lien à partir de la page principale. Et p est sans doute pas de page, donc vous devriez être en mesure d'obtenir à p=2 par suite de la page nav liens sur la page. Tout ce qui n'est pas accessible simplement en suivant les liens de la page principale devrait aller dans le sitemap. Tout ceci est pour le propriétaire du site - c'est ce que le RÉFÉRENCEMENT est basée presque entièrement sur des.
- Donc en bref Google ne peut pas analyser de recherche. Quelque chose comme website.com/index.php?search=productfirstname+productsecondname
- pourrait mais ça ne marche pas, parce que si vous pensez à ce sujet, il serait juste de finir à la "recherche" des trucs pour toujours, car il ne sait pas ce que le site est sur, il sait juste que c'est un ensemble de pages. Chaque fois que vous trouvez Google qui les lient à un ensemble de résultats de recherche sur un site, c'est parce que certaines page quelque part lié à l'ensemble de résultats de recherche.
- Ouais. Vrai. Merci et cheers mate.
InformationsquelleAutor DaveRandom
1

Vous auriez besoin de pirater le serveur désolé.

Ce que vous pouvez faire est que, si vous possédez le domaine http://www.my-domain.com, vous pouvez mettre un fichier PHP, il y que vous utilisez comme une demande sur des fichiers à la demande. Que fichier php, vous aurez besoin de coder une sorte de code qui peut regarder les Dossiers FTP Sage. PHP peut se connecter à un serveur FTP, donc c'est une bonne façon de faire 🙂

http://dk1.php.net/manual/en/book.ftp.php

Vous pouvez le faire avec PHP lire la dirs dossiers et de retour que comme un tableau. Mieux que je puisse faire.

InformationsquelleAutor Daniel
1

Comme vous l'avez dit, vous devez suivre tous les liens.

Pour ce faire, vous devez commencer par la récupération stackoverflow.com facile: file_get_contents ("http:\\stackoverflow.com").

Ensuite d'analyser son contenu, à la recherche de liens: <a href="question/ask">, pas si facile.

Vous stockez ces nouveaux liens dans une base de données et ensuite d'analyser que ceux-après, qui vous donnera une toute nouvelle série d'URL, d'analyser ceux-ci. Assez bientôt vous aurez la grande majorité du contenu du site, y compris des choses comme sub1.stackoverflow.com. Cela s'appelle l'analyse, et il est assez simple à mettre en œuvre, mais pas si simple pour extraire de l'information utile une fois que vous avez toutes les données.

Si vous êtes seulement intéressé dans un domaine particulier, assurez-vous de rejeter des liens vers des sites externes.

InformationsquelleAutor alanboy
0

Pas de, pas de la façon que vous vous posez.

Toutefois, si vous avez un objectif clair à l'esprit, vous pouvez être en mesure de:
- utiliser un "primaire" demande pour obtenir les objets d'intérêt. Certains sites fournissent JSON, XML, ... des api pour dresser la liste de ces objets (e.g DONC une liste de questions de cette façon). Ensuite, utilisez le "par objet" demande pour récupérer des informations spécifiques à un objet
- récupérer des informations à partir d'autres (ou a payé) sources, par exemple des moteurs de recherche, annuaires, "médico-légale" des outils tels que SpyOnWeb
- d'inverser la structure du site, par exemple, vous savez que /item/<id> vous mène à la page de l'élément dont l'ID est <id>
- demander au webmaster
Veuillez noter que certaines de ces solutions peuvent être en violation de l'termes d'utilisation. De toute façon ce sont juste des pointeurs, sur le dessus de ma tête.

InformationsquelleAutor
0

Vous pouvez utiliser WinHTTPTack/. Mais c'est une politesse de ne pas le marteau d'autres peuples sites web.

Je viens de l'utiliser pour trouver les liens cassés et de faire une capture d'écran.

Si vous ne commencer à marteler les autres peuples sites qu'ils vont prendre des mesures. Certains d'entre eux ne sera pas beau (c'est à dire le marteau de la vôtre).

Juste être poli.
- Nah...je ne suis pas en train d'enregistrer des copies locales pour la navigation hors ligne mate, je pense à comment faire une toile d'araignée.
- Et leur site semble être à la baisse.
- Il est travaillé pour moi. L'OP est effectivement récupérer une copie locale. Peut-être jeter quand vous êtes fait. Google s'empare d'une page sur sa machine. L'entreprise et puis, mandrins loin.
InformationsquelleAutor Ed Heal

Vous devez vous connecter pour publier un commentaire.