Comment obtenir toutes les pages web sur un domaine

Je suis un simple spider web et je me demandais si il existe un moyen qui peut être déclenché dans mon code PHP que je peux obtenir toutes les pages web sur un domaine...

e.g Permet de dire que je voulais obtenir toutes les pages du site web Stackoverflow.com . Cela signifie qu'il désire obtenir:
https://stackoverflow.com/questions/ask
tirant les pages web d'un site pour adultes -- comment obtenir le passé de l'accord de siège?
https://stackoverflow.com/questions/1234214/
Meilleurs Rails Analyseur HTML

Et tous les liens. Comment puis-je obtenir. Ou est-il un API ou RÉPERTOIRE qui peut me permettre d'obtenir que?

Aussi est-il un moyen pour que je puisse obtenir tous les sous-domaines?

Btw, comment les robots d'analyse des sites web qui n'ont pas SiteMaps ou Flux de Syndication?

Acclamations.

  • Ce que vous demandez est une faille de sécurité importante portable à tous les domaines web. Il peut y avoir un, mais j'espère que vous ne le trouverez pas!
  • Hahaha...je n'avais aucune idée. Alors comment est-ce que Google Index de pages web si il n'existe pas de telle chose?
  • Comme vous l'avez peut-être remarqué, il y a BEAUCOUP de pages, qui ne sont pas dans l'index de Google. En gros, si une page est dans l'index de google, il y a un lien. Pas de lien, pas de moteur de recherche. Dans de nombreux cas d'utilisation, ce lien provient du site lui-même et est fourni exactement pour que purpouse.