Comment obtenir toutes les pages web sur un domaine
Je suis un simple spider web et je me demandais si il existe un moyen qui peut être déclenché dans mon code PHP que je peux obtenir toutes les pages web sur un domaine...
e.g Permet de dire que je voulais obtenir toutes les pages du site web Stackoverflow.com . Cela signifie qu'il désire obtenir:
https://stackoverflow.com/questions/ask
tirant les pages web d'un site pour adultes -- comment obtenir le passé de l'accord de siège?
https://stackoverflow.com/questions/1234214/
Meilleurs Rails Analyseur HTML
Et tous les liens. Comment puis-je obtenir. Ou est-il un API ou RÉPERTOIRE qui peut me permettre d'obtenir que?
Aussi est-il un moyen pour que je puisse obtenir tous les sous-domaines?
Btw, comment les robots d'analyse des sites web qui n'ont pas SiteMaps ou Flux de Syndication?
Acclamations.
- Ce que vous demandez est une faille de sécurité importante portable à tous les domaines web. Il peut y avoir un, mais j'espère que vous ne le trouverez pas!
- Hahaha...je n'avais aucune idée. Alors comment est-ce que Google Index de pages web si il n'existe pas de telle chose?
- Comme vous l'avez peut-être remarqué, il y a BEAUCOUP de pages, qui ne sont pas dans l'index de Google. En gros, si une page est dans l'index de google, il y a un lien. Pas de lien, pas de moteur de recherche. Dans de nombreux cas d'utilisation, ce lien provient du site lui-même et est fourni exactement pour que purpouse.
Vous devez vous connecter pour publier un commentaire.
Si un site veut que vous soyez en mesure de le faire, ils vont probablement fournir un Sitemap. En utilisant une combinaison d'un sitemap et en suivant les liens sur les pages, vous devriez être en mesure de parcourir toutes les pages sur un site mais c'est vraiment pour le propriétaire du site, et comment elle est accessible en faire.
Si le site ne pas voulez-vous pour ce faire, il n'y a rien que vous pouvez faire pour le contourner. HTTP ne fournit pas de mécanisme standard pour lister le contenu d'un répertoire.
href
attributs etc). Beaucoup de ce qui est en bas du site - si vous ne fournissez pas un sitemap et vous ne fournissez pas un bon mécanisme de navigation pour votre site, vous n'obtiendrez pas de bons Google couverture soit./
- pas chaque site dispose d'une "index.php" (StackOverflow être un exemple de celui qui n'est pas). Aussi, démarrer avec sitemap.xml (si disponible), pour obtenir une liste de votre base de pages, puis analyser ces pages pour parcourir le reste de votre site. Ce que vous avez rencontré ici est en quelque sorte le point de l'ensemble de la SEO (en autant qu'il n'y a aucun point). Le RÉFÉRENCEMENT est vraiment juste à faire le site navigables par un robot./
(comme danshttp://www.domain.com/
), plutôt que d'ajouter aléatoire des noms de fichier./
signifie "la page par défaut du site" - eh bien, en fait, il signifie "le répertoire racine", mais 99,999% des sites, soit vous servir d'une page à partir de cette URL ou vous rediriger vers la page par défaut.website.com/index.php?id=2&p=1
ils sont répertoriés dans le sitemap pour Google d'indexer ou est-ce que Google ne intelligent de remplissage ou de bruteforce où il insère les valeurs possibles de p et id?id
est certaine ID de produit ou de quelque chose, et il y aura un lien à partir de la page principale. Etp
est sans doute pas de page, donc vous devriez être en mesure d'obtenir àp=2
par suite de la page nav liens sur la page. Tout ce qui n'est pas accessible simplement en suivant les liens de la page principale devrait aller dans le sitemap. Tout ceci est pour le propriétaire du site - c'est ce que le RÉFÉRENCEMENT est basée presque entièrement sur des.Vous auriez besoin de pirater le serveur désolé.
Ce que vous pouvez faire est que, si vous possédez le domaine http://www.my-domain.com, vous pouvez mettre un fichier PHP, il y que vous utilisez comme une demande sur des fichiers à la demande. Que fichier php, vous aurez besoin de coder une sorte de code qui peut regarder les Dossiers FTP Sage. PHP peut se connecter à un serveur FTP, donc c'est une bonne façon de faire 🙂
http://dk1.php.net/manual/en/book.ftp.php
Vous pouvez le faire avec PHP lire la dirs dossiers et de retour que comme un tableau. Mieux que je puisse faire.
Comme vous l'avez dit, vous devez suivre tous les liens.
Pour ce faire, vous devez commencer par la récupération stackoverflow.com facile:
file_get_contents ("http:\\stackoverflow.com")
.Ensuite d'analyser son contenu, à la recherche de liens:
<a href="question/ask">
, pas si facile.Vous stockez ces nouveaux liens dans une base de données et ensuite d'analyser que ceux-après, qui vous donnera une toute nouvelle série d'URL, d'analyser ceux-ci. Assez bientôt vous aurez la grande majorité du contenu du site, y compris des choses comme sub1.stackoverflow.com. Cela s'appelle l'analyse, et il est assez simple à mettre en œuvre, mais pas si simple pour extraire de l'information utile une fois que vous avez toutes les données.
Si vous êtes seulement intéressé dans un domaine particulier, assurez-vous de rejeter des liens vers des sites externes.
Pas de, pas de la façon que vous vous posez.
Toutefois, si vous avez un objectif clair à l'esprit, vous pouvez être en mesure de:
utiliser un "primaire" demande pour obtenir les objets d'intérêt. Certains sites fournissent JSON, XML, ... des api pour dresser la liste de ces objets (e.g DONC une liste de questions de cette façon). Ensuite, utilisez le "par objet" demande pour récupérer des informations spécifiques à un objet
récupérer des informations à partir d'autres (ou a payé) sources, par exemple des moteurs de recherche, annuaires, "médico-légale" des outils tels que SpyOnWeb
d'inverser la structure du site, par exemple, vous savez que
/item/<id>
vous mène à la page de l'élément dont l'ID est<id>
demander au webmaster
Veuillez noter que certaines de ces solutions peuvent être en violation de l'termes d'utilisation. De toute façon ce sont juste des pointeurs, sur le dessus de ma tête.
Vous pouvez utiliser WinHTTPTack/. Mais c'est une politesse de ne pas le marteau d'autres peuples sites web.
Je viens de l'utiliser pour trouver les liens cassés et de faire une capture d'écran.
Si vous ne commencer à marteler les autres peuples sites qu'ils vont prendre des mesures. Certains d'entre eux ne sera pas beau (c'est à dire le marteau de la vôtre).
Juste être poli.