Comment empêcher les moteurs de recherche d'explorer tout le site?
Je veux arrêter les moteurs de recherche d'indexer mon site web dans son ensemble.
J'ai une application web pour les membres d'une société à utiliser. C'est hébergé sur un serveur web afin que les employés de la société peuvent y accéder. Personne d'autre (le public) qui en auraient besoin ou le trouver utile.
Si je veux ajouter une autre couche de sécurité (En Théorie) afin d'essayer d'empêcher tout accès non autorisé en supprimant totalement l'accès par tous les moteurs de recherche les robots/robots d'indexation. Ayant l'index de Google de notre site pour le rendre consultable est inutile du point de vue des entreprises et ajoute juste une autre façon pour un hacker pour trouver le site web dans la première place pour tenter de le pirater.
Je sais que dans la robots.txt
vous pouvez indiquer aux moteurs de recherche de ne pas analyser certains répertoires.
Est-il possible de dire des robots de ne pas analyser l'ensemble du site sans avoir à la liste de tous les répertoires à ne pas suivre?
Est-ce mieux de le faire avec robots.txt
ou est-il mieux fait par .htaccess ou autre?
source d'informationauteur Iain Simpson
Vous devez vous connecter pour publier un commentaire.
C'est mieux gérée avec un
robots.txt
fichier, juste pour les bots qui respectent le fichier.De bloquer tout site ajouter à
robots.txt
dans le répertoire racine de votre site:Pour limiter l'accès à votre site pour tout le monde,
.htaccess
est mieux, mais vous devez définir les règles d'accès par adresse IP par exemple.Ci-dessous sont les
.htaccess
règles pour limiter tout le monde sauf des personnes de votre entreprise IP:À l'aide de
robots.txt
de garder un site de moteur de recherche indexe a un mineur et peu connu de problème: si jamais quelqu'un liens vers votre site à partir de n'importe quelle page indexée par Google (qui devra se passer de Google pour trouver votre site de toute façon,robots.txt
ou pas), Google peut toujours l'indice de la lien et de le présenter dans le cadre de leurs résultats de recherche, même si vous ne leur permet pas de télécharger la page du lien.Si cela pourrait être un problème pour vous, la solution est de pas utilisation
robots.txt
mais au lieu d'inclure unrobots
de la balise meta avec la valeurnoindex,nofollow
sur chaque page de votre site. Vous pouvez même le faire dans un.htaccess
fichier à l'aide de mod_headers et laX-Robots-Tag
en-tête HTTP:Cette directive va ajouter l'en-tête
X-Robots-Tag: noindex,nofollow
à chaque page il s'applique, y compris les pages HTML comme des images. Bien sûr, vous pouvez inclure le code HTML correspondant de la balise meta trop, juste au cas où (c'est une ancienne norme, et donc sans doute plus largement pris en charge):Notez que si vous faites cela, Googlebot va toujours essayer d'analyser tous les liens qu'il trouve à votre site, car il doit aller chercher la page avant qu'elle voit l'en-tête de la balise meta. Bien sûr, certains pourraient considérer cela une fonction au lieu d'un bug, car il vous permet de rechercher dans vos journaux d'accès pour voir si Google a trouvé tous les liens vers votre site.
En tout cas, quoi que vous fassiez, gardez à l'esprit que c'est dur de garder le "secret" du site secret très longtemps. Comme le temps passe, plus la probabilité que l'un de vos utilisateurs accidentellement fuite d'un lien vers le site se rapproche de 100%, et si il n'y a aucune raison de supposer que quelqu'un serait intéressé à trouver le site, vous devez supposer qu'ils le feront. Donc, assurez-vous que vous aussi mis l'contrôles d'accès sur votre site, gardez le logiciel à jour et d'exécuter les contrôles réguliers de sécurité.
Si la sécurité est votre préoccupation, et de verrouiller les adresses IP n'est pas viable, vous devriez penser à faire appel à vos utilisateurs de s'authentifier une certaine manière pour accéder à votre site.
Cela voudrait dire que n'importe qui (google, moteur de recherche, personne-qui-tombé-sur-un-lien) qui n'est pas authentifié, ne serait pas en mesure d'accéder à vos pages.
Vous pourriez le faire cuire dans votre site web lui-même, ou utiliser l'Authentification HTTP de Base.
https://www.httpwatch.com/httpgallery/authentication/