comment restreindre le site d'être indexé

Je sais que cette question a été posée de nombreuses fois, mais je veux être plus précis.

J'ai un domaine du développement et déménagé sur le site il y à un sous-dossier. Disons à partir de:

http://www.example.com/

http://www.example.com/backup

Donc je veux le sous-dossier pour ne pas être indexés par les moteurs de recherche. J'ai mis robots.txt avec le contenu suivant dans le sous-dossier (je peux le mettre dans un sous-dossier) ou si elle doit être à la racine toujours, parce que je veux que le contenu à la racine pour être visible par les moteurs de recherche):

User-agent: *
Disallow: /

Peut-être que j'ai besoin de le remplacer et de le mettre dans la racine suivantes:

User-agent: *
Disallow: /backup

L'autre chose est, j'ai lu quelque part que certains robots ne respectent pas les robots.txt fichier, de sorte voudrais juste mettre un .fichier htaccess dans le dossier de sauvegarde à faire le travail?

Order deny,allow
Deny from all

Des idées?

OriginalL'auteur Ilian Andreev | 2012-05-26

13

Cela permettrait d'éviter que le répertoire à partir de l'indexation:
```
User-agent: *
Disallow: /backup/
```
En outre, votre robots.txt le fichier doit être placé dans la racine de votre domaine, dans ce cas, le fichier doit être placé où vous pouvez y accéder dans votre navigateur en allant à http://example.com/robots.txt

En aparté, vous souhaitez peut-être envisager la création d'un sous-domaine pour votre site de développement, quelque chose comme http://dev.example.com. Cela permettrait à vous séparer complètement le dev des trucs à partir de l'environnement de production et permettrait également de s'assurer que vos environnements de plus près de match.

Par exemple, tous les chemins absolus pour les fichiers JavaScript, CSS, images ou d'autres ressources ne peuvent pas fonctionner de la même de dev de production, ce qui peut causer quelques problèmes en bas de la route.

Pour plus d'informations sur la façon de configurer ce fichier, consultez la robotstxt.org site. Bonne chance!

Comme une dernière remarque Google Outils Pour Les Webmasters a une section où vous pouvez voir ce qui est bloqué par le robots.txt fichier:

Pour voir les Url de Google a été bloqué à partir de l'analyse, visitez la page Url Bloquées de la section de la Santé des Outils pour les Webmasters.

Je vous suggère fortement d'utiliser cet outil, comme un mal configuré robots.txt fichier pourrait avoir un impact significatif sur la performance de votre site web.

+1 pour une explication détaillée, merci de me le rappeler aussi 🙂
Pas de soucis! Merci 🙂
Bonjour merci pour le commentaire et à rappeler les propos de la plupart des choses. Une question cependant, j'ai besoin de mettre un disallow: / pour le dev sous-domaine afin que les fichiers ne sont pas indexés? Je veux seulement sur la production... également à ce sujet le contenu dupliqué à partir de ce dev sous-domaine?
Salut Ilian, cela dépend si le serveur est public ou derrière un pare-feu. Derrière un pare-feu serait plus sûr, bien sûr, puisque vous n'avez pas besoin de s'inquiéter sur le fichier robots. Il ya une certaine controverse sur la double question du contenu, mais pour être sûr, nous éviter cela autant que possible. Une suggestion pour vous si vous allez avoir un robots.txt sur dev est de rendre générés dynamiquement. Si vous devez garder en souvenir pour le modifier avant de les déployer sur le site, que le processus manuel pourrait revenir vous hanter si le GoogleBot frappe un refuser toute inscription.
Merci pour la réponse @jmort253 ! Une dernière chose que je voulais savoir ... j'ai envie d'avoir des sortes de "secret" de répertoire. Apparemment, si je l'ai mis dans robots.txt n'importe qui pouvait ouvrir la robots.txt et de le deviner. Il y a un seul fichier dans ce répertoire j'ai donc mis un meta robots avec noindex, nofollow mais quand je vais sur Google Webmaster Tools -> URL Bloquées et essayer de récupérer cette page, il dit qu'il est permis de Googlebot. Pourquoi est-ce?

OriginalL'auteur jmort253

Vous devez vous connecter pour publier un commentaire.