Robots.txt - Quel est le format approprié pour un délai d'analyse pour plusieurs agents utilisateurs?

Ci-dessous est un échantillon robots.txt fichier pour Permettre plusieurs agents utilisateurs avec plusieurs d'analyse des retards pour chaque utilisateur de l'agent. Le Crawl-delay valeurs sont à des fins d'illustration et sera différent dans un véritable robots.txt fichier.

J'ai cherché partout sur le web pour des réponses appropriées, mais ne pouvait pas en trouver un. Il y a trop mélangé suggestions et je ne sais pas lequel est le bon /la bonne méthode.

Questions:

(1) chaque agent utilisateur de crawl-delay? (Je suppose que oui)

(2) Où mettez-vous le crawl-delay ligne pour chaque utilisateur de l'agent, avant ou après l'Autoriser /Dissallow ligne?

(3) il y a un blanc entre chaque agent utilisateur groupe.

Références:

http://www.seopt.com/2013/01/robots-text-file/

http://help.yandex.com/webmaster/?id=1113851#1113858

Essentiellement, je suis à la recherche pour savoir comment la finale robots.txt fichier devrait ressembler à l'aide de valeurs dans l'exemple ci-dessous.

Merci d'avance.

# Allow only major search spiders    
User-agent: Mediapartners-Google
Disallow:
Crawl-delay: 11

User-agent: Googlebot
Disallow:
Crawl-delay: 12

User-agent: Adsbot-Google
Disallow:
Crawl-delay: 13

User-agent: Googlebot-Image
Disallow:
Crawl-delay: 14

User-agent: Googlebot-Mobile
Disallow:
Crawl-delay: 15

User-agent: MSNBot
Disallow:
Crawl-delay: 16

User-agent: bingbot
Disallow:
Crawl-delay: 17

User-agent: Slurp
Disallow:
Crawl-delay: 18

User-agent: Yahoo! Slurp
Disallow:
Crawl-delay: 19

# Block all other spiders
User-agent: *
Disallow: /

# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/

(4), Si je veux mettre tous les agents utilisateurs d'avoir à ramper délai de 10 secondes, serait la suivante correct?

# Allow only major search spiders
User-agent: *
Crawl-delay: 10

User-agent: Mediapartners-Google
Disallow:

User-agent: Googlebot
Disallow:

User-agent: Adsbot-Google
Disallow:

User-agent: Googlebot-Image
Disallow:

User-agent: Googlebot-Mobile
Disallow:

User-agent: MSNBot
Disallow:

User-agent: bingbot
Disallow:

User-agent: Slurp
Disallow:

User-agent: Yahoo! Slurp
Disallow:

# Block all other spiders
User-agent: *
Disallow: /

# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/

source d'informationauteur Sammy

19

(1) chaque agent utilisateur de crawl-delay?

Oui. Chaque enregistrementa commencé par un ou plusieurs User-agent lignes, peut avoir un Crawl-delay ligne. Notez que Crawl-delay ne fait pas partie de la d'origine robots.txt spécification. Mais il n'est pas un problème de les inclure pour ceux des analyseurs de comprendre que, comme le spec définit:

Méconnu les en-têtes sont ignorés.

Plus anciens robots.txt analyseurs de simplement les ignorer votre Crawl-delay lignes.

(2) Où mettez-vous le crawl-delay ligne pour chaque utilisateur de l'agent, avant ou après l'Autoriser /Dissallow ligne?

N'a pas d'importance.

(3) il y a un blanc entre chaque agent utilisateur groupe.

Oui. Enregistrements doivent être séparés par un ou plusieurs des lignes. Voir la original spec:

Le fichier se compose d'un ou de plusieurs documents séparés par un ou plusieurs des lignes vides (terminée par CR,CR/NL ou NL).

(4), Si je veux mettre tous les agents utilisateurs d'avoir à ramper délai de 10 secondes, serait la suivante correct?

Pas. Les robots de rechercher les enregistrements qui correspondent à leur user-agent. Seulement si ils ne trouvent pas un record, ils vont utiliser le User-agent: * enregistrement. Donc dans votre exemple, tous les bots (comme GooglebotMSNBotYahoo! Slurp etc.) aura pas Crawl-delay.

Notez également que vous ne pouvez pas avoir plusieurs enregistrements avec User-agent: *:

Si la valeur est"*", l'enregistrement décrit la stratégie d'accès par défaut pour n'importe quel robot qui n'a pas égalé l'un des autres dossiers. Il n'est pas permis d'avoir plusieurs de ces enregistrements dans le fichier "/robots.txt" fichier.

Donc analyseurs pourrait ressembler (si aucun autre enregistrement correspondant) pour le premier enregistrement avec User-agent: * et d'ignorer les suivantes. Pour votre premier exemple, cela voudrait dire que les Url commençant par /ads//cgi-bin/ et /scripts/ sont pas bloqué.

Et même si vous n'avez un enregistrement avec User-agent: *ceux Disallow lignes sont uniquement pour les robots qui n'ont aucun autre dossier match! Comme votre commentaire # Block Directories for all spiders suggèrent, vous voulez que ces chemins d'URL à être bloqué pour tous araignées, alors vous pourriez avoir à répéter le Disallow lignes pour chaque enregistrement.

Vous devez vous connecter pour publier un commentaire.