Robots.txt - Quel est le format approprié pour un délai d'analyse pour plusieurs agents utilisateurs?
Ci-dessous est un échantillon robots.txt fichier pour Permettre plusieurs agents utilisateurs avec plusieurs d'analyse des retards pour chaque utilisateur de l'agent. Le Crawl-delay valeurs sont à des fins d'illustration et sera différent dans un véritable robots.txt fichier.
J'ai cherché partout sur le web pour des réponses appropriées, mais ne pouvait pas en trouver un. Il y a trop mélangé suggestions et je ne sais pas lequel est le bon /la bonne méthode.
Questions:
(1) chaque agent utilisateur de crawl-delay? (Je suppose que oui)
(2) Où mettez-vous le crawl-delay ligne pour chaque utilisateur de l'agent, avant ou après l'Autoriser /Dissallow ligne?
(3) il y a un blanc entre chaque agent utilisateur groupe.
Références:
http://www.seopt.com/2013/01/robots-text-file/
http://help.yandex.com/webmaster/?id=1113851#1113858
Essentiellement, je suis à la recherche pour savoir comment la finale robots.txt fichier devrait ressembler à l'aide de valeurs dans l'exemple ci-dessous.
Merci d'avance.
# Allow only major search spiders
User-agent: Mediapartners-Google
Disallow:
Crawl-delay: 11
User-agent: Googlebot
Disallow:
Crawl-delay: 12
User-agent: Adsbot-Google
Disallow:
Crawl-delay: 13
User-agent: Googlebot-Image
Disallow:
Crawl-delay: 14
User-agent: Googlebot-Mobile
Disallow:
Crawl-delay: 15
User-agent: MSNBot
Disallow:
Crawl-delay: 16
User-agent: bingbot
Disallow:
Crawl-delay: 17
User-agent: Slurp
Disallow:
Crawl-delay: 18
User-agent: Yahoo! Slurp
Disallow:
Crawl-delay: 19
# Block all other spiders
User-agent: *
Disallow: /
# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/
(4), Si je veux mettre tous les agents utilisateurs d'avoir à ramper délai de 10 secondes, serait la suivante correct?
# Allow only major search spiders
User-agent: *
Crawl-delay: 10
User-agent: Mediapartners-Google
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Adsbot-Google
Disallow:
User-agent: Googlebot-Image
Disallow:
User-agent: Googlebot-Mobile
Disallow:
User-agent: MSNBot
Disallow:
User-agent: bingbot
Disallow:
User-agent: Slurp
Disallow:
User-agent: Yahoo! Slurp
Disallow:
# Block all other spiders
User-agent: *
Disallow: /
# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/
source d'informationauteur Sammy
Vous devez vous connecter pour publier un commentaire.
Oui. Chaque enregistrementa commencé par un ou plusieurs
User-agent
lignes, peut avoir unCrawl-delay
ligne. Notez queCrawl-delay
ne fait pas partie de la d'origine robots.txt spécification. Mais il n'est pas un problème de les inclure pour ceux des analyseurs de comprendre que, comme le spec définit:Plus anciens robots.txt analyseurs de simplement les ignorer votre
Crawl-delay
lignes.N'a pas d'importance.
Oui. Enregistrements doivent être séparés par un ou plusieurs des lignes. Voir la original spec:
Pas. Les robots de rechercher les enregistrements qui correspondent à leur user-agent. Seulement si ils ne trouvent pas un record, ils vont utiliser le
User-agent: *
enregistrement. Donc dans votre exemple, tous les bots (commeGooglebot
MSNBot
Yahoo! Slurp
etc.) aura pasCrawl-delay
.Notez également que vous ne pouvez pas avoir plusieurs enregistrements avec
User-agent: *
:Donc analyseurs pourrait ressembler (si aucun autre enregistrement correspondant) pour le premier enregistrement avec
User-agent: *
et d'ignorer les suivantes. Pour votre premier exemple, cela voudrait dire que les Url commençant par/ads/
/cgi-bin/
et/scripts/
sont pas bloqué.Et même si vous n'avez un enregistrement avec
User-agent: *
ceuxDisallow
lignes sont uniquement pour les robots qui n'ont aucun autre dossier match! Comme votre commentaire# Block Directories for all spiders
suggèrent, vous voulez que ces chemins d'URL à être bloqué pour tous araignées, alors vous pourriez avoir à répéter leDisallow
lignes pour chaque enregistrement.