Google: Désactiver certaines chaînes de requête dans robots.txt
http://www.site.com/shop/maxi-dress?colourId=94&optId=694
http://www.site.com/shop/maxi-dress?colourId=94&optId=694&product_type=sale
J'ai des milliers d'Url comme ci-dessus. Différentes combinaisons et les noms.
J'ai aussi des doubles de ces URLs qui ont la chaîne de requête product_type=sale
Je veux désactiver Google d'indexer n'importe quoi avec product_type=sale
Est-ce possible dans robots.txt
source d'informationauteur TheBlackBenzKid
Vous devez vous connecter pour publier un commentaire.
Google prend en charge les caractères génériques dans robots.txt. La directive suivante dans robots.txt permettra d'éviter Googlebot d'explorer toute page qui contient tous les paramètres:
Cela n'empêche pas de nombreux autres robots d'indexer ces URLs, car les caractères génériques ne sont pas une partie de la norme robots.txt.
Google peut prendre son temps pour supprimer les Url que vous avez bloqué à partir de l'index de recherche. Le supplément Url peut encore être indexés par mois. Vous pouvez accélérer le processus en utilisant la fonction "Supprimer des Url" dans outils pour les webmasters, après qu'ils ont été bloqués. Mais c'est un processus manuel que vous devez coller dans chaque URL que vous souhaitez supprimer.
Il peut aussi nuire à votre site classements de Google à utiliser cette robots.txt la règle dans le cas que Googlbot ne trouve pas la version de l'URL sans paramètres. Si vous avez l'habitude de lien pour les versions avec des paramètres que vous ne voulez probablement pas à les bloquer dans robots.txt. Il serait préférable d'utiliser l'un de l'autre des options ci-dessous.
Une meilleure option est d'utiliser le rel canonical balise meta sur chacune de vos pages.
Donc à la fois votre exemple d'Url seraient les suivantes dans la section d'en-tête:
Que dit le Googlebot ne pas indexer beaucoup de variantes de la page, uniquement à l'index de la "canonique" de la version de l'URL que vous choisissez. Contrairement à l'utilisation de robots.txt Googlebot va encore être en mesure d'analyser vos pages et d'attribuer de la valeur pour eux, même lorsqu'ils utilisent une variété de paramètres d'URL.
Une autre option est de vous connecter à Google Outils Pour Les Webmasters et utiliser la fonction "Paramètres d'URL", qui est dans la partie "Analyse" de la section.
Une fois là, cliquez sur "Ajouter un paramètre". Vous pouvez définir des "product_type" à "N'affecte pas le contenu de la page" pour que Google n'a pas d'explorer et d'indexer les pages avec ce paramètre.
Faire de même pour chacun des paramètres que vous utilisez que de ne pas changer de page.
Oui, c'est assez simple à faire. Ajouter la ligne suivante dans votre robots.txt fichier:
Le précédent joker (*) signifie que toutes les Url qui contiennent
product_type=sale
de ne plus être analysé par Google.Même si elles peuvent encore rester dans l'index de Google si ils étaient là auparavant, mais Google ne sera plus à les analyser, et lors de l'affichage dans une recherche Google va dire : Une description de ce résultat n'est pas disponible en raison de ce site robots.txt – en savoir plus.
Plus à lire ici: Robots.txt Spécifications