Éviter de données du site de l'analyse et déchiré

Je suis à la recherche dans la construction d'un site de contenu avec peut-être des milliers d'entrées différentes, accessibles par index et par la recherche.

Quelles sont les mesures que je peux prendre pour prévenir malveillants robots à l'arraché toutes les données de mon site? Je suis moins inquiet à propos de SEO, bien que je ne veux pas bloquer légitime robots tous ensemble.

Par exemple, j'ai pensé à la variation aléatoire des petits morceaux de la structure HTML utilisé pour afficher mes données, mais je suppose que ce ne serait pas très efficace.

OriginalL'auteur yoavf | 2008-10-07

spam-prevention web-crawler

14

Un site visible par les yeux de l'homme est, en théorie, potentiellement rippable. Si vous allez même d'essayer d'être accessible, alors, par définition, doit être le cas (sinon, comment parler des navigateurs être en mesure de livrer votre contenu, si elle n'est pas lisible à la machine).

Votre meilleur pari est de regarder dans le filigrane de votre contenu, de sorte qu'au moins si elle ne get ripped vous pouvez pointer vers les filigranes et de revendiquer la propriété.

OriginalL'auteur Unsliced
10

Entre cette:

Quelles sont les mesures que je peux prendre pour empêcher les robots de l'extraction

et ce:

Je ne voudrais pas bloquer légitime robots tous ensemble.

vous demandez beaucoup. Le fait est, si vous allez essayer et de bloquer les malveillants, les grattoirs, vous allez finir par le blocage de tous les "bons" crawlers trop.

Vous devez vous rappeler que si les gens veulent à gratter de votre contenu, ils vont le mettre dans une beaucoup plus manuel d'effort qu'un moteur de recherche, de bot... Alors à vos priorités à droite. Vous avez deux choix:
1. Laisser les paysans de l'internet voler votre contenu. Gardez un œil sur elle (une recherche Google pour certains de vos plus unique de phrases) et l'envoi de prendre vers le bas des demandes pour les Fai. Ce choix n'a guère d'impact sur votre en dehors du temps.
2. Utiliser AJAX et le roulement de chiffrement à la demande de l'ensemble de votre contenu à partir du serveur. Vous aurez besoin de garder la méthode de changement, ou même aléatoire de sorte que chaque pageload porte un autre schéma de chiffrement. Mais même cette sera être cassé si quelqu'un veut se fissurer. Vous pourrez également y déposer le visage des moteurs de recherche et donc d'en prendre un coup dans le trafic des utilisateurs réels.
OriginalL'auteur Oli
5

De façon réaliste, vous ne pouvez pas arrêter les robots malveillants et toutes les mesures que vous mettez en place pour les prévenir sont susceptibles de nuire à vos utilisateurs légitimes (à part peut-être l'ajout d'entrées à robots.txt afin de permettre la détection)

Donc, ce que vous avez à faire est de planifier sur le contenu en cours de vol, il est plus que probable de se produire dans une forme ou une autre - et à comprendre comment vous allez traiter avec la copie non autorisée.

La prévention n'est pas possible - et sera un gaspillage de votre temps à essayer de faire en sorte.

La seule façon de s'assurer que le contenu d'un site web n'est pas vulnérable à la copie est de débrancher le câble réseau...

À détecter utiliser quelque chose comme http://www.copyscape.com/ peut aider.

OriginalL'auteur Richard Harrison
4

Bonne robots vont suivre les règles que vous spécifiez dans votre robots.txt, les méchants ne le sera pas.
Vous pouvez mettre en place un "piège" pour les mauvais robots, comme il est expliqué ici:
http://www.fleiner.com/bots/.

Mais là encore, si vous mettez votre contenu sur l'internet, je pense que c'est mieux pour tout le monde si c'est aussi indolore que possible pour trouver (en fait, vous êtes à poster ici et pas à certains boiteux forum où experts exchange leurs opinions)

Le lien pour les "Mauvais" Robots semble très prometteur. Merci.
Tu veux dire... où les experts de changement de sexe de leur avis?
Je n'ai pas de soins pour les Experts de Change plus non plus... LOL...

OriginalL'auteur Loris
4

N'essayez même pas d'ériger des limites sur le web!

Il est vraiment aussi simple que cela.

Toutes les mesures potentielles à décourager l'extraction (en dehors d'un très stricte robots.txt) va nuire à vos utilisateurs. Les Captchas sont plus de douleur que d'en gagner. La vérification de l'agent de l'utilisateur bloque l'inattendu navigateurs. Le même est vrai pour les "intelligents" les trucs avec javascript.

Veuillez conserver le web ouvert. Si vous ne voulez pas quelque chose à prendre à partir de votre site web, puis de ne pas la publier ici. Les filigranes peuvent vous aider à revendiquer la propriété, mais qui n'est utile lorsque vous voulez poursuivre en justice après, le mal est fait.

OriginalL'auteur HS.
3

La seule façon d'arrêter un site machine a arraché est de permettre à l'utilisateur de prouver qu'ils sont humains.

Vous pourrait amener les utilisateurs à effectuer une tâche facile pour les humains et dur pour les machines, par exemple: CAPTCHA. Lorsqu'un utilisateur arrive à votre site présente un CAPTCHA et seulement de leur permettre de poursuivre une fois qu'elle est terminée. Si l'utilisateur commence à se déplacer de page en page trop rapidement re-vérifier.

Ce n'est pas efficace à 100% et les pirates sont toujours à essayer de les casser.

Vous pouvez également faire ralentir les réponses. Vous n'avez pas besoin de les faire analyser, mais choisissez une vitesse qui est raisonnable pour l'homme (ce serait très lent pour une machine). Ceci leur fait juste prendre plus de temps à gratter de votre site, mais pas impossible.

OK. De bonnes idées.

OriginalL'auteur Martin York
2

Si vous faites un site public, il est alors très difficile. Il existe des méthodes qui impliquent de script côté serveur pour générer du contenu ou de l'utilisation de la non-texte (Flash, etc) afin de réduire la probabilité de l'extraction.

Mais pour être honnête, si vous considérez que votre contenu à être aussi bon, juste un mot de passe-protéger et de le retirer de la scène publique.

Mon avis est que le point de l'ensemble du web est de propager le contenu utile à autant de personnes que possible.

OriginalL'auteur paxdiablo
1

En bref: vous ne pouvez pas empêcher l'extraction. Des robots malveillants utilisent couramment les utilisateur d'internet explorer agents et sont assez intelligents de nos jours. Si vous souhaitez que votre site web soit accessible à un nombre maximum (ie lecteurs d'écran, etc) vous ne pouvez pas utiliser de javascript ou de l'un des populaires plugins (flash) tout simplement parce qu'ils peuvent inhiber l'utilisateur légitime d'accès.

Vous pourriez peut-être avoir une tâche cron qui sélectionne aléatoirement extrait de votre base de données et des lunettes de vérifier s'il correspond. Vous pouvez ensuite essayer de l'obtenir du site incriminé et de la demande qu'ils prennent le contenu vers le bas.

Vous pourriez également contrôler le nombre de requêtes à partir d'une IP donnée et de le bloquer si elle passe un seuil, bien que vous pouvez avoir une liste blanche légitime robots et serait pas contre l'utilisation d'un botnet (mais si vous faites face à un botnet, peut-être que l'extraction n'est pas votre plus gros problème).

OriginalL'auteur jeremy
1

Si le contenu est public et disponible librement, même avec affichage de la page de limitation ou que ce soit, il n'y a rien que vous pouvez faire. Si vous avez besoin d'inscription et/ou de paiement pour accéder aux données, vous pouvez restreindre un peu, et au moins vous pouvez voir qui lit quoi et identifier les utilisateurs qui semblent être grattant l'ensemble de votre base de données.

Cependant, je pense que vous devriez plutôt faire face au fait que c'est la façon dont le net fonctionne, il n'y a pas beaucoup de façons de prévenir une machine à lire ce qu'un humain peut le faire. La sortie de toutes vos contenus tels que les images, bien sûr décourager plus, mais le site ne sont plus accessibles, sans parler du fait que même les non-handicapés, les utilisateurs ne seront pas en mesure de copier-coller quoi que ce soit - ce qui peut être vraiment ennuyeux.

Dans tout cela sonne comme DRM/jeu systèmes de protection - pissing l'enfer hors de votre légitime des utilisateurs uniquement pour éviter le mauvais comportement que vous ne pouvez pas vraiment les empêcher de toute façon.

OriginalL'auteur Seldaek
0

Utiliser là où il est possible de l'homme validateurs et essayez d'utiliser un certain cadre (MVC). Le site déchirant le logiciel qui est parfois incapable de rip ce genre de page. Également de détecter l'agent de l'utilisateur, à moins qu'il permettra de réduire le nombre possible de rippers

OriginalL'auteur Mote
0

Vous pouvez essayer d'utiliser Flash /Silverlight /Java pour afficher tous vos contenus de page. Ce serait probablement arrêter la plupart des robots dans leur élan.

OriginalL'auteur Mark Ingram
0

J'ai l'habitude d'avoir un système qui permettrait de bloquer ou d'autoriser basé sur l'-tête User-Agent.
Il s'appuie sur les paramètres du crawler de leur User-Agent, mais il semble que la plupart d'entre eux n'.

Cela ne fonctionnera pas si ils utilisent un faux en-tête pour émuler un navigateur populaire de cours.

OriginalL'auteur Darren Greaves

Vous devez vous connecter pour publier un commentaire.