Comment puis-je détecter les bots par programmation
Nous avons une situation où nous journal des visites et des visiteurs sur les coups de page et les robots sont l'obstruction de notre base de données. Nous ne pouvons pas utiliser le captcha ou d'autres techniques comme ça, parce que c'est avant même de nous demander de l'apport humain, fondamentalement, nous journalisation des coups de page et nous aimerions seule page du journal hits par les humains.
S'il existe une liste de bot connu IP? Ne vérifier connu bot user-agents travail?
OriginalL'auteur BoomTownTech | 2010-05-05
Vous devez vous connecter pour publier un commentaire.
Il n'y a pas de moyen infaillible pour capturer tous les bots. Un bot pourrait agir comme un vrai navigateur si quelqu'un voulait qu'.
Plus graves robots identifier clairement dans la chaîne de l'agent, donc avec une liste des bots, vous pouvez fitler la plupart d'entre eux. Pour la liste, vous pouvez également ajouter quelques chaînes d'agent que certains HTTP bibliothèques utilisent par défaut, pour attraper les robots de gens qui ne savent même pas comment faire pour modifier la chaîne de l'agent. Si vous suffit de vous connecter à l'agent des chaînes de visiteurs, vous devriez être en mesure de choisir le magasin dans la liste.
Vous pouvez aussi faire un "bot mauvais piège" en mettant un lien caché sur votre page qui mène à une page qui est filtré dans votre robots.txt fichier. Sérieux les bots n'aurait pas suivi le lien, et l'homme ne peut pas cliquer dessus, de sorte que seulement le bot qui n'a pas suivi la demande de règlement du fichier.
OriginalL'auteur Guffa
Selon le type de bot, vous voulez détecter:
OriginalL'auteur RHSeeger
vous pouvez utiliser la Demande.Le navigateur.Robot pour détecter les robots d'indexation par programme;
de préférence garder votre liste de reconnu robots à jour comme décrit ici
http://www.primaryobjects.com/cms/article102.aspx
OriginalL'auteur dc2009
Je pense que beaucoup de robots devront être identifiables par l'utilisateur de l'agent, mais sûrement pas tous. Une liste des IPs - je ne voudrais pas compter sur elle.
Une approche heuristique. Les robots sont généralement beaucoup plus rapide à la suite des liens de personnes. Peut-être que vous pouvez suivre chaque IP du client et détecter la moyenne de la rapidité avec laquelle il a des liens suivants. Si c'est un robot c'est probablement suit chaque lien immédiatement (ou au moins beaucoup plus vite que les humains).
OriginalL'auteur Assaf Lavie
Avez-vous déjà ajouté un robots.txt? Bien que cela ne résoudra pas pour les bot utiliser vous pourriez être surpris à la légitime l'analyse d'activité déjà en cours sur votre site.
OriginalL'auteur cfeduke
je ne pense pas qu'il y aura une liste de Botnet adresses IP, Botnet adresses IP n'est pas statique, et personne ne sait qui sont les robots, y compris les utilisateurs qui se comportent comme des Robots.
Votre question est sans doute une chaude de la recherche domaine pour le moment, je suis curieux de savoir si quelqu'un pouvait donner une solution pour ce problème.
Vous pouvez utiliser n'importe quel type de technique et de comprendre si c'est un homme ou pas, alors vous pouvez obtenir les journaux.
OriginalL'auteur berkay