Comment détecter le navigateur de l'usurpation et de robots à partir d'une chaîne de l'agent utilisateur en php

Jusqu'à présent, je suis en mesure de détecter les robots à partir d'une liste de chaîne de l'agent utilisateur par l'appariement de ces chaînes connues, les agents d'utilisateur, mais je me demandais quelles d'autres méthodes il existe pour ce faire à l'aide de php, comme je suis en récupération de moins de robots que prévu à l'aide de cette méthode.

Je suis également à la recherche pour savoir comment détecter si un navigateur ou d'un robot est de l'usurpation d'un autre navigateur à l'aide d'une chaîne de l'agent utilisateur.

Tout conseil est le bienvenue.

EDIT: Ce qui doit être fait à l'aide d'un fichier journal avec des lignes comme suit:

129.173.129.168 - - [11/Oct/2011:00:00:05 -0300] "GET /cames/uni_ave2.jpg?temps=1318302291289 HTTP/1.1" 200 20240 "http://faculty.dentistry.dal.ca/loanertracker/webcam.html" "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.4; en-US; rv:1.9.2.23) Gecko/20110920 Firefox/3.6.23"

Cela signifie que je ne peux pas contrôler le comportement de l'utilisateur de côté de temps d'accès.

Malheureusement, n'importe comment dur vous essayez, les bots seront toujours par tout ce que vous parvenez à mettre en œuvre pour cela.
Il n'est pas possible. Vous pouvez regarder de manière heuristique, mais c'est tout.

OriginalL'auteur user1422508 | 2012-11-14

13

En plus du filtrage des mots clés dans la chaîne de l'agent utilisateur, j'ai eu de la chance d'avoir un caché des pots de miel lien sur toutes les pages:
```
<a style="display:none" href="autocatch.php">A</a>
```
Puis dans "autocatch.php" enregistrer la session (ou adresse IP) comme un bot. Ce lien est invisible pour les utilisateurs, mais il est caché caractéristique nous l'espérons ne pas être réalisées par des robots. Prendre l'attribut de style et de le mettre dans un fichier CSS pourrait aider encore plus.

cette technique fonctionne très bien pour la capture des spammeurs par la présence d'un input type="hidden", nommée e-mail et de faire votre vrai email visible champ de formulaire appelé quelque chose d'autre. Le seul inconvénient de l'un des liens cachés est il peut être marqué comme blackhat SEO par Google
@WebChemist dit, c'est dangereux. Nous vivons dans un monde où intelligent et autrement "corriger" les solutions sont souvent de mauvaise des solutions, parce que: Google. Être très prudent avec les liens cachés.

OriginalL'auteur laifukang
6

Parce que, comme indiqué précédemment, vous pouvez usurper les user-agents & IP, on ne peut pas être utilisé pour un service fiable de détection de bot.

Je travaille pour une société de sécurité et de notre bot algorithme de détection de ressembler à quelque chose comme ceci:
1. Étape 1 - Collecte des données:
  
  un. Contre-Vérifier les user-agent vs IP. (les deux doivent être à droite)
  
  b. Vérifier les paramètres d'en-Tête (ce qui est manquant, qu'est-ce que l'ordre et etc...)
  
  c. Vérifier le comportement (le début de l'accès et de la conformité à robots.txt, comportement général, le nombre de pages visitées, le taux de visites et etc)
2. Étape 2 - Classification:
  
  Par la croix-la vérification des données, le bot est classé comme "Bon", "Mauvais" ou "Suspect"
3. Étape 3 - Les Défis De La Vie Active:
  
  Suspect robots subir les défis suivants:
  
  un. JS Défi (peut-on activer le JS?)
  
  b. Cookie Défi (peut-il accepter les cookies?)
  
  c. Si toujours pas concluants -> CAPTCHA
Ce mécanisme de filtrage est TRÈS efficace, mais je ne pense pas vraiment qu'il puisse être reproduit par une seule personne ou même un non spécialisé fournisseur (pour une chose, les défis et les bot DB doit être constamment mis à jour par l'équipe de sécurité).

Nous offrent une sorte de "do it yourself" outils sous forme de Botopedia.org, notre annuaire qui peut être utilisé pour les IP/nom d'Utilisateur de la croix-vérification, mais pour vraiment efficace solution que vous devrez compter sur les services spécialisés.

Il y a plusieurs bot gratuit des solutions de surveillance, y compris la nôtre, et la plupart utilisent la même stratégie que j'ai décrit ci-dessus (ou similaire).

GL

OriginalL'auteur Igal Zeifman
4

Au-delà de tout juste en comparant les agents d'utilisateur, vous devez garder un journal de l'activité et de regarder pour robot de comportement. Souvent on vérifiera notamment pour /robots.txt et pas le chargement des images. Une autre astuce est de demander au client si elles ont javascript puisque la plupart des robots de ne pas le marquer comme étant activé.

Cependant, méfiez-vous, vous pouvez accidentellement à des gens qui sont véritablement les gens.

Je me dois de préciser; je dois le faire à l'aide d'un fichier de log des agents utilisateurs donc je ne peux pas vérifier pour javascript ou des images chargées, mais merci pour l'aide
Ensuite, vous devez publier le journal, sinon je n'ai aucune idée de ce que les informations que vous avez à travailler avec.
Original post a été édité avec l'exemple d'une ligne dans le fichier de log, le fichier se compose de plus de 70000 lignes, mais ils sont de structure similaire à cela.

OriginalL'auteur Kyros
2

Non, les agents utilisateurs peuvent être falsifiés, de sorte qu'ils ne sont pas de confiance.

En plus de vérifier le Javascript ou une image/css charge, vous pouvez également mesurer la pageload vitesse que les bots seront généralement ramper votre site beaucoup plus rapide que n'importe quel visiteur humain saute partout. Mais cela ne fonctionne que pour les petits sites, des sites populaires qui aurait beaucoup de visiteurs derrière partagé adresse IP externe (grande société ou d'campus de l'université) pourrait frapper à votre site bot-comme les taux.

Je suppose que vous pourriez mesurer également l'ordre dans lequel ils ont la charge comme les bots ramper dans un premier arrivé, premier analyse l'ordre où que les utilisateurs ne seraient normalement pas adapter ce modèle, mais c'est un peu plus compliqué à suivre

Cela a été utile, merci!
Pas de problème, voici un post que j'ai aidé un autre utilisateur sur la réalisation d'un script de blocage à l'arrêt excessive bot pageloads que vous pourriez être en mesure de s'adapter à vos besoins webmasters.stackexchange.com/questions/35171/...
Super, merci, je serais upvote si je pouvais

OriginalL'auteur WebChemist
1

Votre question se rapporte spécifiquement à la détection à l'aide de la chaîne de l'agent utilisateur. Comme beaucoup l'ont mentionné ce peut être usurpée.

De comprendre ce qu'il est possible d'usurpation d'identité, et de voir combien il est difficile à détecter, vous êtes probablement mieux informés à apprendre l'art en PHP à l'aide de cURL.

En substance à l'aide de cURL presque tout ce qui peut être envoyé dans un navigateur(le client) demande peut être usurpée à l'exception notable de la propriété intellectuelle, mais même ici, un déterminé usurpateur sera également se cacher derrière un serveur proxy pour éliminer vos détection de leur propriété intellectuelle.

Il va sans dire qu'en utilisant les mêmes paramètres à chaque fois qu'une demande est faite à permettre un usurpateur d'être détecté, mais la rotation avec des paramètres différents, il est très difficile, voire impossible, de détecter toute spoofers parmi de véritables registres de trafic.

OriginalL'auteur T9b

Vous devez vous connecter pour publier un commentaire.