La rotation des Procurations pour le web scraping
J'ai un python web crawler et je veux distribuer les demandes de téléchargement parmi plusieurs serveurs proxy, probablement calmar (même si je suis ouvert à d'autres options). Par exemple, il pourrait travailler dans un round-robin de la mode, où request1 va à proxy1, request2 à proxy2, et, finalement, le bouclage autour. Aucune idée de comment régler ça?
Pour le rendre plus dur, j'aimerais aussi être en mesure de modifier dynamiquement la liste des proxys disponibles, apporter un peu vers le bas, et en ajouter d'autres.
Si il le faut, les adresses IP sont attribuées dynamiquement.
Merci 🙂
OriginalL'auteur Jacob | 2009-12-19
Vous devez vous connecter pour publier un commentaire.
Faire de votre robot ont une liste de proxies et avec chaque requête HTTP permettre d'utiliser le proxy suivant de la liste dans un tourniquet. Cependant, cela va vous empêcher d'utiliser le protocole HTTP/1.1 les connexions persistantes. La modification de la liste de proxy finira par conduire à une nouvelle ou non à l'aide d'un proxy.
Ou avoir plusieurs connexions en parallèle, un pour chaque proxy et de distribuer votre ramper demandes pour chacune des connexions ouvertes. La dynamique peut être mis en œuvre par l'connetor l'enregistrement lui-même à la demande de l'expéditeur.
Pouvez-vous partager votre exemple de code ou de dépôt github sur combien vous avez accompli cela?
OriginalL'auteur Bernd
J'ai programmés rotation des procurations à l'aide de HAProxy + Délégué + Plusieurs Tor Instances. Avec Tor, vous n'avez pas un bon contrôle de la bande passante et la latence mais il est utile pour le web scraping. Je viens de publier un article sur le sujet: La Gestion De Votre Propre Anonyme De Rotation Des Procurations
Yup. C'est quelque chose à considérer si vous êtes à penser à aller dans cette voie.
OriginalL'auteur sw.
Edit: Il y a même wrapper Python pour gimmeproxy: https://github.com/ericfourrier/gimmeproxy-api
Si vous n'avez pas l'esprit de Noeud, vous pouvez utiliser proxy-listes pour recueillir public procurations et check-proxy afin de les vérifier. C'est exactement comment https://gimmeproxy.com œuvres, plus d'infos ici
OriginalL'auteur Andrey E