arriver Interdit par robots.txt: scrapy
lors de l'exploration des sites web tels que https://www.netflix.com, obtenir Interdite par robots.txt: https://www.netflix.com/>
ERREUR: Pas de réponse téléchargé: https://www.netflix.com/
- Robots.txt est simplement un fichier texte que les robots, il ne peut pas vous interdire de faire quoi que ce soit. Netflix a probablement d'autres obstacles pour le grattage.
Vous devez vous connecter pour publier un commentaire.
Dans la nouvelle version (scrapy 1.1) a lancé 2016-05-11 l'analyse de la première téléchargements robots.txt avant de ramper. Pour modifier ce changement de comportement dans votre
settings.py
avec ROBOTSTXT_OBEYVoici les notes de version
Première chose que vous devez vous assurer que vous changiez votre agent utilisateur dans la requête, sinon par défaut de l'agent utilisateur sera bloqué pour sûr.