arriver Interdit par robots.txt: scrapy

lors de l'exploration des sites web tels que https://www.netflix.com, obtenir Interdite par robots.txt: https://www.netflix.com/>

ERREUR: Pas de réponse téléchargé: https://www.netflix.com/

Robots.txt est simplement un fichier texte que les robots, il ne peut pas vous interdire de faire quoi que ce soit. Netflix a probablement d'autres obstacles pour le grattage.

100

Dans la nouvelle version (scrapy 1.1) a lancé 2016-05-11 l'analyse de la première téléchargements robots.txt avant de ramper. Pour modifier ce changement de comportement dans votre settings.py avec ROBOTSTXT_OBEY
```
ROBOTSTXT_OBEY=False
```
Voici les notes de version

InformationsquelleAutor Rafael Almeida
1

Première chose que vous devez vous assurer que vous changiez votre agent utilisateur dans la requête, sinon par défaut de l'agent utilisateur sera bloqué pour sûr.

InformationsquelleAutor Ketan Patel

Vous devez vous connecter pour publier un commentaire.