Comment gérer IncompleteRead: en python

Je suis en train de récupérer des données à partir d'un site web. Cependant, il me renvoie incomplete read. Les données que j'essaie d'obtenir un vaste choix de des liens imbriqués. J'ai fait quelques recherches en ligne et a constaté que cela pourrait être dû à une erreur de serveur (Un encodage de transfert en bloc de finition avant
atteindre la taille attendue). J'ai aussi trouvé une solution de contournement ci-dessus sur ce lien

Cependant, je ne suis pas sûr quant à la façon de l'utiliser pour mon cas. Voici le code, je suis en train de travailler sur

br = mechanize.Browser()
br.addheaders = [('User-agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;Trident/5.0)')]
urls = "http://shop.o2.co.uk/mobile_phones/Pay_Monthly/smartphone/all_brands"
page = urllib2.urlopen(urls).read()
soup = BeautifulSoup(page)
links = soup.findAll('img',url=True)

for tag in links:
    name = tag['alt']
    tag['url'] = urlparse.urljoin(urls, tag['url'])
    r = br.open(tag['url'])
    page_child = br.response().read()
    soup_child = BeautifulSoup(page_child)
    contracts = [tag_c['value']for tag_c in soup_child.findAll('input', {"name": "tariff-duration"})]
    data_usage = [tag_c['value']for tag_c in soup_child.findAll('input', {"name": "allowance"})]
    print contracts
    print data_usage

Merci de m'aider avec cela.Grâce

Habituellement, après je reçois le message d'erreur j'ai essayer une autre demande et il a toujours réussi. Peut-être 100 fois sur 100 essais.

OriginalL'auteur | 2013-01-21

17

La lien vous avez inclus dans votre question est tout simplement un wrapper qui exécute urllib de lecture de la fonction (), qui attrape tout incomplète lire des exceptions pour vous. Si vous ne voulez pas mettre en œuvre l'ensemble de ce patch, vous pouvez toujours juste jeter dans un try/catch boucle où vous lisez vos liens. Par exemple:
```
try:
    page = urllib2.urlopen(urls).read()
except httplib.IncompleteRead, e:
    page = e.partial
```
pour python3
```
try:
    page = request.urlopen(urls).read()
except (http.client.IncompleteRead) as e:
    page = e.partial
```
et ce qui ne fonctionne pas dans python3, des suggestions ?

OriginalL'auteur Kyle
7

- Je trouver dans mon cas : envoyer des requêtes HTTP/1.0 , l'ajout de cette , de résoudre le problème.
```
import httplib
httplib.HTTPConnection._http_vsn = 10
httplib.HTTPConnection._http_vsn_str = 'HTTP/1.0'
```
après je fais la demande :
```
req = urllib2.Request(url, post, headers)
filedescriptor = urllib2.urlopen(req)
img = filedescriptor.read()
```
après je reviens de http 1.1 avec (pour les connexions de soutien 1.1) :
```
httplib.HTTPConnection._http_vsn = 11
httplib.HTTPConnection._http_vsn_str = 'HTTP/1.1'
```
l'astuce est d'utiliser le protocole http 1.0 au lieu de la valeur par défaut http/1.1
http 1.1 pourrait poignée de morceaux, mais pour une raison quelconque serveur web n'est pas , de sorte que nous ne la demande en http 1.0

ayant le même problème lors de l'utilisation urllib2.urlopen(url).read(), Mais le code ci-dessus ont résolu ce. Pouvez-vous expliquer cela ?

OriginalL'auteur Sérgio

Ce qui a fonctionné pour moi est la capture de IncompleteRead comme une exception et de la récolte des données que vous avez réussi à lire à chaque itération en mettant cela dans une boucle comme ci-dessous: (Remarque, je suis à l'aide de Python 3.4.1 et la urllib bibliothèque a changé entre 2.7 et 3.4)

try:
    requestObj = urllib.request.urlopen(url, data)
    responseJSON=""
    while True:
        try:
            responseJSONpart = requestObj.read()
        except http.client.IncompleteRead as icread:
            responseJSON = responseJSON + icread.partial.decode('utf-8')
            continue
        else:
            responseJSON = responseJSON + responseJSONpart.decode('utf-8')
            break

    return json.loads(responseJSON)

except Exception as RESTex:
    print("Exception occurred making REST call: " + RESTex.__str__())

OriginalL'auteur gDexter42

Vous pouvez utiliser requests au lieu de urllib2. requests est basé sur urllib3 donc il a rarement eu aucun problème. Le mettre dans une boucle de l'essayer 3 fois, et il sera beaucoup plus forte. Vous pouvez l'utiliser de cette façon:

import requests      

msg = None   
for i in [1,2,3]:        
    try:  
        r = requests.get(self.crawling, timeout=30)
        msg = r.text
        if msg: break
    except Exception as e:
        sys.stderr.write('Got error when requesting URL "' + self.crawling + '": ' + str(e) + '\n')
        if i == 3 :
            sys.stderr.write('{0.filename}@{0.lineno}: Failed requesting from URL "{1}" ==> {2}\n'.                       format(inspect.getframeinfo(inspect.currentframe()), self.crawling, e))
            raise e
        time.sleep(10*(i-1))

OriginalL'auteur Aminah Nuraini

0

J'ai trouvé que mon détecteur de virus/pare-feu a été à l'origine de ce problème. "En ligne" Bouclier de la partie du programme AVG.

OriginalL'auteur nigel76
0

J'ai essayé toutes ces solutions, et aucun d'entre eux travaillaient pour moi. En fait, ce n'travail est au lieu d'utiliser urllib, j'ai simplement utilisé le protocole http.client (Python 3)
```
conn = http.client.HTTPConnection('www.google.com')
conn.request('GET', '/')
r1 = conn.getresponse()
page = r1.read().decode('utf-8')
```
Cela fonctionne parfaitement et à chaque fois, alors qu'avec urllib c'était au retour d'une incompleteread exception à chaque fois.

Cela ne fonctionne pas toujours, semble être la solution est assez vieux. Pouvez-vous s'il vous plaît aider avec la nouvelle solution pour Python3

OriginalL'auteur Brian

Je viens d'ajouter un plus à l'exception de passer ce problème.

tout comme

try:
    r = requests.get(url, timeout=timeout)

except (requests.exceptions.ChunkedEncodingError, requests.ConnectionError) as e:
    logging.error("There is a error: %s" % e)

OriginalL'auteur KJoker

Vous devez vous connecter pour publier un commentaire.