Prise en HTML avec Pycurl

J'ai essayé de récupérer une page HTML à l'aide de pycurl, donc, je peux avant de l'analyser de l'information pertinente, à l'aide de str.split et certains pour les boucles. Je sais Pycurl récupère le code HTML, depuis qu'il imprime à la borne, cependant, si j'essaie de faire quelque chose comme

html = str(c.perform())

La variable il suffit de tenir une chaîne de caractères qui dit "Aucun".

Comment puis-je utiliser pycurl pour obtenir le code html, ou de rediriger ce qu'il envoie à la console de sorte qu'il peut être utilisé comme une chaîne comme décrit ci-dessus?

Merci beaucoup à toute personne qui a des suggestions!

OriginalL'auteur Sinthet | 2011-07-02

pycurl python

20

cela va envoyer une requête et de stocker/imprimer le corps de la réponse:
```
from StringIO import StringIO    
import pycurl

url = 'http://www.google.com/'

storage = StringIO()
c = pycurl.Curl()
c.setopt(c.URL, url)
c.setopt(c.WRITEFUNCTION, storage.write)
c.perform()
c.close()
content = storage.getvalue()
print content
```
si vous souhaitez stocker les en-têtes de réponse, utilisez:
```
c.setopt(c.HEADERFUNCTION, storage.write)
```
Super! Que fait exactement ce que je cherchais. Cependant, une ligne est incorrecte. Il faut dire de stockage = StringIO.StringIO(). Sinon, une erreur est générée. Peu importe, merci pour votre aide!!
je pense que c'est correct. remarquez que je n' "de StrongIO importation StringIO'
Ah, c'est peut-être elle. J'ai vérifié mes sources et venez d'importer l'ensemble de la bibliothèque. Désolé pour la confusion!
Toute chance vous pourriez mettre à jour cette pour Python3? Ressemble Python3 obsolète StringIO en faveur de io.StringIO, ce qui n'est pas tout à fait comme ci-dessus.
Pour Python 3 utilisation io.BytesIO à la place, mais ensuite .getvalue() sera de retour bytes, donc vous devez les transformer en chaîne avec .decode("utf-8")

OriginalL'auteur Corey Goldberg
5

La perform() méthode exécute le code html de fetch et écrit le résultat d'une fonction que vous spécifiez. Vous devez fournir un tampon de mettre le code html sur et une fonction d'écriture. Habituellement, cela peut être accompli en utilisant une StringIO objet comme suit:
```
import pycurl
import StringIO

c = pycurl.Curl()
c.setopt(pycurl.URL, "http://www.google.com/")

b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
c.setopt(pycurl.MAXREDIRS, 5)
c.perform()
html = b.getvalue()
```
Vous pouvez également utiliser un fichier ou un fichier temporaire ou toute autre chose qui peut stocker des données.

OriginalL'auteur MakeSomething

Vous devez vous connecter pour publier un commentaire.