Comment extraire l'Url d'une page HTML en Python

Je dois écrire un crawler web en Python. Je ne sais pas comment analyser une page et d'en extraire les Url de HTML. Où dois-je aller étudier à écrire un tel programme?

En d'autres termes, est-il un simple programme en python qui peut être utilisé comme un modèle pour un générique web crawler? Idéalement, il devrait utiliser les modules qui sont relativement simples à utiliser et il devrait inclure beaucoup de commentaires pour décrire ce que chaque ligne de code est en train de faire.

OriginalL'auteur user2189704 | 2013-03-20

Oeil à l'exemple de code ci-dessous. Le script extraits de code html d'une page web (ici page d'accueil Python) et extrait tous les liens dans cette page. Espérons que cette aide.

#!/usr/bin/env python

import requests
from BeautifulSoup import BeautifulSoup

url = "http://www.python.org"
response = requests.get(url)
# parse html
page = str(BeautifulSoup(response.content))


def getURL(page):
    """

    :param page: html of web page (here: Python home page) 
    :return: urls in that page 
    """
    start_link = page.find("a href")
    if start_link == -1:
        return None, 0
    start_quote = page.find('"', start_link)
    end_quote = page.find('"', start_quote + 1)
    url = page[start_quote + 1: end_quote]
    return url, end_quote

while True:
    url, n = getURL(page)
    page = page[n:]
    if url:
        print url
    else:
        break

De sortie:

/
#left-hand-navigation
#content-body
/search
/about/
/news/
/doc/
/download/
/getit/
/community/
/psf/
http://docs.python.org/devguide/
/about/help/
http://pypi.python.org/pypi
/download/releases/2.7.3/
http://docs.python.org/2/
/ftp/python/2.7.3/python-2.7.3.msi
/ftp/python/2.7.3/Python-2.7.3.tar.bz2
/download/releases/3.3.0/
http://docs.python.org/3/
/ftp/python/3.3.0/python-3.3.0.msi
/ftp/python/3.3.0/Python-3.3.0.tar.bz2
/community/jobs/
/community/merchandise/
/psf/donations/
http://wiki.python.org/moin/Languages
http://wiki.python.org/moin/Languages
http://www.google.com/calendar/ical/b6v58qvojllt0i6ql654r1vh00%40group.calendar.google.com/public/basic.ics
http://www.google.com/calendar/ical/j7gov1cmnqr9tvg14k621j7t5c%40group.calendar.google.com/public/basic.ics
http://pycon.org/#calendar
http://www.google.com/calendar/ical/3haig2m9msslkpf2tn1h56nn9g%40group.calendar.google.com/public/basic.ics
http://pycon.org/#calendar
http://www.psfmember.org

...

OriginalL'auteur Shankar

Vous pouvez utiliser BeautifulSoup comme beaucoup l'ont également déclaré. Il peut analyser HTML,XML, etc. Pour voir certaines de ses caractéristiques, voir ici.

Exemple:

import urllib2
from bs4 import BeautifulSoup
url = 'http://www.google.co.in/'
conn = urllib2.urlopen(url)
html = conn.read()
soup = BeautifulSoup(html)
links = soup.find_all('a')
for tag in links:
link = tag.get('href',None)
if link is not None:
print link

OriginalL'auteur pradyunsg

import sys
import re
import urllib2
import urlparse
tocrawl = set(["http://www.facebook.com/"])
crawled = set([])
keywordregex = re.compile('<meta\sname=["\']keywords["\']\scontent=["\'](.*?)["\']\s/>')
linkregex = re.compile('<a\s*href=[\'|"](.*?)[\'"].*?>')
while 1:
try:
crawling = tocrawl.pop()
print crawling
except KeyError:
raise StopIteration
url = urlparse.urlparse(crawling)
try:
response = urllib2.urlopen(crawling)
except:
continue
msg = response.read()
startPos = msg.find('<title>')
if startPos != -1:
endPos = msg.find('</title>', startPos+7)
if endPos != -1:
title = msg[startPos+7:endPos]
print title
keywordlist = keywordregex.findall(msg)
if len(keywordlist) > 0:
keywordlist = keywordlist[0]
keywordlist = keywordlist.split(", ")
print keywordlist
links = linkregex.findall(msg)
crawled.add(crawling)
for link in (links.pop(0) for _ in xrange(len(links))):
if link.startswith('/'):
link = 'http://' + url[1] + link
elif link.startswith('#'):
link = 'http://' + url[1] + url[2] + link
elif not link.startswith('http'):
link = 'http://' + url[1] + '/' + link
if link not in crawled:
tocrawl.add(link)

Référencé: Python Web Crawler en Moins de 50 Lignes (Lent ou ne fonctionne plus, ne se charge pas pour moi)

OriginalL'auteur Scy

3

Vous pouvez utiliser beautifulsoup. Suivez la documentation et de voir ce qui correspond à vos besoins. La documentation contient des extraits de code pour savoir comment extraire les URL.
```
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
soup.find_all('a') # Finds all hrefs from the html doc.
```
OriginalL'auteur Sushant Gupta
2

Avec l'analyse des pages, découvrez la BeautifulSoup module. Il est simple à utiliser et vous permet d'analyser des pages avec HTML. Vous pouvez extraire l'Url du HTML tout simplement en faisant str.find('a')

Ne pas utiliser des expressions régulières pour l'analyse HTML

OriginalL'auteur TerryA

Vous devez vous connecter pour publier un commentaire.