récupérer des liens à partir de la page web à l'aide de python et de BeautifulSoup

Comment puis-je extraire les liens d'une page web et de copier l'adresse url des liens à l'aide de Python?

InformationsquelleAutor NepUS | 2009-07-03

170

Voici un court extrait à l'aide de la SoupStrainer classe dans BeautifulSoup:
```
import httplib2
from BeautifulSoup import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
```
La BeautifulSoup la documentation est en fait assez bonne, et couvre un certain nombre de scénarios typiques:

http://www.crummy.com/software/BeautifulSoup/documentation.html

Edit: Notez que j'ai utilisé le SoupStrainer classe parce que c'est un peu plus performant (mémoire et de la vitesse sage), si vous savez ce que vous êtes d'analyse à l'avance.
- +1, en utilisant la soupe passoire est une excellente idée, car il vous permet de contourner beaucoup d'inutiles analyse quand tout ce que vous êtes après sont les liens.
- J'ai édité pour ajouter une explication similaire avant, j'ai vu Evan commentaire. Merci de noter que, bien que!
- merci, c'résoudre mon problème, avec ce je fini mon proyect merci beaucoup
- Heads up: /usr/local/lib/python2.7/site-packages/bs4/__init__.py:128: UserWarning: The "parseOnlyThese" argument to the BeautifulSoup constructor has been renamed to "parse_only."
- Sur la version 3.2.1 de BeautifulSoup il n'y a pas de has_attr. Au lieu de cela je vois qu'il ya quelque chose appelé has_key et il fonctionne.
- Méfiez-vous de ce bug: bugs.launchpad.net/beautifulsoup/+bug/1105148
- Merci @user2796118 ça marche!!!
- vous pouvez simplement utiliser hasattr, un Python builtin: hasattr(link, "href")
- Mise à jour pour python3
- de bs4 importation BeautifulSoup. (pas de BeautifulSoup importation BeautifulSoup..) la correction nécessaire.
InformationsquelleAutor ars
59

Par souci d'exhaustivité, le BeautifulSoup 4 version, l'utilisation de l'encodage fourni par le serveur:
```
from bs4 import BeautifulSoup
import urllib2

resp = urllib2.urlopen("http://www.gpsbasecamp.com/national-parks")
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset'))

for link in soup.find_all('a', href=True):
    print link['href']
```
ou le Python 3 version:
```
from bs4 import BeautifulSoup
import urllib.request

resp = urllib.request.urlopen("http://www.gpsbasecamp.com/national-parks")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    print(link['href'])
```
et une version à l'aide de la demande de la bibliothèque, qui, comme l'écrit fonctionnent dans les deux Python 2 et 3:
```
from bs4 import BeautifulSoup
from bs4.dammit import EncodingDetector
import requests

resp = requests.get("http://www.gpsbasecamp.com/national-parks")
http_encoding = resp.encoding if 'charset' in resp.headers.get('content-type', '').lower() else None
html_encoding = EncodingDetector.find_declared_encoding(resp.content, is_html=True)
encoding = html_encoding or http_encoding
soup = BeautifulSoup(resp.content, from_encoding=encoding)

for link in soup.find_all('a', href=True):
    print(link['href'])
```
La soup.find_all('a', href=True) appel trouve tous <a> éléments qui ont une href attribut; éléments sans l'attribut est ignoré.

BeautifulSoup 3 développement arrêté en Mars 2012, de nouveaux projets devraient vraiment utiliser BeautifulSoup 4, toujours.

Noter que vous devez laisser le décodage du langage HTML à partir d'octets de BeautifulSoup. Vous pouvez vous informer BeautifulSoup de la characterset trouvé dans l'en-tête HTTP pour aider au décodage, mais ce peut être mauvais et est en conflit avec un <meta> en-tête infos trouvées dans le code HTML lui-même, qui est pourquoi la ci-dessus utilise la BeautifulSoup interne de la méthode de classe EncodingDetector.find_declared_encoding() pour assurer que de telles intégré de codage des astuces gagner plus d'un problème de configuration du serveur.

Avec requests, le response.encoding attribut par défaut Latin-1 si la réponse a un text/* mimetype, même si aucune characterset a été retourné. Ceci est cohérent avec le HTTP Rfc, mais douloureuse lorsqu'il est utilisé avec d'analyse HTML, de sorte que vous devez ignorer cet attribut lorsque aucune charset est défini dans l'en-tête Content-Type.
- Est-il quelque chose comme StrainedSoup pour bs4? (Je n'ai pas besoin maintenant, mais je me demandais, si il n'y a que vous seriez peut vouloir ajouter qu')
- vous voulez dire? Il ne pas aller n'importe où, c'est toujours de la partie du projet.
InformationsquelleAutor Martijn Pieters
48

D'autres ont recommandé BeautifulSoup, mais c'est beaucoup mieux d'utiliser lxml. Malgré son nom, il l'est aussi pour l'analyse et le grattage HTML. C'est beaucoup, beaucoup plus rapide que BeautifulSoup, et il prend même en charge "cassé" HTML mieux que BeautifulSoup (leur prétention à la célébrité). Il a une compatibilité de l'API pour BeautifulSoup aussi, si vous ne voulez pas apprendre le lxml API.

Ian Blicking accepte.

Il n'y a pas de raison d'utiliser BeautifulSoup plus, sauf si vous êtes sur Google App Engine ou quelque chose où ce qui n'est pas purement Python n'est pas autorisé.

lxml.html prend également en charge des sélecteurs CSS3, donc ce genre de chose est trivial.

Un exemple avec lxml et xpath devrait ressembler à ceci:
```
import urllib
import lxml.html
connection = urllib.urlopen('http://www.nytimes.com')

dom =  lxml.html.fromstring(connection.read())

for link in dom.xpath('//a/@href'): # select the url in href for all a tags(links)
    print link
```
- BeautifulSoup 4 utilisera lxml que la valeur par défaut de l'analyseur si installé.
InformationsquelleAutor aehlke

import urllib2
import BeautifulSoup

request = urllib2.Request("http://www.gpsbasecamp.com/national-parks")
response = urllib2.urlopen(request)
soup = BeautifulSoup.BeautifulSoup(response)
for a in soup.findAll('a'):
  if 'national-park' in a['href']:
    print 'found a url with national-park in the link'

Cela a résolu un problème que j'avais avec mon code. Merci!!!!

InformationsquelleAutor Andrew Johnson

8

Sous le capot BeautifulSoup utilise maintenant lxml. Les demandes, lxml & interprétations de la liste fait un combo killer.
```
import requests
import lxml.html

dom = lxml.html.fromstring(requests.get('http://www.nytimes.com').content)

[x for x in dom.xpath('//a/@href') if '//' in x and 'nytimes.com' not in x]
```
Dans la liste comp, le "si" //" et "url.com" pas de x" est une méthode simple pour nettoyer la liste des url des sites de l '"intérieur" de navigation les url, etc.
- Si c'est un repost, pourquoi ne pas l'original de la poste sont les suivantes: 1. de demandes 2.liste comp 3. la logique de gommage site interne & junk liens ?? Essayer et de comparer les résultats de ces deux postes, ma liste comp ne étonnamment un bon travail de nettoyage de la junk liens.
- L'OP n'a pas demandé à ces fonctionnalités, et la part qu'il a demander a déjà été posté et résolu en utilisant exactement la même méthode que vous postez. Cependant, je vais supprimer le downvote que la compréhension de liste ne ajouter de la valeur pour les gens qui ne veulent pas de ces fonctionnalités, et vous ne le mentionner explicitement dans le corps du message. Aussi, vous pouvez utiliser le rep 🙂
InformationsquelleAutor cheekybastard

Le code suivant pour récupérer tous les liens disponibles dans une page web en utilisant urllib2 et BeautifulSoup4:

import urllib2
from bs4 import BeautifulSoup

url = urllib2.urlopen("http://www.espncricinfo.com/").read()
soup = BeautifulSoup(url)

for line in soup.find_all('a'):
    print(line.get('href'))

InformationsquelleAutor Sentient07

4

Pourquoi ne pas utiliser des expressions régulières:
```
import urllib2
import re
url = "http://www.somewhere.com"
page = urllib2.urlopen(url)
page = page.read()
links = re.findall(r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page)
for link in links:
    print('href: %s, HTML text: %s' % (link[0], link[1]))
```
- j'aimerais être capable de comprendre cela, où puis-je trouvez rapidement ce que (r"<a.*?\s*href=\"(.*?)\".*?>(.*?)</a>", page) signifie? merci!
- Vraiment une mauvaise idée. Rompu HTML partout.
- Pourquoi ne pas utiliser des expressions régulières pour analyser html: stackoverflow.com/questions/1732348/...
- le web est plein de regex tutoriels. C'est bien la peine de votre temps pour lire un couple. Tout en REs pouvez obtenir de très compliqué, vous demander à propos est assez basique.
InformationsquelleAutor ahmadh
4

Pour trouver tous les liens, nous allons dans cet exemple utiliser le module urllib2
avec la ré.module
*L'un des plus puissants de la fonction dans le module re est "re.findall()".
Tout en ré.recherche() est utilisé pour trouver le premier match, pour un motif, re.findall() trouve tous
les matchs et les renvoie sous la forme d'une liste de chaînes de caractères, chaque chaîne de caractères représentant un match*
```
import urllib2

import re
#connect to a URL
website = urllib2.urlopen(url)

#read html code
html = website.read()

#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)

print links
```
InformationsquelleAutor Mayur Ingle
3

juste pour obtenir les liens, sans B. de la soupe et de la regex:
```
import urllib2
url="http://www.somewhere.com"
page=urllib2.urlopen(url)
data=page.read().split("</a>")
tag="<a href=\""
endtag="\">"
for item in data:
    if "<a href" in item:
        try:
            ind = item.index(tag)
            item=item[ind+len(tag):]
            end=item.index(endtag)
        except: pass
        else:
            print item[:end]
```
pour les opérations plus complexes, bien sûr BSoup est toujours préféré.
- Et si, par exemple, il y a quelque chose entre les deux <a et href? Dire ou onclick="..." ou même simplement une nouvelle ligne? stackoverflow.com/questions/1732348/...
- est-il un moyen de filtrer seulement quelques liens avec le présent? comme, disons, je ne veux que les liens qui les a "Épisode" dans le lien?
InformationsquelleAutor ghostdog74

Ce script fait ce que vous cherchez, Mais résout également les liens vers des liens absolus.

import urllib
import lxml.html
import urlparse

def get_dom(url):
    connection = urllib.urlopen(url)
    return lxml.html.fromstring(connection.read())

def get_links(url):
    return resolve_links((link for link in get_dom(url).xpath('//a/@href')))

def guess_root(links):
    for link in links:
        if link.startswith('http'):
            parsed_link = urlparse.urlparse(link)
            scheme = parsed_link.scheme + '://'
            netloc = parsed_link.netloc
            return scheme + netloc

def resolve_links(links):
    root = guess_root(links)
    for link in links:
        if not link.startswith('http'):
            link = urlparse.urljoin(root, link)
        yield link  

for link in get_links('http://www.google.com'):
    print link

InformationsquelleAutor Ricky Wilson

2

Liens peuvent être à l'intérieur d'une variété d'attributs de sorte que vous pouvez passer une liste de ces attributs pour sélectionner

par exemple, avec la src et de l'attribut href (j'utilise ici la ^ opérateur de spécifier que l'une de ces valeurs d'attributs commence par http. Vous pouvez personnaliser ce comme requis
```
from bs4 import BeautifulSoup as bs
import requests
r = requests.get('https://stackoverflow.com/')
soup = bs(r.content, 'lxml')
links = [item['href'] if item.get('href') is not None else item['src'] for item in soup.select('[href^="http"], [src^="http"]') ]
print(links)
```
Attribut = valeur sélecteurs

[attr^=valeur]

Représente des éléments avec un nom d'attribut de l'attribut dont la valeur est préfixée (précédé) par valeur.

InformationsquelleAutor QHarr

Voici un exemple d'utilisation de @ars accepté de répondre et de la BeautifulSoup4, requests, et wget modules pour gérer les téléchargements.

import requests
import wget
import os

from bs4 import BeautifulSoup, SoupStrainer

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/eeg-mld/eeg_full/'
file_type = '.tar.gz'

response = requests.get(url)

for link in BeautifulSoup(response.content, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        if file_type in link['href']:
            full_path = url + link['href']
            wget.download(full_path)

InformationsquelleAutor Blairg23

J'ai trouvé la réponse par @Blairg23 de travail , après la correction suivante (couvrant le scénario où il ne fonctionne pas correctement):

for link in BeautifulSoup(response.content, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        if file_type in link['href']:
            full_path =urlparse.urljoin(url , link['href']) #module urlparse need to be imported
            wget.download(full_path)

Pour Python 3:

urllib.parse.urljoin doit être utilisé pour obtenir l'intégralité de l'URL à la place.

InformationsquelleAutor AkanKsha Bhardwaj

BeatifulSoup propre analyseur peut être lent. Il serait peut-être plus réalisable à utiliser lxml qui est capable d'analyser directement à partir d'une URL (avec certaines limitations mentionnées ci-dessous).

import lxml.html

doc = lxml.html.parse(url)

links = doc.xpath('//a[@href]')

for link in links:
    print link.attrib['href']

Le code ci-dessus sera de retour les liens que est, et dans la plupart des cas, ils seraient liens relatifs ou absolus à partir de la racine du site. Depuis mon cas d'utilisation était de n'extraire qu'un certain type de liens, ci-dessous est une version qui convertit les liens Url et qui accepte éventuellement un glob motif comme *.mp3. Il ne gère pas les simples et le double de points dans les chemins relatifs, mais jusqu'à présent, je n'ai pas besoin d'elle. Si vous avez besoin pour analyser les URL des fragments contenant des ../ ou ./ puis urlparse.urljoin pourrait venir dans maniable.

NOTE: Direct lxml analyser les url ne gère pas le chargement de https et ne pas faire des redirections, donc, pour cette raison, la version ci-dessous est à l'aide de urllib2 + lxml.

#!/usr/bin/env python
import sys
import urllib2
import urlparse
import lxml.html
import fnmatch

try:
    import urltools as urltools
except ImportError:
    sys.stderr.write('To normalize URLs run: `pip install urltools --user`')
    urltools = None


def get_host(url):
    p = urlparse.urlparse(url)
    return "{}://{}".format(p.scheme, p.netloc)


if __name__ == '__main__':
    url = sys.argv[1]
    host = get_host(url)
    glob_patt = len(sys.argv) > 2 and sys.argv[2] or '*'

    doc = lxml.html.parse(urllib2.urlopen(url))
    links = doc.xpath('//a[@href]')

    for link in links:
        href = link.attrib['href']

        if fnmatch.fnmatch(href, glob_patt):

            if not href.startswith(('http://', 'https://' 'ftp://')):

                if href.startswith('/'):
                    href = host + href
                else:
                    parent_url = url.rsplit('/', 1)[0]
                    href = urlparse.urljoin(parent_url, href)

                    if urltools:
                        href = urltools.normalize(href)

            print href

L'utilisation est la suivante:

getlinks.py http://stackoverflow.com/a/37758066/191246
getlinks.py http://stackoverflow.com/a/37758066/191246 "*users*"
getlinks.py http://fakedomain.mu/somepage.html "*.mp3"

lxml ne peut gérer que d'entrée valide, comment peut-il remplacer BeautifulSoup?
Je pense que lxml.html est un peu plus clémente que la lxml.etree. Si votre entrée n'est pas bien formé, alors vous pouvez définir explicitement le BeautifulSoup analyseur: lxml.de/elementsoup.html. Et si vous partez avec BeatifulSoup puis BS3 est un meilleur choix.

InformationsquelleAutor ccpizza

import urllib2
from bs4 import BeautifulSoup
a=urllib2.urlopen('http://dir.yahoo.com')
code=a.read()
soup=BeautifulSoup(code)
links=soup.findAll("a")
#To get href part alone
print links[0].attrs['href']

InformationsquelleAutor Tilak Patidar

Vous devez vous connecter pour publier un commentaire.