Obtenir le domaine racine du lien

J'ai un lien tel que http://www.techcrunch.com/ et je voudrais, pour obtenir l'techcrunch.com le cadre de la liaison. Comment puis-je aller à ce sujet en python?

source d'informationauteur Gavin Schulz

24

Obtenir le nom d'hôte est assez facile à l'aide de urlparse:
```
hostname = urlparse.urlparse("http://www.techcrunch.com/").hostname
```
Obtenir le "domaine racine", cependant, va être de plus en plus problématique, car il n'est pas défini dans un sens syntaxique. Quel est le domaine racine de "www.theregister.co.uk"? Comment à propos des réseaux à l'aide de domaines par défaut? "devbox12" pourrait être un nom d'hôte valide.

Une façon de gérer ce qui serait d'utiliser la Public Liste De Suffixesqui tente de catalogue à la fois réel domaines de premier niveau (par exemple ".com", ".net", ".org") ainsi que des domaines privés qui sont utilisé comme Tld (par exemple ".co.royaume-uni" ou même ".github.io"). Vous pouvez accéder à la LSIP de Python à l'aide de la publicsuffix2 bibliothèque:
```
import publicsuffix
import urlparse

def get_base_domain(url):
    # This causes an HTTP request; if your script is running more than,
    # say, once a day, you'd want to cache it yourself.  Make sure you
    # update frequently, though!
    psl = publicsuffix.fetch()

    hostname = urlparse.urlparse(url).hostname

    return publicsuffix.get_public_suffix(hostname, psl)
```

Structure générale de l'URL:

scheme://netloc/chemin;paramètres?requête#fragment

Comme TIMTOWTDI devise:

À l'aide de urlparse,

>>> from urllib.parse import urlparse  # python 3.x
>>> parsed_uri = urlparse('http://www.stackoverflow.com/questions/41899120/whatever')  # returns six components
>>> domain = '{uri.netloc}/'.format(uri=parsed_uri)
>>> result = domain.replace('www.', '')  # as per your case
>>> print(result)
'stackoverflow.com/'

À l'aide de tldextract

>>> import tldextract  # The module looks up TLDs in the Public Suffix List, mantained by Mozilla volunteers
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')

dans votre cas:

>>> extracted = tldextract.extract('http://www.techcrunch.com/')
>>> '{}.{}'.format(extracted.domain, extracted.suffix)
'techcrunch.com'

tldextract sur l'autre main sait ce que tous les gtld [Domaines Génériques de premier Niveau]
et les cctld [Country Code Top-Level Domains] ressembler
en cherchant le vivant actuellement en selon le Public Suffixe
Liste. Donc, une URL, il sait que ses sous-domaine de son domaine et de ses
domaine de son code de pays.

Plus! 🙂

Script suivant n'est pas parfait, mais peut être utilisé pour l'affichage/le raccourcissement des fins. Si vous voulez vraiment ou besoin, pour éviter un 3ème partie dépendances - surtout à distance de l'extraction et de la mise en cache de certains tld données que je peux vous suggérer script suivant que j'utilise dans mes projets. Il utilise deux dernières parties de domaine à la plupart des extensions de nom de domaine et laisse trois dernières parties pour le reste de la moins connue extensions de nom de domaine. Dans le pire des cas domaine sera divisée en trois parties au lieu de deux:

from urlparse import urlparse

def extract_domain(url):
    parsed_domain = urlparse(url)
    domain = parsed_domain.netloc or parsed_domain.path # Just in case, for urls without scheme
    domain_parts = domain.split('.')
    if len(domain_parts) > 2:
        return '.'.join(domain_parts[-(2 if domain_parts[-1] in {
            'com', 'net', 'org', 'io', 'ly', 'me', 'sh', 'fm', 'us'} else 3):])
    return domain

extract_domain('google.com')          # google.com
extract_domain('www.google.com')      # google.com
extract_domain('sub.sub2.google.com') # google.com
extract_domain('google.co.uk')        # google.co.uk
extract_domain('sub.google.co.uk')    # google.co.uk
extract_domain('www.google.com')      # google.com
extract_domain('sub.sub2.voila.fr')   # sub2.voila.fr

0

______ À l'aide de Python 3.3 et pas 2.x________

Je voudrais ajouter une petite chose pour Ben en Blanc de la réponse.
```
from urllib.parse import quote,unquote,urlparse
u=unquote(u) #u= URL e.g. http://twitter.co.uk/hello/there
g=urlparse(u)
u=g.netloc
```
Maintenant, je viens de recevoir le nom de domaine de urlparse.

Pour supprimer les sous-domaines vous avez tout d'abord besoin de savoir quels sont les Domaines de Haut Niveau et qui ne le sont pas. E. g. dans le ci-dessus http://twitter.co.uk - co.uk est un TLD tandis que dans http://sub.twitter.com nous avons seulement .com en tant que TLD et sub est un sous-domaine.

Donc, nous avons besoin d'obtenir un fichier/liste qui a toutes les tld.

tlds = load_file("tlds.txt") #tlds holds the list of tlds
```
hostname = u.split(".")
if len(hostname)>2:
    if hostname[-2].upper() in tlds:
        hostname=".".join(hostname[-3:])
    else:
        hostname=".".join(hostname[-2:])
else:
    hostname=".".join(hostname[-2:])
```

def get_domain(url):
    u = urlsplit(url)
    return u.netloc

def get_top_domain(url):
    u"""
    >>> get_top_domain('http://www.google.com')
    'google.com'
    >>> get_top_domain('http://www.sina.com.cn')
    'sina.com.cn'
    >>> get_top_domain('http://bbc.co.uk')
    'bbc.co.uk'
    >>> get_top_domain('http://mail.cs.buaa.edu.cn')
    'buaa.edu.cn'
    """
    domain = get_domain(url)
    domain_parts = domain.split('.')
    if len(domain_parts) < 2:
        return domain
    top_domain_parts = 2
    # if a domain's last part is 2 letter long, it must be country name
    if len(domain_parts[-1]) == 2:
        if domain_parts[-1] in ['uk', 'jp']:
            if domain_parts[-2] in ['co', 'ac', 'me', 'gov', 'org', 'net']:
                top_domain_parts = 3
        else:
            if domain_parts[-2] in ['com', 'org', 'net', 'edu', 'gov']:
                top_domain_parts = 3
    return '.'.join(domain_parts[-top_domain_parts:])

-4

Cela a fonctionné pour mes fins. J'ai pensé que je devais le partager.
```
".".join("www.sun.google.com".split(".")[-2:])
```

Vous devez vous connecter pour publier un commentaire.