comment obtenir le nom de domaine à partir de l'URL

Comment puis-je récupérer un nom de domaine à partir d'une Chaîne d'URL?

Exemples:

+----------------------+------------+
| input                | output     |
+----------------------+------------+
| www.google.com       | google     |
| www.mail.yahoo.com   | mail.yahoo |
| www.mail.yahoo.co.in | mail.yahoo |
| www.abc.au.uk        | abc        |
+----------------------+------------+

Connexes:

Correspondant à une adresse web par le biais de regex

ce sujet www.abc.def.ghi.au.uk?
Quid de l'foo.bar.com”? Et “foo.com”?
Eh bien, le deuxième poste en quelques minutes un sujet similaire -- devoirs? (stackoverflow.com/questions/568864/...)
À quoi puis-je vous demander? Il est difficile d'inventer pour quoi avez-vous besoin des noms de domaine sans 2ème niveau de suffixe de domaine (comme .co.royaume-uni)
Hemal: dans ce cas, la production prévue est abc.def.ghi @ Bombe: je dois enlever le préfixe www, de toute façon
Le problème n'est pas résoluble. Vous ne pouvez pas dire si xx foo.xx.yy doit être retiré trop (Pourquoi avez-vous retiré de l'ua.royaume-uni et non pas seulement royaume-uni?)
D'accord avec 'n'est pas soluble'. De trop nombreux états qui s'excluent mutuellement.
Votre terminologie est toutes sortes de mal ici. Toutes les entrées de la liste sont des noms de domaine, pas les Url. C'est une URL: http://en.wikipedia.org/wiki/URL, le nom de domaine dans l'URL est en.wikipedia.org
J'ai trouvé cette réponse très utile: stackoverflow.com/a/4820675/1740705.

InformationsquelleAutor Chinmay | 2009-02-20

regex url

40

Une fois, j'ai dû écrire un tel regex pour une entreprise, j'ai travaillé pour. La solution était:
- Obtenir une liste de tous les ccTLD et gTLD disponibles. Votre premier arrêt devrait être IANA. La liste de Mozilla ressemble beaucoup à première vue, mais manque de ac.royaume-uni, par exemple, pour cela, il n'est pas vraiment utilisable.
- Joindre à la liste comme dans l'exemple ci-dessous. Un avertissement: l'ordre est important! Si org.royaume-uni semblerait, d'après royaume-uni puis exemple.org.royaume-uni correspondent à org au lieu de exemple.
Exemple regex:
```
.*([^\.]+)(com|net|org|info|coop|int|co\.uk|org\.uk|ac\.uk|uk|__and so on__)$
```
Cela a fonctionné très bien et correspond aussi bizarre, non officiels de haut niveaux comme de.com et amis.

L'envers:
- Très rapide si la regex est parfaitement ordonné
L'inconvénient de cette solution est bien sûr:
- Manuscrite regex qui doit être mis à jour manuellement si cctld modifier ou ajouté. Travail fastidieux!
- Très grande regex donc pas très lisible.
- RE: fastidieux de mise à jour - Écrire un petit générateur de code de programme pour générer de l'expression rationnelle basée sur les données d'entrée des fichiers.
- Vrai. Avec un bon harnais de test, cela devrait être possible. Nous avons bien sûr fait aucun test alors...
- La liste de Mozilla semble assez bon en fait, il a *.royaume-uni de match .ac.au royaume-uni . Vous avez juste à trouver le format et interpréter correctement les règles.
- Intéressant de noter que si vous analysez le mozilla liste de TOUS les tld, les regex compilation échoue. (sur PHP au moins)
- J'avais besoin de cela pour un couple de projets, j'ai donc implémenté en Python et il s'est ouvert sur GitHub. Vous pouvez également interroger via un point de terminaison HTTP sur App Engine. N'hésitez pas à apporter!
- Il y a bibliothèques basée sur Mozilla Public de la Liste de suffixes que faire de l'obtention de toute partie du domaine facile.
- La Mozilla PSL) correspond maintenant *.uk, donc @pi.'s inquiet à ce sujet, étant incapable de correspondance ac.uk ne s'applique plus.
- Je pense que cette réponse est inutile de nos jours, depuis les restrictions pour les gtld ont été supprimés par l'IANA et la liste devrait être mise à jour très fréquemment.
- J'ai vérifié dans le rubular.com.. Cela ne fonctionne pas
InformationsquelleAutor pi.
12
```
/^(?:www\.)?(.*?)\.(?:com|au\.uk|co\.in)$/
```
- +1 - parler succincte - pas d'anglais dans la réponse. L'amour c'.
- pas d'anglais dans la question....
InformationsquelleAutor jfs
9

Extraire le nom de Domaine avec précision peut être très difficile, principalement parce que l'extension de domaine peut contenir 2 pièces (comme des .com.au ou .co.royaume-uni) et le sous-domaine (le préfixe) peut ou peut ne pas être là. Liste de toutes les extensions de nom de domaine n'est pas une option, car il y a des centaines de ces. EuroDNS.com par exemple des listes de plus de 800 extensions de nom de domaine.

J'ai donc écrit une fonction php qui utilise 'parse_url()' et quelques observations à propos des extensions de domaine à extraire avec précision l'url des composants ET le nom de domaine. La fonction est la suivante:
```
function parse_url_all($url){
    $url = substr($url,0,4)=='http'? $url: 'http://'.$url;
    $d = parse_url($url);
    $tmp = explode('.',$d['host']);
    $n = count($tmp);
    if ($n>=2){
        if ($n==4 || ($n==3 && strlen($tmp[($n-2)])<=3)){
            $d['domain'] = $tmp[($n-3)].".".$tmp[($n-2)].".".$tmp[($n-1)];
            $d['domainX'] = $tmp[($n-3)];
        } else {
            $d['domain'] = $tmp[($n-2)].".".$tmp[($n-1)];
            $d['domainX'] = $tmp[($n-2)];
        }
    }
    return $d;
}
```
Cette simple fonction fonctionne dans presque tous les cas. Il y a quelques exceptions, mais elles sont très rares.

Pour démontrer /tester cette fonction, vous pouvez utiliser les éléments suivants:
```
$urls = array('www.test.com', 'test.com', 'cp.test.com' .....);
echo "<div style='overflow-x:auto;'>";
echo "<table>";
echo "<tr><th>URL</th><th>Host</th><th>Domain</th><th>Domain X</th></tr>";
foreach ($urls as $url) {
    $info = parse_url_all($url);
    echo "<tr><td>".$url."</td><td>".$info['host'].
    "</td><td>".$info['domain']."</td><td>".$info['domainX']."</td></tr>";
}
echo "</table></div>";
```
La sortie sera comme suit pour l'adresse URL de la liste:

Comme vous pouvez le voir, le nom de domaine et le nom de domaine sans extension sont toujours extraites quelle que soit l'URL qui est présenté à la fonction.

J'espère que cela aide.
- Clinton a dit: "j'ai donc écrit une fonction php qui utilise 'parse_url()' et quelques observations à propos des extensions de domaine à extraire avec précision l'url des composants ET le nom de domaine." Quelqu'un a une version JavaScript de cette fonction?
- Bon script. Est-il encore bon?
- Je vous remercie. J'ai toujours l'utiliser sur un certain nombre d'applications qui impliquent l'URL et le domaine des contrôles et il travaille tout le temps pour moi.
InformationsquelleAutor Clinton
4

Je ne sais pas du tout bibliothèques, mais la manipulation de la chaîne de noms de domaine est assez facile.

La partie la plus difficile est de savoir si le nom est au deuxième ou de troisième niveau. Pour cela, vous aurez besoin d'un fichier de données vous maintenir (par exemple pour .royaume-uni est n'est pas toujours le troisième niveau, certaines organisations (par exemple, bl.royaume-uni, jet.royaume-uni) existent au deuxième niveau).

La source de Firefox de Mozilla a un fichier de données, cochez la Mozilla licence pour voir si vous pouvez les réutiliser.

InformationsquelleAutor Richard

Il y a deux façons

À l'aide de split

Puis juste analyser cette chaîne

var domain;
//find & remove protocol (http, ftp, etc.) and get domain
if (url.indexOf('://') > -1) {
    domain = url.split('/')[2];
} if (url.indexOf('//') === 0) {
    domain = url.split('/')[2];
} else {
    domain = url.split('/')[0];
}

//find & remove port number
domain = domain.split(':')[0];

En Utilisant Les Regex

 var r = /:\/\/(.[^/]+)/;
 "http://stackoverflow.com/questions/5343288/get-url".match(r)[1] 
 => stackoverflow.com

Espère que cette aide

InformationsquelleAutor Fizer Khan

import urlparse

GENERIC_TLDS = [
    'aero', 'asia', 'biz', 'com', 'coop', 'edu', 'gov', 'info', 'int', 'jobs', 
    'mil', 'mobi', 'museum', 'name', 'net', 'org', 'pro', 'tel', 'travel', 'cat'
    ]

def get_domain(url):
    hostname = urlparse.urlparse(url.lower()).netloc
    if hostname == '':
        # Force the recognition as a full URL
        hostname = urlparse.urlparse('http://' + uri).netloc

    # Remove the 'user:passw', 'www.' and ':port' parts
    hostname = hostname.split('@')[-1].split(':')[0].lstrip('www.').split('.')

    num_parts = len(hostname)
    if (num_parts < 3) or (len(hostname[-1]) > 2):
        return '.'.join(hostname[:-1])
    if len(hostname[-2]) > 2 and hostname[-2] not in GENERIC_TLDS:
        return '.'.join(hostname[:-1])
    if num_parts >= 3:
        return '.'.join(hostname[:-2])

Ce code n'est pas garanti pour fonctionner avec toutes les Url et ne filtre pas ceux qui sont grammaticalement correctes mais pas comme l'exemple."au royaume-uni.

Cependant, il va faire le travail dans la plupart des cas.

InformationsquelleAutor Juan-Pablo Scaletti

Fondamentalement, ce que vous voulez, c'est:

google.com        -> google.com    -> google
www.google.com    -> google.com    -> google
google.co.uk      -> google.co.uk  -> google
www.google.co.uk  -> google.co.uk  -> google
www.google.org    -> google.org    -> google
www.google.org.uk -> google.org.uk -> google

Facultatif:

www.google.com     -> google.com    -> www.google
images.google.com  -> google.com    -> images.google
mail.yahoo.co.uk   -> yahoo.co.uk   -> mail.yahoo
mail.yahoo.com     -> yahoo.com     -> mail.yahoo
www.mail.yahoo.com -> yahoo.com     -> mail.yahoo

Vous n'avez pas besoin de construire un monde changeant regex comme 99% des domaines seront appariés correctement si vous regardez simplement la 2e de la dernière partie du nom:

(co|com|gov|net|org)

Si c'en est un, alors vous avez besoin pour correspondre à 3 points, d'autre 2. Simple. Maintenant, ma regex wizardry est pas de match pour que de la, des livres, de sorte que le meilleur moyen que j'ai trouvé pour y parvenir est avec un peu de code, en supposant que vous avez déjà dépouillé de l'path:

 my @d=split /\./,$domain;                # split the domain part into an array
 $c=@d;                                   # count how many parts
 $dest=$d[$c-2].'.'.$d[$c-1];             # use the last 2 parts
 if ($d[$c-2]=~m/(co|com|gov|net|org)/) { # is the second-last part one of these?
   $dest=$d[$c-3].'.'.$dest;              # if so, add a third part
 };
 print $dest;                             # show it

Pour obtenir juste le nom, comme par votre question:

 my @d=split /\./,$domain;                # split the domain part into an array
 $c=@d;                                   # count how many parts
 if ($d[$c-2]=~m/(co|com|gov|net|org)/) { # is the second-last part one of these?
   $dest=$d[$c-3];                        # if so, give the third last
   $dest=$d[$c-4].'.'.$dest if ($c>3);    # optional bit
 } else {
   $dest=$d[$c-2];                        # else the second last
   $dest=$d[$c-3].'.'.$dest if ($c>2);    # optional bit 
 };
 print $dest;                             # show it

J'aime cette approche, car il est exempt d'entretien. Sauf si vous voulez valider le fait que c'est en fait un domaine légitime, mais c'est un peu inutile, parce que vous avez le plus de chances que l'utilisation de ce traiter les fichiers journaux et un domaine non valide de ne pas trouver son chemin dans la là en premier lieu.

Si vous souhaitez correspondre à "officieux" des sous-domaines tels que bozo.za.net ou bozo.de l'ua.royaume-uni, bozo.msf.ru juste ajouter (za|au|msf) pour l'expression rationnelle.

Je serais ravi de voir quelqu'un faire tout cela en utilisant simplement une regex, je suis sûr que c'est possible.

InformationsquelleAutor

2

Il n'est pas possible sans l'aide d'un TLD liste à comparer avec leur existe de nombreux cas comme http://www.db.de/ ou http://bbc.co.uk/ qui sera interprétée par une expression régulière comme les domaines db.de (correct) et co.uk (faux).

Mais même avec cela, vous n'aurez pas de succès si votre liste ne contient pas les Sld, trop. Les url comme http://big.uk.com/ et http://www.uk.com/ serait à la fois interprété comme uk.com (le premier domaine est big.uk.com).

Parce que tous les navigateurs d'utiliser Mozilla Public de la Liste de suffixes:

https://en.wikipedia.org/wiki/Public_Suffix_List

Vous pouvez l'utiliser dans votre code par important à travers cette URL:

http://mxr.mozilla.org/mozilla-central/source/netwerk/dns/effective_tld_names.dat?raw=1

Hésitez pas à prolonger ma fonction pour extraire le nom de domaine uniquement. Ne pas utiliser les regex et il est rapide:

http://www.programmierer-forum.de/domainnamen-ermitteln-t244185.htm#3471878

InformationsquelleAutor mgutt
1

/[^w{3}\.]([a-zA-Z0-9]([a-zA-Z0-9\-]{0,65}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}/gim

l'utilisation de ce javascript regex ignore www et à la suite de dot, tout en conservant le domaine intact. aussi bien ne correspond à aucun " www et de cc tld

InformationsquelleAutor stancoffyn
0

Vous avez besoin d'une liste de ce domaine, des préfixes et des suffixes peuvent être supprimés. Par exemple:

Préfixes:
- www.
Suffixes:
- .com
- .co.in
- .au.uk
- fonctionne uniquement pour les échantillons et le maintien de ces listes n'est pas à l'échelle
- Alors quoi d'autre. Deviner?
InformationsquelleAutor Gumbo

Donc si vous avez une chaîne et non une fenêtre.l'emplacement vous pouvez utiliser...

String.prototype.toUrl = function(){
if(!this && 0 < this.length)
{
return undefined;
}
var original = this.toString();
var s = original;
if(!original.toLowerCase().startsWith('http'))
{
s = 'http://' + original;
}
s = this.split('/');
var protocol = s[0];
var host = s[2];
var relativePath = '';
if(s.length > 3){
for(var i=3;i< s.length;i++)
{
relativePath += '/' + s[i];
}
}
s = host.split('.');
var domain = s[s.length-2] + '.' + s[s.length-1];    
return {
original: original,
protocol: protocol,
domain: domain,
host: host,
relativePath: relativePath,
getParameter: function(param)
{
return this.getParameters()[param];
},
getParameters: function(){
var vars = [], hash;
var hashes = this.original.slice(this.original.indexOf('?') + 1).split('&');
for (var i = 0; i < hashes.length; i++) {
hash = hashes[i].split('=');
vars.push(hash[0]);
vars[hash[0]] = hash[1];
}
return vars;
}
};};

Comment l'utiliser.

var str = "http://en.wikipedia.org/wiki/Knopf?q=1&t=2";
var url = str.toUrl;
var host = url.host;
var domain = url.domain;
var original = url.original;
var relativePath = url.relativePath;
var paramQ = url.getParameter('q');
var paramT = url.getParamter('t');

InformationsquelleAutor Thomas Paris

0

Pour un certain but, j'ai fait ce rapide fonction Python hier. Il renvoie le domaine à partir de l'URL. Il est rapide et ne necessite pas de fichier d'entrée d'inscription des trucs. Cependant, je ne prétends pas que cela fonctionne dans tous les cas, mais il a vraiment fait le travail, j'avais besoin d'un simple texte d'exploration de script.

De sortie ressemble à ceci :

http://www.google.co.uk => google.co.royaume-uni

http://24.media.tumblr.com/tumblr_m04s34rqh567ij78k_250.gif => tumblr.com
```
def getDomain(url):    
parts = re.split("\/", url)
match = re.match("([\w\-]+\.)*([\w\-]+\.\w{2,6}$)", parts[2]) 
if match != None:
if re.search("\.uk", parts[2]): 
match = re.match("([\w\-]+\.)*([\w\-]+\.[\w\-]+\.\w{2,6}$)", parts[2])
return match.group(2)
else: return ''  
```
Semble fonctionner assez bien.

Cependant, il doit être modifié pour supprimer les extensions de domaine sur la production comme vous le souhaitiez.

InformationsquelleAutor binnie
0

Utiliser cette
(.)(.*?)(.)
ensuite, il suffit d'extraire le leader et les points de fin.
Facile, droit?

InformationsquelleAutor pabben
0
1. comment est-ce
  
  =((?:(?:(?:http)s?:)?\/\/)?(?:(?:[a-zA-Z0-9]+)\.?)*(?:(?:[a-zA-Z0-9]+))\.[a-zA-Z0-9]{2,3})
  (vous voudrez peut-être ajouter "\/" à la fin de motif
2. si votre objectif est de débarrasser l'url est transmis en tant que paramètre, vous pouvez, ajouter le signe égal que le premier char, comme:
  
  =((?:(?:(?:http)s?:)?//)?(?:(?:[a-zA-Z0-9]+).?)*(?:(?:[a-zA-Z0-9]+)).[a-zA-Z0-9]{2,3}/)
  
  et les remplacer par des "/"
L'objectif de cet exemple pour se débarrasser de tout nom de domaine, quelle que soit la forme qu'il apparaît dans.
(c'est à dire à s'assurer de paramètres d'url n'est pas incldue noms de domaine pour éviter les attaques xss)

InformationsquelleAutor Chaim Klar
0

Je sais que la question est à la recherche d'une expression régulière de la solution, mais à chaque tentative, il ne fonctionnera pas pour couvrir tout

J'ai décidé d'écrire cette méthode en Python qui fonctionne uniquement avec des url qui ont un sous-domaine (c'est à dire http://www.mydomain.co.uk) et ne multiples au niveau des sous-domaines comme www.mail.yahoo.com
```
def urlextract(url):
url_split=url.split(".")
if len(url_split) <= 2:
raise Exception("Full url required with subdomain:",url)
return {'subdomain': url_split[0], 'domain': url_split[1], 'suffix': ".".join(url_split[2:])}
```
InformationsquelleAutor Korayem
-1
```
#!/usr/bin/perl -w
use strict;
my $url = $ARGV[0];
if($url =~ /([^:]*:\/\/)?([^\/]*\.)*([^\/\.]+)\.[^\/]+/g) {
print $3;
}
```
- si vous avez utilisé d'autres personnages que sur une barre oblique pour l'opérateur de match, alors vous n'aurais pas besoin d'avoir autant de caractères d'échappement et peut faire la regex plus lisible, par exemple $url =~ m{([^:]*://)?([^/]*\.)*([^/\.]+)\.[^/]+} pas sûr que vous voulez la boucle de l'opérateur (/g) soit?
- Vrai, bien que le gros problème avec ma réponse est que cela ne fonctionnera pas pour les domaines étrangers, car ils ne suivent pas la norme US format "xxx.(com|edu|org|etc)". Sot télégraphe.co.royaume-uni ne correspond pas. Me fait penser qu'il faut vraiment explicitement liste de tous les codes de pays, afin de correspondre à quelque chose comme ça.
- ou depuis d'autres personnes l'ont déjà compris ça, il suffit d'utiliser un module pour le faire, comme URI::Find - search.cpan.org/perldoc?URI::Find ou si vous voulez juste une regex alors search.cpan.org/perldoc?Regexp::Common::URI
- Bien sûr, mais quand quelqu'un demande une regex, c'est toujours un plaisir de s'en sortir 🙂
InformationsquelleAutor Dark Castle
-1
```
/^(?:https?:\/\/)?(?:www\.)?([^\/]+)/i
```
- En général, les réponses sont beaucoup plus utiles que s'ils incluent une explication de ce que le code est destiné à faire, et pourquoi cela résout le problème sans introduire d'autres. Cela est particulièrement vrai de regexen, qui sont connus pour être opaque bruit de la ligne de plus. Ici aussi, il n'est pas particulièrement clair qu'il permet de résoudre l'ensemble du problème, et depuis il y a des réponses que ne, et le faire bien, et avec d'excellentes explications....
InformationsquelleAutor John Foley

-1

Juste pour savoir:

'http://api.livreto.co/books'.replace(/^(https?:\/\/)([a-z]{3}[0-9]?\.)?(\w+)(\.[a-zA-Z]{2,3})(\.[a-zA-Z]{2,3})?.*$/, '$3$4$5');
# returns livreto.co

InformationsquelleAutor GodFather

Vous devez vous connecter pour publier un commentaire.