Regexp pour extraire tous les liens et les textes d'ancrage de HTML

Je voudrais un ou plusieurs regexes qui peut:

1) Prendre le code html d'une page.

2) Trouver les url contenues dans tous les liens, par exemple:

<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>

Et ainsi de suite, il doit extraire l'url contenue dans le 'href'attribut indépendamment de ce qui vient avant ou après le href

3) Extraire le texte d'ancre de tous les liens, par exemple dans les exemples ci-dessus, il doit retourner 'http://example1.com" et le texte d'ancre "Test 1", puis "http://example2.com" et "Test 2", et ainsi de suite.

Une raison quelconque vous ne voulez pas utiliser un DOM Parser pour cela? Et une raison quelconque vous ne pouvez pas trouver le double?
double possible de php expression régulière en fonction de l'url motif
double possible de expression Régulière pour extraire l'attribut href de l'élément
j'aime la façon dont cela se fait poser un million de fois chaque jour
double possible de gratter les données de la page html php

OriginalL'auteur Click Upvote | 2011-01-07

7
```
<?

$dom = new DomDocument();
$dom->loadHTML($html);
$urls = $dom->getElementsByTagName('a');
```
beaucoup de gens simplement jeter le "il suffit d'utiliser un DOM parser!" Mais aucune ne jamais montrer un exemple rapide de ce qu'il peut faire. php.net/manual/en/book.dom.php Il fait beaucoup plus que mon exemple. Intéressant d'étudier.
Cette réponse est incomplète, en voici un qui fonctionne stackoverflow.com/questions/4423272/...

OriginalL'auteur Ollie
5

Vous avez besoin de prendre un coup d'oeil à regarder de l'avant et regarder derrière.
```
<?php

$string = '<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>';

if(preg_match_all("|<a.*(?=href=\"([^\"]*)\")[^>]*>([^<]*)</a>|i", $string, $matches))
        {
        /*** if we find the word white, not followed by house ***/
        echo 'Found a match';
        print_r($matches);
    }
else
        {
        /*** if no match is found ***/
        echo 'No match found';
        }
?>
```
Et bien sûr, la bonne façon de le faire est avec le DOM parser, mais il est également possible avec la regex.
Voir mon commentaire ci-dessous GameBit de la solution. Il s'applique à votre Regex.
Non, il ne cassera pas si il y a des apostrophes à l'intérieur de ces attributs, il suffit de l'essayer. En fait, si vous utilisez cette regex #<a.*(?=href=\"([^\"]*)\")[^>]*>([^<]*)</a>|<a.*(?=href='([^']*)')[^>]*>([^<]*)</a> |<.*(?=href=([^\s]*)\ \ s)[^>]*>([^<]*)</a>#i ou quelque chose comme ça et vous jeter vide jeux de résultats par la suite, il ne sera même pas se briser si vous utilisez des guillemets simples ou non des guillemets à tous. Le seul moyen de rompre, il est à utiliser < dans le texte d'ancre, que je ne peux pas utiliser le regarder derrière avec un nombre illimité de caractères (une regex PHP limitation) pour vérifier si elle marque la fin du lien ou c'est un seul personnage à l'intérieur du texte

OriginalL'auteur Sergi
5
```
<?php
$regexp = "<a\s[^>]*href=(\"??)([^\" >]*?)\[^>]*>(.*)<\/a>";
if(preg_match_all("/$regexp/siU", $html, $matches, PREG_SET_ORDER))
{ foreach($matches as $match)
{//$match[2] = link address
//$match[3] = link text}
}
?>
```
Cela permettra d'extraire à la fois le lien et le texte d'ancre.

J'utilise celui-ci, parce qu'il ne prend 54ms pour 4 mo de fichier au lieu de 10 à 30 secondes avec de vrais analyseurs 🙂
Vraiment un très bon travail juste une regex et tout le travail effectué. Appris la nouvelle aujourd'hui.

OriginalL'auteur jayzantel
2

Essayer quelque chose comme cela:
```
//not tested
$regex_pattern = "/<a href=\"(.*)\">(.*)<\/a>/";
```
Cette wouldnt match de deuxième et troisième lien dans l'OP est donné en exemple de balisage.

OriginalL'auteur Diablo
1
```
/<a[^>]+href\s*=\s*["']([^"']+)["'][^>]*>(.*?)<\/a>/mis
```
Ce sera briser lorsque la valeur de l'attribut est entouré de guillemets doubles et contient des guillemets simples. Il sera également diviser lorsque les citations sont omis, ce qui serait admissible, pour un href valeur comme next_page.htm. Voir w3.org/TR/html401/intro/sgmltut.html#h-3.2.2
celui-ci est assez robuste (à tester ici. martinwardener.com/regex): \b(((src|href|action|url) *(=|:) *(?<mh>"|'|))(?<url>[\w ~$!*'/.?=#&@:%+,();\-\[\]]+)\k<mh>|url *$ *(?<mc>"|'|)(?<url>[\w ~$!*'/.?=#&@:%+,();\-\[\]]+)\k<mc>$)

OriginalL'auteur RolandasR
0

Aussi loin que l'utilisation de RegEx extraire des liens de HTML, il est sacrément robuste:

\b(((src|href|action|url) *(=|:) *(?<mh>"|'|))(?<url>[\w ~$!*'/.?=#&@:%+,();\-\[\]]+)\k<mh>|url *$ *(?<mc>"|'|)(?<url>[\w ~$!*'/.?=#&@:%+,();\-\[\]]+)\k<mc>$)

Voici un extrait tous les "plaine" du texte (c'est à dire du contenu en dehors des balises) à partir de documents HTML:

(<(?<tag>script|style)[\s\S]*?</\k<tag>>)||<[\s\S]*?>|(?<text>[^<>]*)

Tester ici: http://www.martinwardener.com/regex

OriginalL'auteur d7samurai

Vous devez vous connecter pour publier un commentaire.