Ce qui est un non-capture d'un groupe? Ce n' (?:) faire?

Comment ?: est utilisé et ce que c'est bon?

Cette question a été ajoutée à la Débordement de Pile dans l'Expression Régulière de la FAQ, sous la rubrique "Groupes".

InformationsquelleAutor never_had_a_name | 2010-08-18

2065

Laissez-moi essayer de vous l'expliquer avec un exemple.

Considérer le texte suivant:
```
http://stackoverflow.com/
https://stackoverflow.com/questions/tagged/regex
```
Maintenant, si je demande à l'expression régulière ci-dessous sur elle...
```
(https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?
```
... Je voudrais obtenir le résultat suivant:
```
Match "http://stackoverflow.com/"
     Group 1: "http"
     Group 2: "stackoverflow.com"
     Group 3: "/"

Match "https://stackoverflow.com/questions/tagged/regex"
     Group 1: "https"
     Group 2: "stackoverflow.com"
     Group 3: "/questions/tagged/regex"
```
Mais je n'ai pas de soins sur le protocole -- je veux juste l'hôte et le chemin d'accès de l'URL. Donc, j'ai modifier la regex pour inclure la non-capture d'un groupe (?:).
```
(?:https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?
```
Maintenant, mon résultat ressemble à ceci:
```
Match "http://stackoverflow.com/"
     Group 1: "stackoverflow.com"
     Group 2: "/"

Match "https://stackoverflow.com/questions/tagged/regex"
     Group 1: "stackoverflow.com"
     Group 2: "/questions/tagged/regex"
```
Voir? Le premier groupe n'a pas été capturé. L'analyseur utilise pour le texte, mais l'ignore plus tard, dans le résultat final.

EDIT:

Comme demandé, laissez-moi vous expliquer groupes de trop.

Bien, groupes servir à de nombreuses fins. Ils peuvent vous aider à extraire des informations exactes à partir d'un gros match (qui peut aussi être nommé), ils vous permettent de revanche d'un précédent groupe apparié, et peut être utilisé pour les substitutions. Essayons quelques exemples, allons-nous?

Ok, imaginez que vous avez une sorte de XML ou HTML (être conscient que regex peut-être pas le meilleur outil pour le travail, mais il est gentil comme un exemple). Vous souhaitez analyser les balises, donc vous pourriez faire quelque chose comme ceci (j'ai ajouté des espaces pour le rendre plus facile à comprendre):
```
   \<(?<TAG>.+?)\> [^<]*? \</\k<TAG>\>
or
   \<(.+?)\> [^<]*? \</\>
```
La première regex a un groupe nommé (TAG), tandis que le second utilise un groupe commun. Les deux regexes faire la même chose: ils ont de la valeur du premier groupe (le nom de la balise) pour correspondre à la balise de fermeture. La différence est que le premier utilise le nom pour correspondre à la valeur, et le second utilise l'indice de groupe (qui commence à 1).

Essayons quelques substitutions maintenant. Considérons le texte suivant:
```
Lorem ipsum dolor sit amet consectetuer feugiat fames malesuada pretium egestas.
```
Maintenant, nous allons utiliser cette stupide regex sur elle:
```
\b(\S)(\S)(\S)(\S*)\b
```
Cette expression correspond à des mots avec au moins 3 caractères, et utilise les groupes de séparer les trois premières lettres. Le résultat est le suivant:
```
Match "Lorem"
     Group 1: "L"
     Group 2: "o"
     Group 3: "r"
     Group 4: "em"
Match "ipsum"
     Group 1: "i"
     Group 2: "p"
     Group 3: "s"
     Group 4: "um"
...

Match "consectetuer"
     Group 1: "c"
     Group 2: "o"
     Group 3: "n"
     Group 4: "sectetuer"
...
```
Donc, si nous appliquons la chaîne de substitution:
```
$1_$3$2_$4
```
... plus de cela, nous essayons d'utiliser le premier groupe, ajouter un trait de soulignement, utilisez le troisième groupe, puis le deuxième groupe, ajouter un autre trait de soulignement, et puis le quatrième groupe. La chaîne résultante serait comme celui ci-dessous.
```
L_ro_em i_sp_um d_lo_or s_ti_ a_em_t c_no_sectetuer f_ue_giat f_ma_es m_la_esuada p_er_tium e_eg_stas.
```
Vous pouvez utiliser des groupes nommés pour les substitutions, en utilisant ${name}.

Jouer avec les regexes, je recommande http://regex101.com/, qui offre une bonne quantité de détails sur la façon dont les regex fonctionne; il offre également quelques regex moteurs à choisir.
- Traditionnel (capture) sont les groupes les plus utile si vous effectuez une opération de remplacement sur les résultats. Voici un exemple où je passe, séparées par des virgules dernier & prénom puis inverser leur ordre (grâce à des groupes nommés)... regexhero.net/tester/?id=16892996-64d4-4f10-860a-24f28dad7e30
- puis-je l'utiliser comme ça? ([?:]http|ftp)://([^/\r\n]+)(/[^\r\n]*)? Est-il même que (?:http|ftp)://([^/\r\n]+)(/[^\r\n]*)? . merci de répondre rapidement
- Non, ce n'est pas la même.
- Peut aussi remarquer que les non-capture de groupes sont particulièrement utiles lors de l'utilisation de regex comme split délimiteurs: "Alice et Bob"-split"\ \ s+(?:et|ou des)\ \ s+"
- Il serait intéressant d'avoir la différence entre les non-capture de groupes (?:), et d'anticipation et les assertions arrières (?=, ?!) expliqué. J'ai juste commencé à apprendre à propos des expressions régulières, mais de ce que je comprends, non de capturer les groupes sont utilisés pour l'appariement et le "retour" à quoi ils correspondent, mais que la "valeur de retour" n'est pas "stockée" pour le référencement. D'anticipation et les assertions arrières de l'autre main ne sont pas seulement de ne pas "stockée", ils ne sont également pas partie d'un match, ils ont juste affirmer que quelque chose serait de match, mais leur "correspondance", la valeur est ignorée, si je ne me trompe pas... (je Suis à peu près droit?)
- ok, a ce à quoi la ?: n'. Quelqu'un peut-il expliquer ce qu'est l' ([^/\r\n]+) n'? Pour moi c'est la recherche d'un / de 1 ou plus de saut de ligne au début de la chaîne, mais je ne vois pas comment qui aide à faire correspondre une url.
- [] est un ensemble; [123] correspond à n'importe quel char à l'intérieur de l'ensemble une fois; [^123] correspond à ce qui n'est PAS à l'intérieur de l'ensemble une fois; [^/\r\n]+ correspond à un ou plus de signes qui sont différentes de /, \r, \n.
- c'est ce que j'ai compris aussi, mais en utilisant cette regexp /(?:\.com)(.+)$/ à l'aide de cette chaîne example.com/testing/test.html j'obtiens: 0: ".com/testing/test.html" 1: "/testing/test.html" pourquoi suis-je la .com dans la première tho?
- Le 1er est l'ensemble du match, pas un groupe, ce qui est correct. Supprimer la non-capture d'un groupe et que vous voyez un groupe supplémentaire de se présenter.
- je vous remercie . J'ai pensé que c'était peut-être un, mais je n'étais pas sûr à 100% qu'il fait sens pour moi. Alors, merci pour l'explication
- que regex doit être échappé. (?:https?|ftp):\/\/([^\/\r\n]+)(\/[^\r\n]*)?
- Très bonne explication, merci. Juste une petite légende. Dans le premier extrait de la réponse, le groupe 1 doit être "https" et non "http".
- désolé, je suis incapable de comprendre comment la \r et \n dans votre regex ([^/\r\n]+)(/[^\r\n]*) correspondant stackoverflow.com et /. ?
- correspond à un ou plusieurs caractères pas \r, \n et/ou /. Cela signifie stackoverflow.com correspond à cette expression. Il est suivi par /[^\r\n]* qui correspond à n'importe quel / qui est suivi par zéro ou plusieurs caractères qui ne sont pas \r et/ou \n.
- Donc la regex correspondent à ce qui n'est pas juste pour?
InformationsquelleAutor Ricardo Nolde
153

Vous pouvez utiliser la capture des groupes pour organiser et analyser une expression. Un non-capture d'un groupe a l'avantage premier, mais qui n'ont pas les frais généraux de la seconde. Vous pouvez toujours dire à un non-capture de groupe est facultatif, par exemple.

Dites que vous voulez de match de texte numérique, mais certains nombres peuvent être écrits comme des 1er, 2e, 3e, 4e,... Si vous voulez capturer la partie numérique, mais pas le (facultatif) suffixe, vous pouvez utiliser un non-capture d'un groupe.
```
([0-9]+)(?:st|nd|rd|th)?
```
Qui correspondent à des nombres de la forme 1, 2, 3... ou dans le formulaire de 1ère, 2ème, 3ème,... mais il va capturer uniquement la partie numérique.

InformationsquelleAutor Bill the Lizard
97

?: est utilisé lorsque vous souhaitez une expression, mais vous ne voulez pas enregistrer en tant que appariés/capturé partie de la chaîne.

Un exemple serait quelque chose pour correspondre à une adresse IP:
```
/(?:\d{1,3}\.){3}\d{1,3}/
```
Remarque que je n'aime pas à propos de l'enregistrement les 3 premiers octets, mais le (?:...) groupement me permet de raccourcir la regex sans encourir les frais généraux de la capture et du stockage d'un match.

InformationsquelleAutor RC.
32

Il fait le groupe de non-capture, ce qui signifie que la sous-chaîne correspondant au groupe ne sera pas inclus dans la liste de capture. Un exemple en ruby pour illustrer la différence:
```
"abc".match(/(.)(.)./).captures #=> ["a","b"]
"abc".match(/(?:.)(.)./).captures #=> ["b"]
```
InformationsquelleAutor sepp2k
19

HISTORIQUE de la MOTIVATION: L'existence de non-capture de groupes peut être expliqué par l'utilisation de parenthèses. Considérons les expressions (a|b)c et a|bc, en raison de la priorité de concaténation sur |, ces expressions représentent deux langues différentes ({ac, bc} et {a, bc}, respectivement). Cependant, les parenthèses sont utilisées aussi comme un groupe correspondant (comme expliqué par les autres réponses...).

Quand vous voulez avoir des parenthèses, mais pas de capture de la sous-expression que vous utilisez NON-CAPTURE de GROUPES. Dans l'exemple, (?:a|b)c
- Je me demandais pourquoi. Comme je pense que le "pourquoi" est essentielle à la mémorisation de ces informations.
InformationsquelleAutor user2369060
14

Groupes capture vous pouvez utiliser plus tard dans la regex pour correspondre à OU vous pouvez les utiliser dans le remplacement de la partie de l'expression régulière. Faire un non-capture groupe, il suffit de dispense de ce groupe d'être utilisé pour une de ces raisons.

Non-capture de groupes sont très bien si vous êtes en essayant de capturer beaucoup de choses différentes et il y a quelques groupes que vous ne voulez pas capturer.

C'est à peu près la raison pour laquelle ils existent. Pendant que vous apprenez sur les groupes, en apprendre davantage sur Groupes Atomiques, ils font beaucoup! Il est également lookaround groupes, mais ils sont un peu plus complexes et ne sont pas utilisés.

Exemple d'utilisation de la suite dans les regex (référence arrière):

<([A-Z][A-Z0-9]*)\b[^>]*>.*?</\1> [ Trouve une balise xml (sans ns de soutien) ]

([A-Z][A-Z0-9]*) est une capture d'un groupe (dans ce cas c'est le tagname)

Plus tard dans la regex est \1 ce qui signifie qu'il ne fait correspondre le même texte qui était dans le premier groupe (les ([A-Z][A-Z0-9]*) groupe) (dans ce cas, il est correspondant à la balise de fin).
- pourriez-vous donner un exemple simple de la façon dont il sera utilisé plus tard pour le match OU?
- je veux dire que vous pouvez utiliser pour correspondre à plus tard, ou vous pouvez l'utiliser en remplacement. La ou dans cette phrase était juste pour vous montrer, il y a deux usages d'une capture d'un groupe
InformationsquelleAutor Bob Fincheimer
11

Laissez-moi essayer cela avec un exemple :-

Regex Code :- (?:animal)(?:=)(\w+)(,)\1\2

Chaîne De Recherche :-

Ligne 1 - animal=cat,dog,cat,tiger,dog

Ligne 2 - animal=cat,cat,dog,dog,tiger

Ligne 3 - animal=dog,dog,cat,cat,tiger

(?:animal) --> Non saisis Groupe 1

(?:=)--> Non saisis Groupe 2

(\w+)--> Capturé Groupe 1

(,)--> Groupe Capturé 2

\1 --> résultat de la capture de groupe 1 je.e Dans la Ligne 1 est le chat,Dans la Ligne 2 est le chat,Dans la Ligne 3 est chien.

\2 -->résultat de la capture de groupe 2 je.e par des virgules(,)

Donc dans ce code par exemple: \1 et \2, nous le rappelons, ou de répéter le résultat de la capture de groupe 1 et 2 respectivement, plus tard dans le code.

Selon l'ordre de code (?:animal) doit être groupe 1 et (?:=) devrait être le groupe 2 et continue..

mais, en leur donnant l' ?: nous faisons le match-groupe non pris en compte(qui ne compte pas éteint dans le groupe correspondant, de sorte que le groupement de nombre commence à partir du premier groupe capturé et non pas le non capturé), de sorte que la répétition du résultat du match-groupe de (?:animal) ne peut pas être appelé plus tard dans le code.

De l'espoir c'est ce qui explique la non-utilisation de la capture de groupe.

entrez la description de l'image ici
- excellent et simple explication!
InformationsquelleAutor shekhar gehlot
7

Complexes dans les expressions régulières, vous pouvez avoir le cas où vous souhaitez utiliser un grand nombre de groupes dont certains sont là pour la répétition de correspondance et certains sont là pour fournir des références. Par défaut, le texte correspondant à chaque groupe est chargé dans la référence arrière du tableau. Où nous avons beaucoup de groupes et ont seulement besoin d'être en mesure de faire référence à certains d'entre eux à partir de la référence arrière tableau, nous pouvons remplacer ce comportement par défaut de dire à l'expression régulière que certains groupes ne sont là que pour la répétition de la manipulation et de la nécessité de ne pas être capturées et stockées dans la référence arrière du tableau.

InformationsquelleAutor Jack Peng

Eh bien, je suis un développeur JavaScript et va tenter d'expliquer son importance concernant JavaScript.

Envisager un scénario où vous voulez faire correspondre cat is animal
lorsque vous souhaitez correspondre à chat et les animaux, et les deux devraient avoir un is entre eux.

 //this will ignore "is" as that's is what we want
"cat is animal".match(/(cat)(?: is )(animal)/) ;
result ["cat is animal", "cat", "animal"]

 //using lookahead pattern it will match only "cat" we can
 //use lookahead but the problem is we can not give anything
 //at the back of lookahead pattern
"cat is animal".match(/cat(?= is animal)/) ;
result ["cat"]

 //so I gave another grouping parenthesis for animal
 //in lookahead pattern to match animal as well
"cat is animal".match(/(cat)(?= is (animal))/) ;
result ["cat", "cat", "animal"]

 //we got extra cat in above example so removing another grouping
"cat is animal".match(/cat(?= is (animal))/) ;
result ["cat", "animal"]

InformationsquelleAutor Gaurav

6

tl;dr non-capture de groupes, comme son nom l'indique, sont les parties de l'expression régulière que vous ne voulez pas être inclus dans le match et ?: est un moyen de définir un groupe comme étant non-capture.

Disons que vous avez une adresse e-mail [email protected]. La regex suivante va créer deux groupes, l'id de la partie et @example.com partie. (\p{Alpha}*[a-z])(@example.com). Par souci de simplicité, nous l'extraction de l'ensemble du nom de domaine, y compris la @ caractère.

Disons-le maintenant, vous avez seulement besoin de l'id de la partie de l'adresse. Ce que vous voulez faire est de saisir le premier groupe, le résultat du match, entouré par () dans la regex et la façon de le faire est d'utiliser la non-capture d'un groupe de syntaxe, c'est à dire ?:. Donc la regex (\p{Alpha}*[a-z])(?:@example.com) sera de retour juste l'id de la partie de l'e-mail.

InformationsquelleAutor 6pack kid
5

Une chose intéressante que j'ai trouvé est le fait que vous pouvez avoir une capture d'un groupe à l'intérieur d'un non-capture d'un groupe. Regardez ci-dessous regex pour la mise en correspondance des url web:
```
var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;
```
Url d'entrée de la chaîne:
```
var url = "http://www.ora.com:80/goodparts?q#fragment";
```
Le premier groupe dans ma regex (?:([A-Za-z]+):) est un non-capture d'un groupe qui correspond au schéma de protocole et du côlon : caractère c'est à dire http: mais quand j'ai été l'exécution de code ci-dessous, j'ai été voir le 1er indice du tableau retourné était contenant la chaîne de caractères http quand je pensais que http et du côlon : les deux ne seront pas signalés car ils sont à l'intérieur d'un non-capture d'un groupe.
```
console.debug(parse_url_regex.exec(url));
```
J'ai pensé que, si le premier groupe (?:([A-Za-z]+):) est un non-capture d'un groupe, alors pourquoi il est de retour http chaîne dans le tableau de sortie.

Donc, si vous remarquez qu'il y a un groupe imbriqué ([A-Za-z]+) à l'intérieur de la non-capture d'un groupe. Que groupe imbriqué ([A-Za-z]+) est une capture d'un groupe (ne pas avoir de ?: au début) dans lui-même à l'intérieur d'un non-capture d'un groupe (?:([A-Za-z]+):). C'est pourquoi le texte http toujours est capturé mais le côlon : personnage qui est à l'intérieur de la non-capture d'un groupe, mais à l'extérieur de la capture d'un groupe à ne pas avoir rapporté dans le tableau de sortie.

InformationsquelleAutor RBT
5

Je ne peux pas commenter sur les réponses les plus fréquentes à dire ceci: je voudrais ajouter explicitement un point qui n'est qu'implicite dans le top des réponses:

La non-capture d'un groupe (?...)
ne pas supprimer tous les caractères à partir de l'original de match, il ne réorganise les regex visuellement pour le programmeur.

Pour accéder à une partie spécifique de la regex sans défini étrangères caractères que vous aurait toujours besoin d'utiliser .group(<index>)
- Vous avez fourni le plus important de l'indice qui était absent dans le reste de l'réponses. J'ai essayé tous les exemples à l'aide de l'élite de jurons, que je n'ai pas obtenu le résultat souhaité. Seulement votre post m'a montré où je suis allé mal.
- Heureux d'entendre ça!
InformationsquelleAutor Scott Anderson
2

Je pense que je voudrais vous donner la réponse,
N'utilisez pas de capture de variables sans vérifier que le match réussi.

La capture de variables $1, etc, ne sont valables que si le match a réussi, et ils ne sont pas effacés, soit.
```
#!/usr/bin/perl  
use warnings;
use strict;   
$_ = "bronto saurus burger";
if (/(?:bronto)? saurus (steak|burger)/)
{
    print "Fred wants a  $1";
}
else
{
    print "Fred dont wants a $1 $2";
}
```
Dans l'exemple ci-dessus, À éviter la capture bronto dans $1, (?:) est utilisée.
Si le profil correspond , puis $1 est capturée comme prochaine regroupés modèle.
Donc, la sortie sera comme ci-dessous:
```
Fred wants a burger
```
Il est Utile si vous ne voulez pas les matchs pour être sauvé .

InformationsquelleAutor Harini
1

Ouvrir votre Google Chrome devTools, puis sur l'onglet Console: et tapez ceci:
```
"Peace".match(/(\w)(\w)(\w)/)
```
L'exécuter et vous verrez:
```
["Pea", "P", "e", "a", index: 0, input: "Peace", groups: undefined]
```
La JavaScript RegExp moteur de la capture de trois groupes, les éléments avec les indices 1, 2 et 3. Maintenant, l'utilisation non-capture de marque pour voir le résultat.
```
"Peace".match(/(?:\w)(\w)(\w)/)
```
Le résultat est:
```
["Pea", "e", "a", index: 0, input: "Peace", groups: undefined]
```
C'est évident que ce qui est non capture d'un groupe.

InformationsquelleAutor AmerllicA
1

Extrêmement simple, Nous pouvons comprendre avec une simple date supposons, par exemple, si la date est mentionné que le 1er janvier 2019 ou 2 Mai 2019 ou à une autre date, et nous voulons simplement convertir jj/mm/aaaa format que nous n'aurions pas besoin de le mois du nom de laquelle est, en janvier ou en février de cette question, de sorte afin de capturer la partie numérique, mais pas le (facultatif) suffixe, vous pouvez utiliser un non-capture d'un groupe.

donc l'expression régulière serait,
```
([0-9]+)(?:January|February)?
```
Son aussi simple que cela.

InformationsquelleAutor Naved Ahmad

Vous devez vous connecter pour publier un commentaire.

EDIT: