Expression Régulière Pour Dupliqués Consécutifs Mots

Je suis une expression régulière débutant, et je n'arrive pas à comprendre comment écrire une expression régulière qui doit "correspondre" tous les doublons de mots consécutifs tels que:

Paris en la printemps.

Pas de est liée.

Pourquoi riez-vous? Sont mon expressions régulières mauvais??

Est-il une seule expression régulière qui correspond à TOUS les caractères gras les chaînes ci-dessus?

Ce n'était pas une "accusation", mais un calme, une question normale qui peut parfaitement prendre un "non" comme réponse. @Joshua: Oui, certaines personnes (pas trop peu) que ce site faire leurs devoirs pour eux. Mais demander les devoirs des questions n'est pas une mauvaise chose à faire, et quand ils sont marqués comme tel. Généralement le style des réponses des changements de "ici est la solution" à "voici certaines des choses que vous n'avez pas pensé", et c'est une bonne chose. Quelqu'un a essayer et maintenir la distinction, dans son cas, c'était moi, et d'ailleurs, "d'autres personnes" faire la même chose. C'est tout.
L'espoir de voir jamais une question comme "Cela sonne un peu comme un lieu de travail en question. S'agit-il?" et puis les gens diront si débordement de pile est en train de faire le travail de quelqu'un.
à l'égard de la regex solution que vous avez acceptées, pourriez-vous s'il vous plaît dites-moi comment pourrais-je remplacer les matchs (doublons) par un élément de la paire (par exemple, not that that is related -> not that is related)? Merci d'avance
Je crois que j'ai trouvé la solution: je dois remplacer par \1!
Cette solution gère consécutives en double mots, quel est le plus générique de la situation: lorsque le nombre de copies de mots est plus grand que 2?, par exemple: "Pas que de est lié".
Que diriez -\b(\w+)\s+(\1\s*)+\b?

InformationsquelleAutor Joshua | 2010-05-12

124

Essayer cette expression régulière:
```
\b(\w+)\s+\b
```
Ici \b est une frontière de mot et \1 références capturées match du premier groupe.
- Je me demande; est-il possible de faire \0 trop? (Où \0 est l'ensemble de la regex, jusqu'au point actuel OU où \0 se réfère à l'ensemble de la regex)
- Non, je ne le pense pas parce que les sous-match, feraient également partie de l'ensemble du match.
- Au moins travaille sur le moteur d'expressions régulières utilisées dans l'Eclipse de recherche/remplacer le dialogue.
- Cela permettrait de traiter les tirets etc. comme marquant une limite de mot, par exemple the the-foo bar. @Daniel réponse est un peu plus correct.
- Juste un avertissement, ce n'est pas la poignée de mots avec des apostrophes ou (comme Noel mentions) hypens. Mike solution fonctionne mieux dans ces cas
- En outre, il ne sera pas attraper triplicates (ou plus), pas quand un seul de la dup/triple exemplaire est à la fin de la chaîne
- +1 belle solution. Pourriez-vous me dire comment faire pour remplacer les matchs (doublons) avec le premier élément de la paire (par exemple, and and devrait devenir and)?
- Ne sais pas il ne fonctionne pas en Python, la regex me semble bon. Quand j'essaie d'appeler le match, il renvoie toujours None
- Essayez re.search. Voir search() vs match().
- et Si je veux trouver tous les mots consécutifs à partir d'une balise particulière, comme bla bla comment puis-je intégrer cette regex formule?
- Ne fonctionne pas quand la 2ème mot est le dernier mot sur la ligne. La regex \b(\w+)\s+\1$ fonctionne dans ces cas, mais ça ne marche pas quand le 2ème mot est pas à la fin d'une ligne. Des idées? [edit] Trouvé le répondre: \b(\w+)\s+\1(?:\s|$)
InformationsquelleAutor Gumbo
19

Je crois que cette expression gère plus de situations:
```
/(\b\S+\b)\s+\b\b/
```
Une bonne sélection de chaînes de test peuvent être trouvés ici: http://callumacrae.github.com/regex-tuesday/challenge1.html
- Génial, fonctionne avec des apostrophes/tirets/etc. - grâce!
- pour le challenge1 lien, que faites-vous place dans la remplacer région à utiliser les groupes de parole? Essayé \0, mais ne fonctionne pas.
- Il ne sera pas attraper triplicates (ou plus), pas quand un seul de la dup/triple exemplaire est à la fin de la chaîne
- Vous souhaitez utiliser $1 $2. Mais également utiliser des regex /\b(\S+) (\1)\b/gi. Voici un lien: callumacrae.github.io/regex-mardi/...
- et Si je veux trouver tous les mots consécutifs à partir d'une balise particulière, comme bla bla comment puis-je intégrer cette regex formule?
InformationsquelleAutor Mike Viens

Essayez-le avec les dessous de RE

\b début de mot limite de mot
\W+ tout caractère de mot
\1 même mot correspondait déjà
\b fin de mot

()* Répéter de nouveau

public static void main(String[] args) {

    String regex = "\\b(\\w+)(\\b\\W+\\b\\\b)*";// "/* Write a RegEx matching repeated words here. */";
    Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE/* Insert the correct Pattern flag here.*/);

    Scanner in = new Scanner(System.in);

    int numSentences = Integer.parseInt(in.nextLine());

    while (numSentences-- > 0) {
        String input = in.nextLine();

        Matcher m = p.matcher(input);

        //Check for subsequences of input that match the compiled pattern
        while (m.find()) {
            input = input.replaceAll(m.group(0),m.group(1));
        }

        //Prints the modified sentence.
        System.out.println(input);
    }

    in.close();
}

InformationsquelleAutor Faakhir

5

Le plus largement utilisé de la bibliothèque PCRE peut gérer de telles situations (vous ne pourrez pas atteindre la même avec POSIX regex moteurs, tout de même):
```
(\b\w+\b)\W+
```
- Vous avez besoin de quelque chose pour faire correspondre les caractères entre les deux mots, comme \W+. \b ne le font pas, parce qu'il ne mange pas tous les caractères.
- Cela va entraîner des faux positifs correspondant à des cas comme ... the these problems.... Cette solution n'est pas aussi fiable que la structure générale de Gumbo un motif suffisamment implémente les limites des mots.
- et Si je veux trouver tous les mots consécutifs à partir d'une balise particulière, comme bla bla comment puis-je intégrer cette regex formule?
InformationsquelleAutor soulmerge
3

Pas. C'est une irrégularité de la grammaire. Il peut être moteur/spécifique à la langue des expressions régulières que vous pouvez utiliser, mais il n'est pas universel expression régulière qui peut le faire.
- Bien qu'étant de corriger dans un sens strict, je crois qu'il n'y a pas de moteur d'expressions régulières dans de graves sert plus à rien que ne pas prendre en charge le regroupement et à l'arrière-références.
InformationsquelleAutor Ignacio Vazquez-Abrams
3

C'est la regex que j'utilise pour supprimer les doublons de phrases dans mon twitch bot:
```
(\S+\s*){2,}
```
(\S+\s*) ressemble à une chaîne de caractères qui n'est pas d'espaces, suivi des espaces.

\1{2,} cherche alors plus que 2 occurrences de cette expression dans la chaîne de match. Si il y a 3 phrases qui sont identiques, il correspond.
- Cette réponse est trompeuse. Il ne chasse pas les doublons, il chasse sous-chaînes avec 3 occurrences ou plus. Il n'est également pas très robustes en raison de la \s* dans le groupe de capture. Voir cette démonstration: regex101.com/r/JtCdd6/1
- En outre, les cas extrêmes (basses fréquences texte) serait de produire des faux positifs matchs. E. g. I said "oioioi" that's some wicked mistressship! sur oioioi et sss
InformationsquelleAutor Neceros
3

Ici est un qui attire plusieurs mots à plusieurs reprises:
```
(\b\w+\b)(\s+)+
```
- et Si je veux trouver tous les mots consécutifs à partir d'une balise particulière, comme bla bla comment puis-je intégrer cette regex formule?
- Je crois que nécessitera d'analyse HTML. Pour n'importe quel compte tenu de la balise que vous souhaitez rechercher, trouver tous les balise occurrences à l'intérieur de l'HTML, et d'exécuter cette regex une par une sur chacun d'eux. Ou si vous n'avez pas de soins sur où dans le code HTML de la répétition se produisent, concaténer tous les balise attributs de texte et d'exécuter les regex sur la chaîne concaténée
- J'ai trouver moi-même la réponse .*?\b\s+(\w+)\b\K\s+\1\s+\b(?=.*?<\/p>)
InformationsquelleAutor synaptikon
2

L'exemple en Javascript: Les Bonnes Parties peuvent être adaptés pour ce faire:
```
var doubled_words = /([A-Za-z\u00C0-\u1FFF\u2800-\uFFFD]+)\s+(?:\s|$)/gi;
```
\b utilise \w pour word frontières, où l' \w est équivalente à [0-9A-Z_a-z]. Si vous n'avez pas l'esprit de cette limitation, l'on a accepté la réponse est bien.

InformationsquelleAutor Daniel
2

Regex pour la Bande 2+ double mots (consécutifs ou non consécutifs mots)

Essayer cette regex qui peut attraper 2 ou plus de doublons, de mots et de ne laisser derrière un seul mot. Et le double de mots n'a même pas besoin d'être consécutives.
```
/\b(\w+)\b(?=.*?\b\b)/ig
```
Ici, \b est utilisé pour la Limite de Mot, ?= est utilisé pour l'anticipation positif, et \1 est utilisé pour le référencement.

Exemple
Source
- Non consécutives est une mauvaise idée: "the cat sat on the mat" -> " cat sat on the mat"
- Vrai. Néanmoins, il existe des cas où c'est prévu. (par exemple: alors que le raclage de données)
- Pourquoi avez-vous break votre regex nouveau après j'ai corrigé? Avez-vous pensé que j'avais changé son intention? Même l'exemple que vous avez lié n'ont pas l'erreur.
- Yep, c'était une erreur, copie collé de mauvaises choses. Destiné à copier celui de mon exemple en fait. de toute façon, maintenant cela fonctionne! donc tout bon! Merci!
InformationsquelleAutor Niket Pathak
2

Ci-dessous l'expression doit fonctionner correctement pour trouver n'importe quel nombre de mots consécutifs. La correspondance peut être sensible à la casse.
```
String regex = "\\b(\\w+)(\\s+\\\b)*";
Pattern p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);

Matcher m = p.matcher(input);

//Check for subsequences of input that match the compiled pattern
while (m.find()) {
     input = input.replaceAll(m.group(0), m.group(1));
}
```
D'Entrée d'échantillon : au Revoir au revoir au Revoir

Exemple De Sortie : Adieu

Explication:

L'expression regex:

\b : Début d'une frontière de mot

\w+ : n'Importe quel nombre de caractères de mot

(\s+\1\b)* : un nombre Quelconque de l'espace, suivi par le mot qui correspond au mot précédent et se termine à la limite de mot. Tout enveloppé dans * aide à trouver plus d'une des répétitions.

Groupement :

m.groupe(0) : Doit contenir le groupe apparié dans le cas ci-dessus, au Revoir au revoir au Revoir

m.groupe(1) : contient le premier mot du motif correspondant dans le cas ci-dessus au Revoir

Remplacement de la méthode est de remplacer tous consécutives mots correspondants avec la première occurrence du mot.

InformationsquelleAutor Aks789
1

Cette expression (inspiré de Mike, ci-dessus) semble pour attraper tous les doublons, triplicates, etc, y compris ceux à la fin de la chaîne, que la plupart des autres n'ont pas:
```
/(^|\s+)(\S+)(($|\s+))+/g, "$1$2")
```
Je sais que la question posée pour correspondre à doublons, mais un triple exemplaire est à seulement 2 doubles uns à côté des autres 🙂

Tout d'abord, j'ai mis (^|\s+) pour s'assurer qu'il commence avec un mot complet, sinon, "l'enfant du steak" irait "enfant'steak" (le "s"'s le match). Ensuite, il correspond à tous les mots ((\b\S+\b)), suivi par un caractère de fin de chaîne ($) ou d'un nombre de cases (\s+), le tout répété plus d'une fois.

J'ai essayé comme ça et ça a bien fonctionné:
```
var s = "here here here     here is ahi-ahi ahi-ahi ahi-ahi joe's joe's joe's joe's joe's the result result     result";
print( s.replace( /(\b\S+\b)(($|\s+))+/g, "$1"))         
--> here is ahi-ahi joe's the result
```
- J'ai de la difficulté à réécrire cette en PHP, il est vital je obtenir une copie de la correspondance en double remplaçant chaque occurrence de doublons/triplicates etc. Pour l'instant j'ai: preg_replace('/(^|\s+)(\S+)(($|\s+)\2)+/im', '$0', $string);
- C'est la meilleure réponse. Je viens de faire un réglage que par l'ajout d' \b à la fin comme suit: /(^|\s+)(\S+)(($|\s+)\2)+\b/g, "$1$2") Ce sera ensuite le travail pour des situations de ce genre: the the string String string stringing the the along the the string deviendra the string stringing the along the string Avis string stringing. Il obtient assorti avec votre réponse. Je vous remercie.
InformationsquelleAutor Nico
1

Depuis quelques développeurs sont à venir pour cette page à la recherche d'une solution qui non seulement élimine les doublons consécutifs non-blanc sous-chaînes, mais triplicates et au-delà, je vais vous montrer le modèle adapté.

Modèle: /(\b\S+)(?:\s+\1\b)+/ (Modèle De Démonstration)

Remplacer: $1 (remplace le fullstring match avec la capture de groupe #1)

Ce modèle goulûment correspond à un "tout" non-blanc sous-chaîne, nécessite alors une ou plusieurs copies de la correspondance de sous-chaîne qui peut être délimité par un ou plusieurs caractères espace blanc (espace, tabulation, saut de ligne, etc).

Spécifiquement:
- \b (limite de mot) les personnages sont essentiels pour assurer des mots partiels ne sont pas appariés.
- La deuxième entre parenthèses est un non-capture d'un groupe, parce que cette variable largeur de la sous-chaîne n'a pas besoin d'être capturé -- qui n'a d'égal/absorbé.
- la + (un ou plusieurs quantificateur) sur la non-capture d'un groupe est plus approprié que * parce que * sera "déranger" le moteur d'expressions régulières pour la capture et la remplacer singleton occurrences -- c'est un gaspillage motif de conception.
*remarque si vous travaillez avec des phrases ou des chaînes en entrée avec de la ponctuation, puis le motif devra être affiné.
- l'utilisation de ce modèle dans votre projet php. Nico répondre a certaines inutile de syntaxe en elle.
InformationsquelleAutor mickmackusa
0

L'utiliser dans le cas où vous voulez de la casse, la vérification de double mots.
```
(?i)\\b(\\w+)\\s+\\1\\b
```
- À l'aide de la casse motif modificateur n'est d'aucune utilité pour votre modèle. Il n'y a pas de lettre de plages pour le drapeau de l'impact.
- C'est effectivement un doublon de la accepté de répondre et n'ajoute pas de valeur à la page. Veuillez envisager la suppression de cette réponse pour réduire le ballonnement.
InformationsquelleAutor Neelam

Vous devez vous connecter pour publier un commentaire.

Regex pour la Bande 2+ double mots (consécutifs ou non consécutifs mots)