Comment extraire de la chaîne à la suite d'un motif avec grep, regex ou perl

J'ai un fichier qui ressemble à quelque chose comme ceci:

<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>

J'ai besoin d'extraire quoi que ce soit dans les citations qui suivent name=, c'est à dire, content_analyzer, content_analyzer2 et content_analyzer_items.

Je le fais sur une machine Linux, une solution à l'aide de sed, perl, grep bash est très bien.

pas besoin d'être timide, bienvenue ici!
Je pense qu'il serait erroné de ne pas faire un lien vers stackoverflow.com/questions/1732348/...
Merci à tous pour les commentaires utiles. Je m'excuse pour le XML n'est pas correctement formaté. J'ai supprimé quelques balises pour la simplification.

InformationsquelleAutor wrangler | 2011-02-22

136

Car vous avez besoin de faire correspondre le contenu sans l'inclure dans le résultat (doit
match name=" mais ce n'est pas le résultat souhaité) une certaine forme de
zéro-largeur de contrepartie ou un groupe de capture est nécessaire. Cela peut être fait
facilement avec les outils suivants:

Perl

Avec Perl, vous pouvez utiliser les n option en boucle, ligne par ligne et à imprimer
le contenu d'une capture d'un groupe si elle correspond à:
```
perl -ne 'print "$1\n" if /name="(.*?)"/' filename
```
GNU grep

Si vous avez une version améliorée de grep, tels que GNU grep, vous pouvez avoir
le -P disponible en option. Cette option permettra à Perl-comme regex,
vous permettant d'utiliser \K qui est une abréviation lookbehind. Il sera réinitialisé
le match position, donc rien avant de largeur nulle.
```
grep -Po 'name="\K.*?(?=")' filename
```
La o option permet de grep imprimer uniquement le texte correspondant, au lieu de la
toute la ligne.

Vim - Éditeur De Texte

Un autre moyen est d'utiliser un éditeur de texte directement. Avec Vim, l'un des
différentes façons d'y parvenir serait de supprimer des lignes, sans
name= puis extrayez-en le contenu à partir de la résultante des lignes:
```
:v/.*name="\v([^"]+).*/d|%s//
```
Standard grep

Si vous n'avez pas accès à ces outils, pour une raison quelconque, quelque chose
similaire pourrait être atteint avec la norme grep. Cependant, sans la regarder
autour de il faudra un peu de nettoyage plus tard:
```
grep -o 'name="[^"]*"' filename
```
D'une note sur l'enregistrement des résultats

Dans l'ensemble de la commande ci-dessus, les résultats seront envoyés à stdout. C'est
important de se rappeler que vous pouvez toujours enregistrer eux par des conduites à un
fichier en ajoutant:
```
> result
```
à la fin de la commande.
- Lookarounds (GNU grep): grep -Po '.*name="\K.*?(?=".*)'
- Williamson, grand. J'ai mis à jour la réponse en conséquence, mais a laissé les deux .* de côté, j'espère que vous ne vous fâchez pas avec moi. Je voudrais vous demander, voyez-vous des avantages de l'onu-gourmand match de plus de "tout sauf ""? Ne prenez pas cela comme un combat, je suis juste curieux et je ne suis pas une regex expert. Aussi, le \K astuce, vraiment sympa. Merci Dennis.
- Pourquoi serais-je en colère? Sans le .*, vous pouvez le faire grep -Po '(?<=name=").*?(?=")'. Le \K peut être utilisé pour la sténographie, mais c'est vraiment nécessaire seulement si le match à sa gauche est de longueur variable. Dans ce cas, la raison de l'utilisation lookarounds est assez évident. Moins gourmand opérations de regarder un peu plus propre ([^"]* contre .*? et vous n'avez pas à répéter le point d'ancrage de caractère. Je ne sais pas à propos de la vitesse. Cela dépend beaucoup du contexte, je pense. J'espère que c'est utile.
- Williamson: certainement, monsieur, beaucoup d'informations utiles ici. Je pense que la raison pour laquelle j'ai le \K (après des recherches sur elle) et retiré la .* était le même: faire paraître jolie (plus simple). Et je n'ai jamais pensé à l'aide de .*? au lieu de la "méthode traditionnelle" j'ai appris à partir de quelque part. Mais l'onu-gourmand ici qui fait vraiment de sens. Merci Dennis, meilleurs voeux.
- Merci beaucoup. Cela fonctionne parfaitement!
- +1 pour la description de la commande. Serions reconnaissants si vous pouviez mettre à jour votre réponse pour expliquer le "[...]" une partie de la regex.
- Je vous remercie. C'est une classe de caractères, quand il commence par ^ qui signifie qu'il correspond à tout sauf à son contenu. Donc [^"] entend de tout caractère qui n'est pas une citation. Je n'ai pas l'utiliser dans la dernière réponse en faveur de la pas prête version, .*?. Le précédent était gourmand, j'ai donc utilisé cette classe pour correspondre à tout, pas une citation avec l'intention de s'arrêter sur la première citation, qui est la même que la correspondance de rien "ungreedly" jusqu'à un devis. Espérons que cela aide à comprendre, et laissez-moi savoir si je peux mieux clarifier certaines partie.
- L'option-P ne semble pas être pris en charge sous OS X: grep [-abcDEFGHhIiJLlmnOoqRSsUVvwxZ] [-num] [-B num] [-C[num]] [-e pattern] [-f fichier] [--binary-files=valeur] [--color=quand] [--contexte[=num]] [--répertoires=action] [--label] [--line-tampon] [--null] [modèle] [fichier ...]
- son est cité dans le manuel de l'extension. Vous ne savez pas comment documenté, il est, mais bon, je suis sur OS X et travaille ici.
- J'ai trouvé cet article: "expression rationnelle Perl Retiré De Grep dans la Montagne du Lion" (dirtdon.com/?p=1452 ). Je suis sur Yosemite moi-même, mais l'article semble être valide pour que ainsi.
- Sur OS X, il suffit d'installer grep via homebrew et l'utiliser à la place de celui par défaut. Il devrait fonctionner.
- grep -Po 'look-ahead \K capture' fait ma journée. Slick.
InformationsquelleAutor sidyll
5

L'expression régulière serait:
```
.+name="([^"]+)"
```
Puis le groupement serait dans le \1

InformationsquelleAutor Matt Shaver
5

Si vous utilisez Perl, télécharger un module de parser le XML: XML::Simple, XML::Twig, ou XML::LibXML. Ne pas ré-inventer la roue.
- Notez que l'exemple l'OP a donné n'est pas bien formé (<type="global" par exemple), de sorte que la plupart des parsers XML simplement se plaindre et de mourir.
InformationsquelleAutor shawnhcorey

Un analyseur HTML doit être utilisé à cette fin plutôt que les expressions régulières. Un programme en Perl qui permet d'utiliser HTML:: "TreeBuilder" :

Programme

#!/usr/bin/env perl

use strict;
use warnings;

use HTML::TreeBuilder;

my $tree = HTML::TreeBuilder->new_from_file( \*DATA );
my @elements = $tree->look_down(
    sub { defined $_[0]->attr('name') }
);

for (@elements) {
    print $_->attr('name'), "\n";
}

__DATA__
<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>

Sortie

content_analyzer
content_analyzer2
content_analyzer_items

InformationsquelleAutor Alan Haggai Alavi

2

cela pourrait le faire:
```
perl -ne 'if(m/name="(.*?)"/){ print $1 . "\n"; }'
```
InformationsquelleAutor Benoit

Voici une solution à l'aide de HTML tidy & xmlstarlet:

htmlstr='
<table name="content_analyzer" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
<type="global" />
</table>
'

echo "$htmlstr" | tidy -q -c -wrap 0 -numeric -asxml -utf8 --merge-divs yes --merge-spans yes 2>/dev/null |
sed '/type="global"/d' |
xmlstarlet sel -N x="http://www.w3.org/1999/xhtml" -T -t -m "//x:table" -v '@name' -n

Starlette fonctionne bien pour XML-connaissance des scripts shell

InformationsquelleAutor mitma

Oups, la dsi doit précéder la coquette commande de cours:

echo "$htmlstr" | 
sed '/type="global"/d' |
tidy -q -c -wrap 0 -numeric -asxml -utf8 --merge-divs yes --merge-spans yes 2>/dev/null |
xmlstarlet sel -N x="http://www.w3.org/1999/xhtml" -T -t -m "//x:table" -v '@name' -n

InformationsquelleAutor mitma

Si la structure de votre xml (ou le texte en général) est fixe, le plus simple est d'utiliser cut. Pour votre cas spécifique:

echo '<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>' | grep name= | cut -f2 -d '"'

InformationsquelleAutor Carlos Lindado

Vous devez vous connecter pour publier un commentaire.

Perl

GNU grep

Vim - Éditeur De Texte

Standard grep

D'une note sur l'enregistrement des résultats

Programme

Sortie