Extrait de nom de fichier et le chemin d'accès à partir de l'URL dans le script bash

Dans mon script bash j'ai besoin d'extraire juste le chemin de l'URL donnée.
Par exemple, à partir de la variable contenant la chaîne:

http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth

Je veux extraire à une autre variable que l':

/one/more/dir/file.exe

partie. Bien sûr, login, mot de passe, nom de fichier et les paramètres sont facultatifs.

Depuis, je suis nouveau sur sed et awk-je vous demander de l'aide. S'il vous plaît, me conseiller comment le faire. Merci!!!!

Jetez un oeil à http://stackoverflow.com/questions/27745/getting-parts-of-a-url-regex
Double question: 27745
Si l'OP demande une réponse à l'aide de bash, awk et/ou sed, ceux sont les langues que les réponses doivent cible. Je suis tomber malade de cette "la substitution de la langue de votre choix" sur DONC. J'ai récemment posé une question à propos de Javascript sans un cadre parce que je savais que la plate-forme, j'ai été cibler de ne pas le soutenir. Mais je n'ai eu une discussion au sujet de pourquoi je ne pouvais pas utiliser jQuery. Aussi, une fois, j'ai été en développement sur un dispositif intégré et Perl par exemple n'a pas été installé, j'ai donc besoin de faire ces sortes de choses avec awk. Afin de répondre aux questions à l'aide de l'OP langue(s), ou de ne pas répondre à tous.
Cela dépend de votre défaut. Dans votre cas, vous avez par défaut "d'assumer toutes les exigences pas précisé dans la question sont explicitement interdits'. Dans ce cas, l'affiche est un novice avec regexes, et presque certainement ne se soucie pas de savoir si la réponse est dans sed/awk, perl, ou tout autre outil standard. En dehors de spécialisé périphériques intégrés, il n'existe aucun argument pour 'Perl ne peut pas être présents sur la plateforme. Il doit DONC être un outil d'apprentissage et comme un moyen d'obtenir des réponses précises. Le fait que l'OP a accepté un Perl réponse parle d'elle-même. Vos votes négatifs sont une erreur.
vous ne pourriez pas être plus faux que mon "votes négatifs sont une erreur" Cette question de balises contiennent bash, awk & sed. J'ai été amené ici par une recherche sur l'un de ceux-ci ou de l'autre, j'ai oublié laquelle. Mais je ne devrais pas avoir à parcourir des réponses à l'aide de Perl, Ruby ou quoi que ce soit d'autre que la question n'est pas identifié avec, pour trouver l'information pertinente pour la recherche, j'ai couru. En effet, je affirment que c'est complètement contraire à la volonté de la SORTE, comme il existe actuellement, pour répondre à des questions en utilisant des langues que l'OP n'a pas précisé.

InformationsquelleAutor Arek | 2009-07-29

30

Dans bash:
```
URL='http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth'
URL_NOPRO=${URL:7}
URL_REL=${URL_NOPRO#*/}
echo "/${URL_REL%%\?*}"
```
Ne fonctionne que si l'URL commence par http:// ou d'un protocole avec la même longueur
Sinon, c'est probablement plus facile d'utiliser les regex avec sed, grep ou cut ...
- Un bash simple solution qui ne nécessite pas de Ruby ou Perl. Merci!
- Je ne comprendrai jamais pourquoi / quand les gens post brillant exemples SANS l'évidence de l'inclusion de la example output. par exemple, ici.. une ligne simple, est tout ce qui est nécessaire... ↳/one/more/dir/file.exe
- Pour forcer le paresseux de l'utilisateur à essayer lui-même?! 😀
- Ce n'est que me met le nom de fichier. Je ne comprends pas comment il est considéré comme la solution. Comment obtenez-vous /one/more/dir/file.exe?
- Il imprime /one/more/dir/file.exe, vous pouvez le mettre dans une variable si vous le souhaitez: MYVAR="/one/more/dir/${AFTER_SLASH%%\?*}"
- Je comprends que mais AFTER_SLASH est uniquement le nom de fichier. Il n'a pas du tout le chemin. Vous avez besoin de tout le chemin en quelque sorte avant la main afin de construire cette chaîne. Comment voulez-vous simplement obtenir "/one/more/dir/file.exe" de l'URL?
- Vous avez raison, j'ai édité ma réponse (fonctionne uniquement si l'URL commence par http:// ou d'un protocole avec la même longueur)
- Vous pouvez supprimer le protocole de l'url indépendamment de la longueur de la URL_NOPRO=${URL#*//}. Qui va travailler avec http://, https://, ftp://, mais pas avec file:/// (ne peut pas gérer 3 barres obliques).
InformationsquelleAutor saeedgnu
76

Il y a des fonctions intégrées dans bash pour gérer cela, par exemple, la chaîne correspondant au modèle d'opérateurs:
1. '#' supprimer minimale correspondant préfixes
2. '##' supprimer maximale correspondant préfixes
3. '%' supprimer minimale correspondant suffixes
4. '%%' supprimer maximale correspondant suffixes
Par exemple:
```
FILE=/home/user/src/prog.c
echo ${FILE#/*/}  # ==> user/src/prog.c
echo ${FILE##/*/} # ==> prog.c
echo ${FILE%/*}   # ==> /home/user/src
echo ${FILE%%/*}  # ==> nil
echo ${FILE%.c}   # ==> /home/user/src/prog
```
Tout cela à partir de l'excellent livre: "Un Guide Pratique pour les Commandes de Linux, les Éditeurs, et la Programmation Shell par Mark G. Sobell (http://www.sobell.com/)
- J'aimerais vous savez que ce post a grandement aidé moi. Merci!
- Heureux de l'entendre; merci!
- Ok, mais dans l'URL que vous avez // au premier abord, nous avons donc besoin de quelque chose de tout ce qui est après la troisième barre oblique - comment cela fonctionne?
- le truc, c'est la définition de l' ## opérateur: c'est à dire, supprimer MAXIMALE des préfixes; cela signifie qu'il supprime tout jusqu'à la dernière '/'. HTH
- Merci à vous, @JESii, pour cette. J'ai demandé à la intertubes de 50 manières différentes et finalement tombé sur cette question et votre réponse.
- Vous êtes les bienvenus, @tobinjim; mon plaisir!
- Pour l'URL, je voudrais utiliser - printf -- "%s" "${URL##*/}" - qui permettra d'éliminer tout ce qui conduit jusqu'à la finale "/" et indépendantes.
- Remarque si vous avez de la chaîne de requête params vous devez soit utiliser 2 lignes distinctes de substitution de paramètres ou vous pouvez pipe à travers sed - printf -- "%s" "${url##*/}" | sed 's/?.*//' qui remplace l'option ? et rien après avec rien.
- Je ne cherchais pas à cette question, mais votre commentaire, néanmoins, m'a aidé. Même si maintenant je me demande quelque chose (éventuellement hors-sujet, mais je ne veux pas être dit par un admin pour faire référence à cet article). En gros, je suis à l'aide de votre réponse à la liste de mes nœud modules pour mon nœud d'installation installé par l'intermédiaire de la mémoire non volatile, et je me demandais si il existe un moyen de prendre la sortie (qui fonctionne) et le tuyau en npm install -g pour quand j'ai installer un nouveau nœud version. J'ai essayé tout de tuyauterie à pbcopy et le coller après npm install -g, mais je reçois un tas d'échecs.
- Je voudrais essayer de tuyauterie qui en xargs que vous pouvez ensuite utiliser pour exécuter la commande une fois pour chaque argument. J'ai toujours l'avoir à le rechercher (Voir ss64.com/bash/xargs.html par exemple), mais il pourrait ressembler à quelque chose comme ceci à partir d'un simple ls: ls | xargs npm install. J'ai trouvé xargs un peu difficile pour envelopper ma tête autour au premier abord, mais c'est vraiment puissant pour le "dosage" des commandes sur plusieurs fichiers.
InformationsquelleAutor JESii
7

Il utilise bash et couper comme une autre manière de faire. C'est moche, mais ça fonctionne (au moins pour l'exemple). Parfois, j'aime à utiliser ce que j'appelle couper tamis à réduire l'information que je suis actuellement à la recherche pour.

Remarque: Performance sage, cela peut être un problème.

Compte tenu de ces mises en garde:

Laissez-moi d'abord l'écho de la la ligne:
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth'
```
Qui nous donne:

http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth

Puis nous allons couper la ligne à la @ comme un moyen pratique pour dépouiller le http://login:password:
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
cut -d@ -f2
```
Qui nous donne ceci:

example.com/one/more/dir/file.exe?a=sth&b=sth

Pour se débarrasser du nom d'hôte, nous allons faire un autre couper et l'utilisation de la / comme délimiteur tout en demandant à couper à nous donner le deuxième champ et tout ce qui suit (essentiellement, à la fin de la ligne). Il ressemble à ceci:
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
cut -d@ -f2 | \
cut -d/ -f2-
```
Qui, à son tour, entraîne:

un/plusieurs/dir/file.exe?a=sth&b=sth

Et enfin, nous voulons dépouiller tous les paramètres à partir de la fin. Encore une fois, nous allons utiliser couper et cette fois, les ? comme délimiteur et dites-lui de nous donner juste le premier champ. Ce qui nous amène à la fin et ressemble à ceci:
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
cut -d@ -f2 | \
cut -d/ -f2- | \
cut -d? -f1
```
Et la sortie est:

one/more/dir/file.exe

Juste une autre façon de faire et de cette approche est un moyen de réduire l'écart que les données que vous n'avez pas besoin d'une manière interactive à venir avec quelque chose que vous avez besoin.

Si je voulais des trucs de ce dans une variable dans un script, j'aimerais faire quelque chose comme ceci:
```
#!/bin/bash

url="http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth"
file_path=$(echo ${url} | cut -d@ -f2 | cut -d/ -f2- | cut -d? -f1)
echo ${file_path}
```
Espère que cela aide.

InformationsquelleAutor Jim

url="http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth"

GNU `grep`

$ grep -Po '\w\K/\w+[^?]+' <<<$url
/one/more/dir/file.exe

BSD `grep`

$ grep -o '\w/\w\+[^?]\+' <<<$url | tail -c+2
/one/more/dir/file.exe

ripgrep

$ rg -o '\w(/\w+[^?]+)' -r '$1' <<<$url
/one/more/dir/file.exe

Pour obtenir d'autres parties de l'URL, vérifiez: L'obtention de pièces d'une URL (Regex).

InformationsquelleAutor kenorb

gawk

echo "http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth" | awk -F"/" '
{
 $1=$2=$3=""
 gsub(/\?.*/,"",$NF)
 print substr($0,3)
}' OFS="/"

sortie

# ./test.sh
/one/more/dir/file.exe

cela suppose qu'il n'y a pas de barres obliques après le '?'

InformationsquelleAutor ghostdog74

Si vous avez un gawk:

$ echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
  gawk '$0=gensub(/http:\/\/[^/]+(\/[^?]+)\?.*/,"\",1)'

$ echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
  gawk -F'(http://[^/]+|?)' '$0=$2'

Gnu awk peut utiliser l'expression régulière comme séparateurs de champ(FS).

InformationsquelleAutor Hirofumi Saito

2

Comment cela 😕
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | \
sed 's|.*://[^/]*/$[^?]*$?.*|/|g'
```
- .://[^/]/: http://login:[email protected]/
- ([^?]*) : one/more/dir/file.exe
- ?.* : ?a=sth&b=sth
- /\1 : /one/more/dir/file.exe
InformationsquelleAutor sed
2

L'extrait de code Perl est intrigante, et depuis Perl est présent dans la plupart des distributions Linux, tout à fait utile, mais...Il ne veut pas faire le travail complètement. Plus précisément, il y a un problème dans la traduction de l'URL/URI format UTF-8 dans le chemin de l'Unicode. Permettez-moi de donner un exemple de problème. L'URI originale peut être:
```
file:///home/username/Music/Jean-Michel%20Jarre/M%C3%A9tamorphoses/01%20-%20Je%20me%20souviens.mp3
```
Le chemin d'accès correspondant serait:
```
/home/username/Music/Jean-Michel Jarre/Métamorphoses/01 - Je me souviens.mp3
```
%20 est devenu l'espace, %C3%A9 est devenu 'é'. Est-il une commande Linux, bash fonction ou un script Perl qui peut gérer cette transformation, ou dois-je écrire une énorme série de sed sous-chaîne de substitutions? Que dire de l'inverse de la transformation, à partir du chemin d'URL/URI?

(Suivi)

Regardant http://search.cpan.org/~gaas/URI-DE 1,54/URI.pm, j'ai d'abord vu le as_iri méthode, mais c'était apparemment absent de mon Linux (ou n'est pas applicable, en quelque sorte). S'avère la solution est de remplacer le "->chemin" avec "->file". Vous pouvez ensuite pause que d'autres vers le bas à l'aide de basename et dirname, etc. La solution est donc:
```
path=$( echo "$url" | perl -MURI -le 'chomp($url = <>); print URI->new($url)->file' )
```
Curieusement, à l'aide de "->dir" au lieu de "->file" n'est PAS un extrait de l'annuaire de la partie: au contraire, il met l'URI de sorte qu'il peut être utilisé comme un argument pour mkdir et la comme.

(Suivi)

Aucune raison pour que la ligne ne peut pas être réduit à cela?
```
path=$( echo "$url" | perl -MURI -le 'print URI->new(<>)->file' )
```
InformationsquelleAutor Urhixidur

Meilleur pari est de trouver un langage qui a une URL de l'analyse de la bibliothèque:

url="http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth"
path=$( echo "$url" | ruby -ruri -e 'puts URI.parse(gets.chomp).path' )

path=$( echo "$url" | perl -MURI -le 'chomp($url = <>); print URI->new($url)->path' )

Il semble que c'est la façon la plus élégante, je vais l'utiliser.

InformationsquelleAutor glenn jackman

1

Je suis d'accord que "couper" est un merveilleux outil en ligne de commande. Toutefois, une plus purement bash solution est d'utiliser une fonctionnalité puissante de l'expansion des variables dans bash. Par exemple:
```
pass_first_last='password,firstname,lastname'

pass=${pass_first_last%%,*}

first_last=${pass_first_last#*,}

first=${first_last%,*}

last=${first_last#*,}

or, alternatively,

last=${pass_first_last##*,}
```
InformationsquelleAutor Roger

J'ai écrit une fonction qui va extraire tout ou partie de l'URL. Je ne l'ai testé en bash. Utilisation:

url_parse <url> [url-part]

exemple:

$ url_parse "http://example.com:8080/home/index.html" path
home/index.html

code:

url_parse() {
local -r url=$1 url_part=$2
#define url tokens and url regular expression
local -r protocol='^[^:]+' user='[^:@]+' password='[^@]+' host='[^:/?#]+' \
port='[0-9]+' path='\/([^?#]*)' query='\?([^#]+)' fragment='#(.*)'
local -r auth="($user)(:($password))?@"
local -r connection="($auth)?($host)(:($port))?"
local -r url_regex="($protocol):\/\/($connection)?($path)?($query)?($fragment)?$"
#parse url and create an array
IFS=',' read -r -a url_arr <<< $(echo $url | awk -v OFS=, \
"{match(\$0,/$url_regex/,a);print a[1],a[4],a[6],a[7],a[9],a[11],a[13],a[15]}")
[[ ${url_arr[0]} ]] || { echo "Invalid URL: $url" >&2 ; return 1 ; }
case $url_part in
protocol) echo ${url_arr[0]} ;;
auth)     echo ${url_arr[1]}:${url_arr[2]} ;; # ex: john.doe:1234
user)     echo ${url_arr[1]} ;;
password) echo ${url_arr[2]} ;;
host-port)echo ${url_arr[3]}:${url_arr[4]} ;; #ex: example.com:8080
host)     echo ${url_arr[3]} ;;
port)     echo ${url_arr[4]} ;;
path)     echo ${url_arr[5]} ;;
query)    echo ${url_arr[6]} ;;
fragment) echo ${url_arr[7]} ;;
info)     echo -e "protocol:${url_arr[0]}\nuser:${url_arr[1]}\npassword:${url_arr[2]}\nhost:${url_arr[3]}\nport:${url_arr[4]}\npath:${url_arr[5]}\nquery:${url_arr[6]}\nfragment:${url_arr[7]}";;
"")       ;; # used to validate url
*)        echo "Invalid URL part: $url_part" >&2 ; return 1 ;;
esac
}

InformationsquelleAutor Mike

1

En utilisant uniquement bash les builtins:
```
path="/${url#*://*/}" && [[ "/${url}" == "${path}" ]] && path="/"
```
Ce que ce n'est:
1. supprimer le préfixe *://*/ (donc ce serait votre protocole et le nom d'hôte+port)
2. vérifier si nous avons effectivement réussi à enlever quoi que ce soit - si non, alors cela implique qu'il n'y a pas de troisième barre oblique (en supposant que c'est bien formée URL)
3. si il n'y avait pas de troisième barre oblique, puis le chemin est juste /
remarque: les guillemets ne sont pas nécessaires ici, mais je le trouve plus facile à lire avec eux dans

InformationsquelleAutor caldfir
-1

Cette perl one-liner qui fonctionne pour moi sur la ligne de commande, donc pourrait être ajouté à votre script.
```
echo 'http://login:[email protected]/one/more/dir/file.exe?a=sth&b=sth' | perl -n -e 'm{http://[^/]+(/[^?]+)};print $1'
```
Noter que cela suppose, il y aura toujours un caractère"? " à la fin de la chaîne que vous souhaitez extraire.
- Malheureusement ? personnage à la fin n'est pas toujours présent dans l'Url, donc je ne peux pas supposer que. Ghostdog74 la réponse semble être mieux.
- J'ai peur Ghostdog74 réponse s'appuie également sur le '?'. Essayez de supprimer le caractère '?' partir de l'url dans l'écho de la déclaration dans sa réponse, et vous verrez que le résultat est incorrect.
- Hmmm, j'ai testé les deux réponses maintenant, et les deux semblent produire des résultats corrects pour moi 🙂 <code>echo 'example.com/one/more/dir/file.exe' | perl -n -e 'm{http://[^/]+(/[^?]+)};print $1 " </code> produire: <code>/un/plusieurs/dir/file.exe</code> Donc pour moi c'est correct. Maintenant, je dois passer ce résultat à bash variable et finir mon script.
- gsub ne fait rien s'il n'est pas ?.
InformationsquelleAutor ire_and_curses

Vous devez vous connecter pour publier un commentaire.

GNU grep

BSD grep

ripgrep

GNU `grep`

BSD `grep`