Comment décoder URL-chaîne codée en shell?

J'ai un fichier avec une liste des user-agents qui sont codés.
E. g.:

Mozilla%2F5.0%20%28Macintosh%3B%20U%3B%20Intel%20Mac%20OS%20X%2010.6%3B%20en

Je veux un script shell qui peut lire ce fichier et écrire dans un nouveau fichier avec chaînes décodées.

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en

J'ai essayé d'utiliser cet exemple pour obtenir ce que ça va, mais il n'est pas jusque-là.

$ echo -e "$(echo "%31+%32%0A%33+%34" | sed 'y/+//; s/%/\\x/g')"

Mon script ressemble:

#!/bin/bash
for f in *.log; do
  echo -e "$(cat $f | sed 'y/+//; s/%/\x/g')" > y.log
done

ligne 5: "x" devrait être le double échappement (s/%/\x/g -> s/%/\\x/g
Merci pour le pointeur. Essayez d'échappement double. Ne sais pas comment je l'ai raté quand j'ai copié à partir de quelque part d'autre. Sera mise à jour.
unix.stackexchange.com/questions/159253/...

InformationsquelleAutor user785717 | 2011-06-06

48

Voici un exemple simple d'une solution en ligne.
```
$ urldecode() { : "${*//+/}"; echo -e "${_//%/\\x}"; }
```
Il peut ressembler à perl 🙂 mais c'est juste pure bash. Pas de awks, pas de sed ... pas de frais généraux. À l'aide de l' : builtin, les paramètres spéciaux, modèle de substitution et l'écho builtin l'option-e pour traduire les codes hex en personnages. Voir le bash de la page de manuel pour plus de détails. Vous pouvez utiliser cette fonction en tant que distincte de commande
```
$ urldecode https%3A%2F%2Fgoogle.com%2Fsearch%3Fq%3Durldecode%2Bbash
https://google.com/search?q=urldecode+bash
```
ou dans les affectations de variables, comme suit:
```
$ x="http%3A%2F%2Fstackoverflow.com%2Fsearch%3Fq%3Durldecode%2Bbash"
$ y=$(urldecode "$x")
$ echo "$y"
http://stackoverflow.com/search?q=urldecode+bash
```
- Votre exemple ne fonctionne pas: ` la ligne 3: urldecode: commande introuvable
- Aimerais de plus d'explications sur le motif de substitution. Cette fonction fonctionne pour moi, mais il change les caractères d'une manière qui rend les chemins de fichiers fonctionne pas avec de la décompression de la fonction.
- remplacera tous + avec l'espace et le ${_//%/\\x} remplacera tous % avec \x.
- veux juste mentionner que c'est horriblement lent pour moi; pour 50k url, bash: 0m3.767s python: 0m0.200s (python un liner ci-dessous: stackoverflow.com/a/21693459/1695680)
- pouvez-vous indiquer le : de la documentation? J'ai pensé : était un no-op en bash
InformationsquelleAutor guest
19

GNU awk
```
#!/usr/bin/awk -fn
@include "ord"
BEGIN {
  RS = "%.."
}
{
  printf RT ? $0 chr("0x" substr(RT, 2)) : $0
}
```
Ou
```
#!/bin/sh
awk -niord '{printf RT?$0chr("0x"substr(RT,2)):$0}' RS=%..
```
Utilisation de awk printf pour urldecode texte
- Malheureusement ne fonctionne pas avec pathologiques des chaînes de caractères qui contiennent, disons, les tirets et les urlencoded arobases.
- Malheureusement, cela fonctionne exclusivement dans GNU awk, tandis que dans un couple commerciale awk implémentations, cette fonction chr() n'est pas disponible. BTW, vous pouvez également omettre le --include|-i déclaration et l'utilisation @load "ordchr" directement dans votre code. (trouvé via RTFM ;-))
InformationsquelleAutor Steven Penny
12

si vous êtes un python développeur, ce peut-être preferer
```
echo "%21%20" | python -c "import sys, urllib as ul; print ul.unquote(sys.stdin.read());"
```
urllib est professionnel de la manutention, il
- Sympa, mais je voudrais changer un peu de l'utilisation argv et l'utilisation est comme un alias. Voici un exemple de codage: alias encoder='python2 -c "import sys, urllib ul; print ul.citation(sys.argv[1]);"'
- Modifié pour python 3: echo "%21%20" | python -c "import sys; from urllib.parse import unquote; print(unquote(sys.stdin.read()));"
InformationsquelleAutor Jay
11

C'est ce qui semble fonctionner pour moi.
```
#!/bin/bash
urldecode(){
  echo -e "$(sed 's/+//g;s/%$..$/\\x/g;')"
}

for f in /opt/logs/*.log; do
    name=${f##/*/}
    cat $f | urldecode > /opt/logs/processed/$HOSTNAME.$name
done
```
Remplacement de '+'s avec des espaces, et le signe % avec "\x " s'échappe, et en laissant l'écho interpréter le \x s'échappe à l'aide de l'option '-e' option n'a pas de travail. Pour une raison quelconque, la commande cat a l'impression de l' % signe que sa propre forme codée %25. Donc, sed était tout simplement le remplacement de 25% par \x25. Lorsque l'option-e a été utilisé, c'était tout simplement l'évaluation de \x25 en % et le résultat était le même que l'original.

Trace:

Original: Mozilla%2F5.0%20%28Macintosh%3B%20 U%3B%20Intel%20Mac%20OS%20X%2010.6%3B%20en

sed: Mozilla\x252F5.0\x2520\x2528Macintosh\x253B\x2520U\x253B\x2520Intel\x2520Mac\x2520OS\x2520X\x252010.6\x253B\x2520en

echo-e: Mozilla%2F5.0%20%28Macintosh%3B%20 U%3B%20Intel%20Mac%20OS%20X%2010.6%3B%20en

Correctif: ignorer Essentiellement les 2 caractères après le % de sed.

sed: Mozilla\x2F5.0\x20\x28Macintosh\x3B\x20U\x3B\x20Intel\x20Mac\x20OS\x20X\x2010.6\x3B\x20en

echo-e: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; fr

Pas sûr de ce que les complications cela aurait pour conséquence, après de nombreux essais, mais fonctionne pour l'instant.
- Fonctionne, mais il devrait y avoir un \1 après \\x comme echo -e "$(sed 's/+/ /g;s/%$..$/\\x\1/g;')"
- Comme @svante a écrit, le \1 est manquant. J'ai édité la réponse de l'inclure. (Plus quelques petites mise en forme de la grammaire des modifications pour répondre à de 6 caractères minimum de modifier exigence.)
InformationsquelleAutor user785717
11

Avec BASH, pour lire le pour cent URL encodée à partir de la norme et de décoder:
```
while read; do echo -e ${REPLY//%/\\x}; done
```
Appuyez sur CTRL-D pour le signal de la fin de fichier(EOF) et quitter normalement.

Vous pouvez décoder le contenu d'un fichier en paramètre le fichier à la norme en:
```
while read; do echo -e ${REPLY//%/\\x}; done < file
```
Vous pouvez décoder entrée à partir d'un tuyau, par exemple:
```
echo 'a%21b' | while read; do echo -e ${REPLY//%/\\x}; done
```
- Le lire intégré dans la commande lit standard jusqu'à ce qu'il voit un caractère de saut de Ligne. Il définit une variable appelée REPLY égal à la ligne de texte qu'il vient de lire.
- ${REPLY//%/\\x} remplace toutes les occurrences de '%' avec '\x'.
- echo -e interprète \xNN que le caractère ASCII avec la valeur hexadécimale de NN.
- alors que la répète en boucle jusqu'à ce que la commande de lecture échoue, par exemple. EOF a été atteint.
Le ci-dessus ne change pas '+' a'. Pour changer ' + '' a aussi, comme invité réponse:
```
while read; do : "${REPLY//%/\\x}"; echo -e ${_//+/ }; done
```
- : est un BASH builtin commande. Ici, il faut juste dans un seul argument et ne fait rien avec elle.
- Les guillemets faire tout à l'intérieur d'un seul paramètre.
- _ est un paramètre spécial qui est égal au dernier argument de la commande précédente, après l'argument de l'expansion. C'est la valeur de REPLY avec toutes les instances de '%' remplacé par '\x'.
- ${_//+/} remplace toutes les occurrences de '+' à ' '.
Il utilise seulement BASH et de ne pas commencer tout autre processus similaire à l'invité de la réponse.
- C'est brillant.
InformationsquelleAutor brendan
7
```
perl -pi.back -e 'y/+//;s/%([\da-f]{2})/pack H2,$1/gie' ./*.log
```
Avec -i met à jour les fichiers en place (certains sed implémentations ont emprunté que de perl) avec .back que la sauvegarde de l'extension.

s/x/y/e substituts x avec le eévaluation de la y code perl.

Le code perl dans ce cas utilise pack pour emballer le nombre hexadécimal capturé dans $1 (première paire de parenthèses dans l'expression rationnelle) que le caractère correspondant.

Une alternative à pack est d'utiliser chr(hex($1)):
```
perl -pi.back -e 'y/+//;s/%([\da-f]{2})/chr hex $1/gie' ./*.log
```
Si disponible, vous pouvez également utiliser uri_unescape() de URI::Escape:
```
perl -pi.back -MURI::Escape -e 'y/+//;$_=uri_unescape$_' ./*.log
```
- Cet exemple serait encore mieux avec quelques mots d'explication.
InformationsquelleAutor Stephane Chazelas

Script Bash pour le faire en natif Bash (original source):

LANG=C

urlencode() {
    local l=${#1}
    for (( i = 0 ; i < l ; i++ )); do
        local c=${1:i:1}
        case "$c" in
            [a-zA-Z0-9.~_-]) printf "$c" ;;
            ' ') printf + ;;
            *) printf '%%%.2X' "'$c"
        esac
    done
}

urldecode() {
    local data=${1//+/ }
    printf '%b' "${data//%/\x}"
}

Si vous voulez urldecode contenu d'un fichier, il suffit de mettre le contenu du fichier comme argument.

Voici un test qui va exécuter arrêter si la décodé le contenu des fichiers codés diffère (si elle tourne pendant quelques secondes, le script fonctionne probablement correctement):

while true
  do cat /dev/urandom | tr -d 'while true
do cat /dev/urandom | tr -d '\0' | head -c1000 > /tmp/tmp;
A="$(cat /tmp/tmp; printf x)"
A=${A%x}
A=$(urlencode "$A")
urldecode "$A" > /tmp/tmp2
cmp /tmp/tmp /tmp/tmp2
if [ $? != 0 ]
then break
fi
done
' | head -c1000 > /tmp/tmp;
     A="$(cat /tmp/tmp; printf x)"
     A=${A%x}
     A=$(urlencode "$A")
     urldecode "$A" > /tmp/tmp2
     cmp /tmp/tmp /tmp/tmp2
     if [ $? != 0 ]
       then break
     fi
done

Notez que votre urldecode considère que les données ne contient pas de barre oblique inverse.
Je crois que les barres obliques inverses ne sont pas autorisés à proprement %-chaînes codées

InformationsquelleAutor Janus Troelsen

5

Si vous avez php installé sur votre serveur, vous pouvez "chat" ou encore "queue" de n'importe quel fichier, avec l'url encodées très facilement.
```
tail -f nginx.access.log | php -R 'echo urldecode($argn)."\n";'
```
- Jamais regardé -R avant, JUSQU'à environ $argn (et $argi)! Référence (^F -R): php.net/manual/en/features.commandline.options.php
InformationsquelleAutor Oleg Bondar'

Comme @barti_ddu dit dans les commentaires, \x "devrait être [double]échappé".

% echo -e "$(echo "Mozilla%2F5.0%20%28Macintosh%3B%20U%3B%20Intel%20Mac%20OS%20X%2010.6%3B%20en" | sed 'y/+//; s/%/\\x/g')"
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en

Plutôt que de mélanger jusqu'Bash et sed, je voudrais faire cela tout en Python. Voici un premier montage de comment:

#!/usr/bin/env python

import glob
import os
import urllib

for logfile in glob.glob(os.path.join('.', '*.log')):
    with open(logfile) as current:
        new_log_filename = logfile + '.new'
        with open(new_log_filename, 'w') as new_log_file:
            for url in current:
                unquoted = urllib.unquote(url.strip())
                new_log_file.write(unquoted + '\n')

Merci pour le script. Donnera la dsi version un coup et prendre le python route, si cela échoue. J'ai lu quelque part que le sed approche a été plus rapide. Est-ce vrai. Je vais avoir un peu de GO taille des fichiers à traiter toutes les heures et peut utiliser toutes les avantage.
J'espère que ça va fonctionner pour vous. J'ai aucune idée de qui fonctionnera le mieux sur vos données. time est votre ami.

InformationsquelleAutor Johnsyweb

Avec GNU awk:

gawk -vRS='%[0-9a-fA-F]{2}' 'RT{sub("%","0x",RT);RT=sprintf("%c",strtonum(RT))}
                             {gsub(/\+/," ");printf "%s", $0 RT}'

InformationsquelleAutor Stephane Chazelas

2

Voici une solution qui est fait dans le plus pur bash où l'entrée et la sortie sont variables bash. Il va décoder '+' comme un espace et d'utiliser le '%20' de l'espace, ainsi que d'autres %les caractères encodés.
```
#!/bin/bash
#here is text that contains both '+' for spaces and a %20
text="hello+space+1%202"
decoded=$(echo -e `echo $text | sed 's/+//g;s/%/\\\\x/g;'`)
echo decoded=$decoded
```
- sed n'est pas pur Bash; ce qui engendre un autre processus.
InformationsquelleAutor nevertooloud
2
```
$ uenc='H%C3%B6he %C3%BCber%20dem%20Meeresspiegel'
$ utf8=$(echo -e "${uenc//%/\\x}")
$ echo $utf8
Höhe über dem Meeresspiegel
$
```
- Bien que ce code peut répondre à la question, en fournissant plus de contexte sur pourquoi et/ou comment il répond à la question permettrait d'améliorer de manière significative sa valeur à long terme. Veuillez modifier votre réponse à ajouter quelques explications.
InformationsquelleAutor guest
2

Mise à jour Jay réponse pour Python 3.5+:

echo "%31+%32%0A%33+%34" | python -c "import sys; from urllib.parse import unquote ; print(unquote(sys.stdin.read()))"

Encore, brendan bash solution avec explication semble plus direct et le plus élégant.

InformationsquelleAutor yemiteliyadu
0

L'expansion de
https://stackoverflow.com/a/37840948/8142470

de travailler avec des entités HTML

$ htmldecode() { : "${*//+/}"; echo-e "${_//&#x/\x}" | tr -d
';'; }
$ htmldecode
"http://google.com/search&?q=urldecode+bash" http://google.com/search&?q=urldecode+bash

(argument doit être cité)

InformationsquelleAutor Calvin Kim
-1

Confronté à un problème similaire, mon idée initiale était d'utiliser urldecode à partir de PHP dans un script permettant de lire stdin ou certains-tel, mais je suis tombée sur cette idée. Toutes les réponses semblent avoir beaucoup de texte, mais pas de réelle solution. L'idée est bonne mais, et c'est incroyablement facile de se mettre au travail:
```
$ mpc | sed -e '1! d'
http://e.org/play.php?name=/Black%20Sun%20Empire%20-%20Sideways%20%28Feat.%20Illy%20Emcee%29

$ basename "$(echo -e `mpc | sed -e '1! d' -e 's/%/\\\\x/g'`)"
Black Sun Empire - Sideways (Feat. Illy Emcee)
```
La clé pour faire ce travail est double échappement \x (ce qui a été déjà mentionné).

InformationsquelleAutor Ярослав Рахматуллин

-1

Je voulais juste partager cette autre solution, pur bash:

encoded_string="Mozilla%2F5.0%20%28Macintosh%3B%20U%3B%20Intel%20Mac%20OS%20X%2010.6%3B%20en"
printf -v encoded_string "%b" "${encoded_string//\%/\x}"
echo $encoded_string

InformationsquelleAutor jamp

-1

Une version légèrement modifiée de l'Python réponse qui accepte une entrée et une sortie de fichier en une seule ligne.
```
cat inputfile.txt | python -c "import sys, urllib as ul; print ul.unquote(sys.stdin.read());" > ouputfile.txt
```
InformationsquelleAutor Peter
-3
```
$ uenc='H%C3%B6he %C3%BCber%20dem%20Meeresspiegel'
$ utf8=$(printf "${uenc//%/\\x}")
$ echo $utf8
Höhe über dem Meeresspiegel
$
```
- Bien que ce code peut répondre à la question, en fournissant plus de contexte sur pourquoi et/ou comment il répond à la question permettrait d'améliorer de manière significative sa valeur à long terme. Veuillez modifier votre réponse à ajouter quelques explications.
InformationsquelleAutor guest

Vous devez vous connecter pour publier un commentaire.