grepping fichiers binaires et UTF16

Standard grep/pcregrep etc. peut être facilement utilisé avec des fichiers binaires pour ASCII ou données UTF8 - est-il un moyen simple de les faire essayer UTF16 trop (de préférence simultanément, mais au lieu de cela le fera)?

Données que j'essaie de faire est tout ASCII de toute façon (les références dans les bibliothèques, etc.), il n'a tout simplement pas obtenir trouvé que parfois, il est 00 entre les deux personnages, et parfois il n'y en a pas.

Je ne vois pas de moyen de faire les choses du point de vue sémantique, mais ces 00s devrait faire l'affaire, sauf que je ne peut pas l'utiliser facilement sur la ligne de commande.

...ce n'est pas ASCII si les caractères à deux octets de long.
Je veux dire, plage ASCII des caractères (U+0000 à U+007F), pas de codage ASCII.

InformationsquelleAutor taw | 2010-09-20

64

Le moyen le plus facile est de simplement convertir le fichier texte en utf-8 et le tuyau de grep:
```
iconv -f utf-16 -t utf-8 file.txt | grep query
```
J'ai essayé de faire le contraire (convertir ma requête de l'utf-16), mais il semble que grep n'aime pas cela. Je pense qu'il pourrait avoir à faire avec l'endianness, mais je ne suis pas sûr.

Il semble que grep va convertir une requête qui est de l'utf-16 pour de l'utf-8/ascii. Voici ce que j'ai essayé:
```
grep `echo -n query | iconv -f utf-8 -t utf-16 | sed 's/..//'` test.txt
```
Si test.txt est utf-16 fichier cela ne fonctionne pas, mais il fonctionne si test.txt ascii. Je ne peux que conclure que la commande grep est la conversion de ma requête à l'ascii.

EDIT: Ici est vraiment fou de ce genre de travaux, mais ne vous donne pas beaucoup d'informations utiles:
```
hexdump -e '/1 "%02x"' test.txt | grep -P `echo -n Test | iconv -f utf-8 -t utf-16 | sed 's/..//' | hexdump -e '/1 "%02x"'`
```
Comment ça fonctionne? Eh bien, il convertit votre fichier hex (sans supplément de mise en forme que hexdump s'applique habituellement). Il les tuyaux que dans grep. Grep est à l'aide d'une requête qui est construit en se faisant l'écho de votre requête (sans saut de ligne) en fonction iconv qui la convertit en utf-16. C'est ensuite canalisé dans sed pour supprimer la NOMENCLATURE (les deux premiers octets de l'utf-16 fichier utilisé pour déterminer l'endianness). C'est ensuite canalisé dans hexdump de sorte que la requête et l'entrée sont les mêmes.

Malheureusement, je pense que ce sera à la fin de l'impression de l'ENSEMBLE du fichier si il y a un seul match. Aussi cela ne fonctionnera pas si l'utf-16 dans votre fichier binaire est stocké dans un autre boutisme de votre machine.

EDIT2: je l'Ai!!!!
```
grep -P `echo -n "Test" | iconv -f utf-8 -t utf-16 | sed 's/..//' | hexdump -e '/1 "x%02x"' | sed 's/x/\\\\x/g'` test.txt
```
Cette recherche la version hexadécimale du code de la chaîne Test (en utf-16) dans le fichier test.txt
- iconv ne fonctionne pas, comme c'est un fichier binaire beaucoup de non-utf-16, et iconv sorties sur la première erreur.
- Ouch...je suis toujours à la recherche en donnant grep utf-16 de la requête par curiosité (je ne pense pas que c'est de la conversion, car il ne sait vraiment pas l'encodage, ça doit être quelque chose d'aussi bizarre) et je vous tiens au courant si j'arrive avec quelque chose.
- Découvrez mon montage. Vous avez quelque chose qui fonctionne.
- Il semble être au travail après modification mineure: pcregrep `echo -n "test" | iconv -f utf-8 -t utf-16le | hexdump -e '/1 "x%02x"' | sed 's/x/\\\\x/g'` <binary.file. Plus important encore, il ne nécessite pas de l'utf-16 caractères sur 2 octets limite de quelque chose de toutes les méthodes précédentes avaient de gros problèmes avec. Fonctionne même avec -i.
- Génial! J'ai découvert que le problème que j'ai été avec les backticks. Pour une raison quelconque, ils retournent des chaînes utf-8, et d'échapper à l'anti-slash. C'est pourquoi sed a quatre '\'s.
- J'avais besoin de le faire pour la sauvegarde des fichiers de registre Windows. J'ai trouvé que la commande ci-dessus a été grand, mais quand j'ai eu besoin aussi de connaître le nom de fichier que j'ai créé une nouvelle méthode de bash à utiliser: Définir grepreg en bash par collage à l'invite de commande de bash: grepreg () { find-name"*.reg' -exec echo {} \; -exec iconv -f utf-16 -t utf-8 {} \; | grep "$1\|\.reg" } // Exemple d'utilisation: grepreg SampleTextToSearchForInFiles
- Certains sed est conscient unicode, puis elle se bande les deux premiers caractères après l'unicode des marqueurs et pas le marqueur de caractères. Remplacer sed 's/..//' à la queue -c +3
- Ne voulant pas répondre à toutes ces questions, nous avons remplacé grep avec ugrep qui correspond en fait à l'Unicode, les convertit automatiquement en UTF-16/32 fichiers et affiche le texte et hexdumps github.com/Genivia/RE-flex . Niki Yoshiuchi de nice et de la réponse créative!
InformationsquelleAutor Niki Yoshiuchi
13

Vous pouvez inclure explicitement les valeurs null (00s) dans la chaîne de recherche, bien que vous obtiendrez des résultats avec des valeurs nulles, de sorte que vous pouvez rediriger la sortie vers un fichier de sorte que vous pouvez regarder avec une raisonnable de l'éditeur, ou le tuyau à travers sed pour remplacer les valeurs null. De rechercher pour "barre" en *.utf16.txt:
```
grep -Pa "b\x00a\x00r" *.utf16.txt | sed 's/\x00//g'
```
Le "-P" raconte grep pour accepter de Perl syntaxe, qui permet \x00 de l'étendre à null, et l'un dit à ignorer le fait que l'Unicode ressemble binaire à elle.
- Une bonne technique, je ne pense pas que de cette. Le -a drapeau de la commande grep est la magie ici. en supposant que vous n'avez pas de gros fichiers à la recherche (dans ce cas, ce serait peut-être trop lent), vous pouvez la rendre un peu plus facile de taper simplement en spécifiant . au lieu de \x00. Le . va correspondre à quoi que ce soit, et pas seulement une valeur null. Ce n'est pas toujours ce que vous voulez, mais probablement la plupart du temps sera beau. Souvent, le sed pour effacer les valeurs null n'est pas nécessaire, soit ils ne sont pas d'imprimer quoi que ce soit sur la production. Donc pour ton exemple, juste grep -a b.a.r *.utf16.txt devrait fonctionner.
- Je reçois grep: invalid UTF-8 byte sequence in input...
- Je dois essayer de se rappeler la -P option pour permettre la \xnn. Je l'ai fait sans perl a été à l'aide de "." c'est à dire un seul char et comment @nirmal réponse ci-dessous
InformationsquelleAutor Ethan Bradford
8

J'ai trouvé ci-dessous la solution qui a le mieux fonctionné pour moi, à partir de https://www.splitbits.com/2015/11/11/tip-grep-and-unicode/

Grep ne joue pas bien avec l'Unicode, mais il peut être contourné. Par exemple, pour trouver,
```
Some Search Term
```
en UTF-16 fichier, utiliser une expression régulière pour ignorer le premier octet de chaque personnage,
```
S.o.m.e. .S.e.a.r.c.h. .T.e.r.m 
```
Aussi, dites grep pour traiter le fichier en tant que texte, à l'aide de "- a", le final de la commande ressemble à ceci,
```
grep -a 'S.o.m.e. .S.e.a.r.c.h. .T.e.r.m' utf-16-file.txt
```
- belle réponse rapide et sale travail
InformationsquelleAutor nirmal

Je l'utiliser tout le temps après le dumping le registre de Windows que sa sortie est au format unicode. Ceci est en cours d'exécution sous Cygwin.

$ regedit /e registry.data.out
$ file registry.data.out
registry.data.out: Little-endian **UTF-16 Unicode text**, with CRLF line terminators

$ sed 's/\x00//g' registry.data.out | egrep "192\.168"
"Port"="192.168.1.5"
"IPSubnetAddress"="192.168.189.0"
"IPSubnetAddress"="192.168.102.0"
[HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\Print\Monitors\Standard TCP/IP Port\Ports2.168.1.5]
"HostName"="192.168.1.5"
"Port"="192.168.1.5"
"LocationInformation"="http://192.168.1.28:1215/"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"StandaloneDhcpAddress"="192.168.173.1"
"ScopeAddressBackup"="192.168.137.1"
"ScopeAddress"="192.168.137.1"
"DhcpIPAddress"="192.168.1.24"
"DhcpServer"="192.168.1.1"
"0.0.0.0,0.0.0.0,192.168.1.1,-1"=""
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Print\Monitors\Standard TCP/IP Port\Ports2.168.1.5]
"HostName"="192.168.1.5"
"Port"="192.168.1.5"
"LocationInformation"="http://192.168.1.28:1215/"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"StandaloneDhcpAddress"="192.168.173.1"
"ScopeAddressBackup"="192.168.137.1"
"ScopeAddress"="192.168.137.1"
"DhcpIPAddress"="192.168.1.24"
"DhcpServer"="192.168.1.1"
"0.0.0.0,0.0.0.0,192.168.1.1,-1"=""
"MRU0"="192.168.16.93"
[HKEY_USERS\S-1-5-21-2054485685-3446499333-1556621121-1001\Software\Microsoft\Terminal Server Client\Servers2.168.16.93]
"A"="192.168.1.23"
"B"="192.168.1.28"
"C"="192.168.1.200:5800"
"192.168.254.190::5901/extra"=hex:02,00
"00"="192.168.254.190:5901"
"ImagePrinterPort"="192.168.1.5"

Je suppose que cette voie a une petite chance de faux positifs, mais c'est probablement ce qui est voulu 99,9% du temps. Il fonctionne aussi pour moi sous MINGW64 Git Bash.

InformationsquelleAutor Mike Cush

4

J'avais besoin de faire cela de façon récursive, et voici ce que j'ai trouvé:
```
find -type f | while read l; do iconv -s -f utf-16le -t utf-8 "$l" | nl -s "$l: " | cut -c7- | grep 'somestring'; done
```
C'est absolument horrible et très lent; j'en suis certain, il y a une meilleure façon et j'espère que quelqu'un peut l'améliorer, mais j'étais pressé 😛

Ce que les morceaux ne:
```
find -type f
```
donne récursive liste de noms de fichier avec des chemins relatifs à courant
```
while read l; do ... done
```
Boucle en Bash; pour chaque ligne de la liste des chemins d'accès aux fichiers, mettre le chemin en $l et de faire la chose dans la boucle. (Pourquoi j'ai utilisé une boucle shell au lieu de xargs, ce qui aurait été beaucoup plus rapide: j'ai besoin de préfixer chaque ligne de la sortie avec le nom du fichier en cours. Ne pouvais pas penser à une façon de le faire que si j'étais en train de nourrir plusieurs fichiers à la fois à iconv, et depuis que je vais faire un fichier à la fois, de toute façon, boucle shell est plus facile de syntaxe/s'échapper.)
```
iconv -s -f utf-16le -t utf-8 "$l"
```
Convertir le fichier nommé dans $l: supposons que le fichier d'entrée est de l'utf-16 little-endian et le convertir en utf-8. Le -s fait iconv se taire à propos de la conversion des erreurs (il y en aura beaucoup, parce que certains fichiers de cette structure de répertoire sont pas en utf-16). La sortie de cette conversion va vers stdout.
```
nl -s "$l: " | cut -c7-
```
C'est un hack: nl insère les numéros de ligne, mais il arrive à avoir une "utiliser cette chaîne de caractères arbitraire de séparer le numéro de la ligne" paramètre, donc j'ai mis le nom de fichier (suivi du côlon et de l'espace) dans que. Puis-je utiliser cut d'enlever le numéro de la ligne, en laissant seulement le préfixe de nom de fichier. (Pourquoi je n'ai pas utilisé sed: l'échappement est beaucoup plus facile de cette façon. Si j'ai utilisé une expression sed, j'ai à vous soucier de là l'expression régulière caractères dans les noms de fichiers, ce qui dans mon cas il y avait beaucoup de. nl est beaucoup plus bête que sed, et il suffit de prendre le paramètre -s entièrement littéralement, et le shell gère l'échappement pour moi.)

Donc, d'ici à la fin de ce pipeline, j'ai converti un tas de fichiers dans les lignes de l'utf-8, avec le préfixe du nom de fichier, que j'ai ensuite grep. Si il y a des matchs, je peux dire quel fichier ils sont dans le préfixe.

Mises en garde
- C'est beaucoup, beaucoup plus lent que grep -R, parce que je suis frai une nouvelle copie de iconv, nl, cut, et grep pour chaque fichier. C'est horrible.
- Tout ce qui n'est pas de l'utf-16le d'entrée va sortir comme les déchets complets, donc si il y a une normale fichier ASCII qui contient 'somestring', cette commande ne pas le signaler -- vous avez besoin de faire une activité normale grep -R ainsi que cette commande (et si vous avez plusieurs types de codage unicode, comme certains le big-endian et certaines little-endian fichiers, vous devez régler cette commande et l'exécuter à nouveau pour chaque codage différent).
- Les fichiers dont le nom contient 'somestring" s'affichera dans la sortie, même si leur contenu n'avons pas les matchs.
- Totalement dégoûtant. Et veeeery utile. thx
- J'ai eu à faire find . -type f sur OS X
InformationsquelleAutor Felix
2

ripgrep

Utilisation ripgrep utilitaire à grep UTF-16 fichiers.

ripgrep prend en charge la recherche de fichiers dans encodages de texte autre que UTF-8, UTF-16, latin-1, GBK, EUC-JP, Shift_JIS et plus. (Un certain appui pour détecter automatiquement le format UTF-16 est fourni. D'autres codages de texte spécifique doit être spécifié avec la -E/--encoding flag.)

Exemple de syntaxe:
```
rg sometext file
```
Pour vider toutes les lignes, exécutez: rg -N . file.

InformationsquelleAutor kenorb

Le sed déclaration est plus que je peux envelopper ma tête autour de. J'ai un simpliste, loin-de-parfait script TCL qui, je pense, fait un OK de travail avec mon point de test d'un:

#!/usr/bin/tclsh

set insearch [lindex $argv 0]

set search ""

for {set i 0} {$i<[string length $insearch]-1} {incr i} {
    set search "${search}[string range $insearch $i $i]."
}
set search "${search}[string range $insearch $i $i]"

for {set i 1} {$i<$argc} {incr i} {
    set file [lindex $argv $i]
    set status 0
    if {! [catch {exec grep -a $search $file} results options]} {
        puts "$file: $results"
    }
}

InformationsquelleAutor user1117791

0

J'ai ajouté ceci dans un commentaire de l'accepté la réponse ci-dessus, mais pour le rendre plus facile à lire. Cette option vous permet de rechercher du texte dans un tas de fichiers tout en affichant les noms de fichiers qu'il est de trouver le texte. Tous ces fichiers ont une .reg extension depuis que je suis à la recherche par le biais de exportés fichiers de Registre Windows. Il suffit de les remplacer .reg avec toute l'extension de fichier.
```
//Define grepreg in bash by pasting at bash command prompt
grepreg ()
{
    find -name '*.reg' -exec echo {} \; -exec iconv -f utf-16 -t utf-8 {} \; | grep "$1\|\.reg"
}

//Sample usage
grepreg SampleTextToSearch
```
InformationsquelleAutor Andrew Stern
0

Vous pouvez utiliser les éléments suivants Ruby one-liner:
```
ruby -e "puts File.open('file.txt', mode:'rb:BOM|UTF-16LE').readlines.grep(Regexp.new 'PATTERN'.encode(Encoding::UTF_16LE))"
```
Pour des raisons de simplicité, il peut être défini comme la fonction shell comme:
```
grep-utf16() { ruby -e "puts File.open('$2', mode:'rb:BOM|UTF-16LE').readlines.grep(Regexp.new '$1'.encode(Encoding::UTF_16LE))"; }
```
Alors il être utilisé de la même façon que grep:
```
grep-utf16 PATTERN file.txt
```
Source: Comment utiliser Ruby readlines.grep pour l'UTF-16 fichiers?

InformationsquelleAutor kenorb

Vous devez vous connecter pour publier un commentaire.

ripgrep

`ripgrep`