Filtre (recherche et remplacement) tableau d'octets dans un InputStream

J'ai un InputStream qui prend le fichier html comme paramètre d'entrée. Je dois obtenir les octets du flux d'entrée .

J'ai une chaîne de caractères: "XYZ". Je voudrais convertir cette chaîne d'octet de format et de vérifier si il y a un match pour la chaîne dans la séquence d'octets que j'ai obtenue à partir de l'InputStream. Si il y a ensuite, je dois remplacer le match avec l'au revoir la séquence pour une autre chaîne.

Est-il quelqu'un qui pourrait m'aider? J'ai utilisé les regex pour rechercher et remplacer. cependant la recherche et le remplacement de flux d'octets, je ne suis pas au courant de.

Précédemment, j'utilise jsoup pour analyser le code html et remplacer la chaîne, mais en raison de quelques problèmes d'encodage utf, le fichier apparaît endommagé lorsque je le fais.

TL;DR: Ma question est:

Est un moyen de rechercher et remplacer une chaîne de caractères en nombre d'octets format raw d'un InputStream en Java?

Et pourquoi avez-vous lu le fichier comme un flux d'octets? si vous l'avez lu comme une Chaîne de caractères (par exemple, avec un StringReader) vous pouvez résoudre votre problème et d'oublier à propos de l'encodage
Pourquoi convertir les chaînes de tableaux d'octets et de les comparer entre eux, au lieu de comparer les chaînes d'origine?
Fondamentalement, ce que vous avez besoin est tutorials.jenkov.com/java-howto/... .

OriginalL'auteur | 2011-10-12

Pas sûr que vous avez choisi la meilleure approche pour résoudre votre problème.

Cela dit, je n'aime pas (et n'ont comme politique de ne pas) répondre à des questions avec "ne" alors voilà...

Ont un coup d'oeil à FilterInputStream.

À partir de la documentation:

Un FilterInputStream contient d'autres flux d'entrée, qui elle utilise comme source de base de données, éventuellement transformer les données le long de la voie ou de fournir des fonctionnalités supplémentaires.

C'était un exercice amusant à écrire. Voici un exemple complet pour vous:

import java.io.*;
import java.util.*;
class ReplacingInputStream extends FilterInputStream {
LinkedList<Integer> inQueue = new LinkedList<Integer>();
LinkedList<Integer> outQueue = new LinkedList<Integer>();
final byte[] search, replacement;
protected ReplacingInputStream(InputStream in,
byte[] search,
byte[] replacement) {
super(in);
this.search = search;
this.replacement = replacement;
}
private boolean isMatchFound() {
Iterator<Integer> inIter = inQueue.iterator();
for (int i = 0; i < search.length; i++)
if (!inIter.hasNext() || search[i] != inIter.next())
return false;
return true;
}
private void readAhead() throws IOException {
//Work up some look-ahead.
while (inQueue.size() < search.length) {
int next = super.read();
inQueue.offer(next);
if (next == -1)
break;
}
}
@Override
public int read() throws IOException {    
//Next byte already determined.
if (outQueue.isEmpty()) {
readAhead();
if (isMatchFound()) {
for (int i = 0; i < search.length; i++)
inQueue.remove();
for (byte b : replacement)
outQueue.offer((int) b);
} else
outQueue.add(inQueue.remove());
}
return outQueue.remove();
}
//TODO: Override the other read methods.
}

Exemple D'Utilisation

class Test {
public static void main(String[] args) throws Exception {
byte[] bytes = "hello xyz world.".getBytes("UTF-8");
ByteArrayInputStream bis = new ByteArrayInputStream(bytes);
byte[] search = "xyz".getBytes("UTF-8");
byte[] replacement = "abc".getBytes("UTF-8");
InputStream ris = new ReplacingInputStream(bis, search, replacement);
ByteArrayOutputStream bos = new ByteArrayOutputStream();
int b;
while (-1 != (b = ris.read()))
bos.write(b);
System.out.println(new String(bos.toByteArray()));
}
}

Donné les octets de la chaîne "Hello xyz world" il imprime:

Hello abc world

+1 pour le nettoyage, dans une file d'attente de la mise en œuvre, mais selon l'application, il pourrait importe que cette approche simple est lent: O(MN)*, où M est la longueur du motif et N est la longueur du fichier. Aussi, selon ce que vous recherchez, en ignorant la structure HTML peut vous causer des ennuis.
bon point, et je suis complètement d'accord avec vous. Je viens de faire la partie que je pensais être le fun 🙂 ne pas même de mettre en œuvre toutes les méthodes de lecture..
Merci beaucoup pour vos conseils.
Pas de problème. Vous êtes les bienvenus.
Essayez de trouver des new byte[] { (byte) 0xFF, (byte) 0x00} vous serez surpris Vous devez utilisateur byte_value & 0xFF valeurs octet->entier plutôt simple d'écrire byte_value Par exemple outQueue.offre((int) b); doit être outQueue.offre((int) (b&0xFF));

OriginalL'auteur aioobe

J'ai besoin de quelque chose comme ceci aussi bien et a décidé de mettre mon propre solution au lieu de l'aide de l'exemple ci-dessus par @aioobe. Jetez un oeil à la code. Vous pouvez le retirer de la bibliothèque de maven central, ou tout simplement copier le code source.

C'est la façon dont vous l'utiliser. Dans ce cas, je suis en utilisant une étude de l'instance, afin de remplacer deux modèles deux fix dos et mac les fins de ligne.

new ReplacingInputStream(new ReplacingInputStream(is, "\n\r", "\n"), "\r", "\n");

Voici le code source complet:

/**
* Simple FilterInputStream that can replace occurrances of bytes with something else.
*/
public class ReplacingInputStream extends FilterInputStream {
//while matching, this is where the bytes go.
int[] buf=null;
int matchedIndex=0;
int unbufferIndex=0;
int replacedIndex=0;
private final byte[] pattern;
private final byte[] replacement;
private State state=State.NOT_MATCHED;
//simple state machine for keeping track of what we are doing
private enum State {
NOT_MATCHED,
MATCHING,
REPLACING,
UNBUFFER
}
/**
* @param is input
* @return nested replacing stream that replaces \n\r (DOS) and \r (MAC) line endings with UNIX ones "\n".
*/
public static InputStream newLineNormalizingInputStream(InputStream is) {
return new ReplacingInputStream(new ReplacingInputStream(is, "\n\r", "\n"), "\r", "\n");
}
/**
* Replace occurances of pattern in the input. Note: input is assumed to be UTF-8 encoded. If not the case use byte[] based pattern and replacement.
* @param in input
* @param pattern pattern to replace.
* @param replacement the replacement or null
*/
public ReplacingInputStream(InputStream in, String pattern, String replacement) {
this(in,pattern.getBytes(StandardCharsets.UTF_8), replacement==null ? null : replacement.getBytes(StandardCharsets.UTF_8));
}
/**
* Replace occurances of pattern in the input.
* @param in input
* @param pattern pattern to replace
* @param replacement the replacement or null
*/
public ReplacingInputStream(InputStream in, byte[] pattern, byte[] replacement) {
super(in);
Validate.notNull(pattern);
Validate.isTrue(pattern.length>0, "pattern length should be > 0", pattern.length);
this.pattern = pattern;
this.replacement = replacement;
//we will never match more than the pattern length
buf = new int[pattern.length];
}
@Override
public int read(byte[] b, int off, int len) throws IOException {
//copy of parent logic; we need to call our own read() instead of super.read(), which delegates instead of calling our read
if (b == null) {
throw new NullPointerException();
} else if (off < 0 || len < 0 || len > b.length - off) {
throw new IndexOutOfBoundsException();
} else if (len == 0) {
return 0;
}
int c = read();
if (c == -1) {
return -1;
}
b[off] = (byte)c;
int i = 1;
try {
for (; i < len ; i++) {
c = read();
if (c == -1) {
break;
}
b[off + i] = (byte)c;
}
} catch (IOException ee) {
}
return i;
}
@Override
public int read(byte[] b) throws IOException {
//call our own read
return read(b, 0, b.length);
}
@Override
public int read() throws IOException {
//use a simple state machine to figure out what we are doing
int next;
switch (state) {
case NOT_MATCHED:
//we are not currently matching, replacing, or unbuffering
next=super.read();
if(pattern[0] == next) {
//clear whatever was there
buf=new int[pattern.length]; //clear whatever was there
//make sure we start at 0
matchedIndex=0;
buf[matchedIndex++]=next;
if(pattern.length == 1) {
//edgecase when the pattern length is 1 we go straight to replacing
state=State.REPLACING;
//reset replace counter
replacedIndex=0;
} else {
//pattern of length 1
state=State.MATCHING;
}
//recurse to continue matching
return read();
} else {
return next;
}
case MATCHING:
//the previous bytes matched part of the pattern
next=super.read();
if(pattern[matchedIndex]==next) {
buf[matchedIndex++]=next;
if(matchedIndex==pattern.length) {
//we've found a full match!
if(replacement==null || replacement.length==0) {
//the replacement is empty, go straight to NOT_MATCHED
state=State.NOT_MATCHED;
matchedIndex=0;
} else {
//start replacing
state=State.REPLACING;
replacedIndex=0;
}
}
} else {
//mismatch -> unbuffer
buf[matchedIndex++]=next;
state=State.UNBUFFER;
unbufferIndex=0;
}
return read();
case REPLACING:
//we've fully matched the pattern and are returning bytes from the replacement
next=replacement[replacedIndex++];
if(replacedIndex==replacement.length) {
state=State.NOT_MATCHED;
replacedIndex=0;
}
return next;
case UNBUFFER:
//we partially matched the pattern before encountering a non matching byte
//we need to serve up the buffered bytes before we go back to NOT_MATCHED
next=buf[unbufferIndex++];
if(unbufferIndex==matchedIndex) {
state=State.NOT_MATCHED;
matchedIndex=0;
}
return next;
default:
throw new IllegalStateException("no such state " + state);
}
}
@Override
public String toString() {
return state.name() + " " + matchedIndex + " " + replacedIndex + " " + unbufferIndex;
}
}

vous avez sauvé ma journée, merci!

OriginalL'auteur Jilles van Gurp

4

L'approche suivante va fonctionner, mais je ne sais pas comment le gros de l'impact sur les performances.
1. Envelopper le InputStream avec un InputStreamReader,
2. envelopper le InputStreamReader avec un FilterReader qui remplace les cordes, puis
3. envelopper le FilterReader avec un ReaderInputStream.
Il est essentiel de choisir le codage approprié, sinon le contenu du flux de corruption.

Si vous souhaitez utiliser des expressions régulières pour remplacer les cordes, puis vous pouvez utiliser Streamflyer, un outil de la mienne, qui est une alternative pratique à la FilterReader. Vous trouverez un exemple de flux d'octets sur la page web de Streamflyer. Espérons que cette aide.

Ce doit être la accepté de répondre. Excellent outil.
Pouvez-vous veuillez donner un exemple de code ?

OriginalL'auteur rwitzel
2

Il n'y a pas une fonctionnalité intégrée de recherche et de remplacement sur les flux d'octets (InputStream).

Et, une méthode pour remplir cette tâche efficacement et correctement n'est pas immédiatement évidente. J'ai mis en œuvre la Boyer-Moore algorithme pour les cours d'eau, et il fonctionne bien, mais il a fallu un certain temps. Sans un algorithme de ce genre, vous avez recours à une force brute approche où vous cherchez le modèle de départ à chaque position dans le flux, qui peut être lent.

Même si vous décoder le HTML en texte, à l'aide d'une expression régulière correspondant aux modèles pourraient être une mauvaise idée, depuis le HTML n'est pas un "régulier" de la langue.

Donc, même si vous avez quelques difficultés, je vous propose de poursuivre votre approche originale de l'analyse le code HTML d'un document. Lorsque vous rencontrez des problèmes avec l'encodage des caractères, il sera probablement plus facile, dans le long terme, de fixer la solution qu'il sera de jury-rig la mauvaise solution.

OriginalL'auteur erickson
0

J'ai besoin d'une solution à cela, mais a trouvé les réponses ici encourus trop de mémoire et/ou de la charge du CPU. Ci-dessous la solution de manière significative surpasse les autres ici, en ces termes sur une simple analyse comparative.

Cette solution est particulièrement efficace de la mémoire, qui n'entraînera aucun coût mesurable, même avec >GO ruisseaux.

Cela dit, ce n'est pas un zéro-CPU-coût de la solution. Le CPU/temps de traitement supplémentaire n'est probablement raisonnable pour tous, mais les plus exigeants en ressources sensibles scénarios, mais la surcharge est réel et doit être considéré lors de l'évaluation de la solvabilité de l'employeur de cette solution dans un contexte donné.

Dans mon cas, notre max dans le monde réel la taille du fichier que nous sommes de traitement est d'environ 6MO, où nous voyons un temps de latence supplémentaire d'environ 170 ms avec 44 URL de remplacement. C'est pour un Zuul-fonction reverse-proxy en cours d'exécution sur AWS ECS avec un seul PROCESSEUR action (1024). Pour la plupart des fichiers (moins de 100 KO), le temps de latence supplémentaire est sous-ordre de la milliseconde. En vertu de haute concurrence (et donc de contention du PROCESSEUR), le temps de latence supplémentaire pourrait augmenter, mais nous sommes actuellement en mesure de traiter des centaines de fichiers en même temps sur un seul nœud sans humainement perceptible de la latence de l'impact.

La solution que nous utilisons:
```
import java.io.IOException;
import java.io.InputStream;
public class TokenReplacingStream extends InputStream {
private final InputStream source;
private final byte[] oldBytes;
private final byte[] newBytes;
private int tokenMatchIndex = 0;
private int bytesIndex = 0;
private boolean unwinding;
private int mismatch;
private int numberOfTokensReplaced = 0;
public TokenReplacingStream(InputStream source, byte[] oldBytes, byte[] newBytes) {
assert oldBytes.length > 0;
this.source = source;
this.oldBytes = oldBytes;
this.newBytes = newBytes;
}
@Override
public int read() throws IOException {
if (unwinding) {
if (bytesIndex < tokenMatchIndex) {
return oldBytes[bytesIndex++];
} else {
bytesIndex = 0;
tokenMatchIndex = 0;
unwinding = false;
return mismatch;
}
} else if (tokenMatchIndex == oldBytes.length) {
if (bytesIndex == newBytes.length) {
bytesIndex = 0;
tokenMatchIndex = 0;
numberOfTokensReplaced++;
} else {
return newBytes[bytesIndex++];
}
}
int b = source.read();
if (b == oldBytes[tokenMatchIndex]) {
tokenMatchIndex++;
} else if (tokenMatchIndex > 0) {
mismatch = b;
unwinding = true;
} else {
return b;
}
return read();
}
@Override
public void close() throws IOException {
source.close();
}
public int getNumberOfTokensReplaced() {
return numberOfTokensReplaced;
}
}
```
OriginalL'auteur rees

Vous devez vous connecter pour publier un commentaire.