D'obtenir la taille de la Chaîne w/ encodage en octets sans avoir à les convertir byte[]

J'ai une situation où j'ai besoin de savoir la taille d'un String/encodage paire, en octets, mais ne peut pas utiliser le getBytes() méthode parce que 1) la String est très grand et la duplication de la String dans un byte[] tableau serait d'utiliser une grande quantité de mémoire, mais plus au point 2) getBytes() alloue un byte[] tableau basé sur la longueur de la String * le maximum d'octets par caractère. Donc, si j'ai un String avec 1,5 B de caractères et encodage UTF-16, getBytes() vais essayer d'allouer un tableau 3 go et ne parviennent pas, comme les tableaux sont limités à 2^32 - X octets (X est la version Java spécifique).

Donc - est-il possible de calculer la taille en octets d'un String/encodage paire directement à partir de la String objet?

Mise à JOUR:

Voici un travail de mise en œuvre de jtahlborn réponse:

private class CountingOutputStream extends OutputStream {
    int total;

    @Override
    public void write(int i) {
        throw new RuntimeException("don't use");
    }
    @Override
    public void write(byte[] b) {
        total += b.length;
    }

    @Override public void write(byte[] b, int offset, int len) {
        total += len;
    }
}

La longueur en octets dépend de votre cible de codage. Par exemple, "test".getBytes("UTF-8") est de 4 octets, mais "test".getBytes("UTF-16") est de 10 octets (oui, 10, essayer). Si vous avez besoin de clarifier votre question, un peu.
Je voudrais ajouter qu'il est également la personne à charge sur le point de code ("caractères"), l'encodage. Par exemple, en UTF-16, certains points de code utilise 1 code de l'unité, d'autres utilisations 2 (une unité de code est de 16 bits). UTF-8 peut prendre de 1 à 4 octets par caractère.
Désolé si je suis dense, mais oui, votre commentaire est le point de la question: étant donné une Chaîne et un encodage, combien d'octets ne codant pour la Chaîne? En relisant la question, qui semble assez clair pour moi: avez - vous des suggestions de reformulation?
le commentaire ci-dessus s'applique à votre commentaire ainsi, au meilleur de ma capacité à dire.
getByte ne pas créer un tableau plus grand, alors il doit être. Il crée un tableau de la bonne taille pour la chaîne. Il n'a pas crée un tableau de longueur "longueur de la Chaîne * le maximum d'octets par caractère". Et string.length() ne retourne pas le nombre de caractères dans une chaîne, elle renvoie le nombre d'unités de code. Pour l'UTF-16, un code de l'unité est de 16 bits, et le nombre d'unités de code par caractère est 1 ou 2, cela dépend du caractère. Donc, soit je ne comprends pas votre second point de votre question ou de votre hypothèse n'est pas correcte.

OriginalL'auteur elhefe | 2013-11-08

Simple, il suffit de l'écrire sur un mannequin flux de sortie:

class CountingOutputStream extends OutputStream {
  private int _total;

  @Override public void write(int b) {
    ++_total;
  }

  @Override public void write(byte[] b) {
    _total += b.length;
  }

  @Override public void write(byte[] b, int offset, int len) {
    _total += len;
  }

  public int getTotalSize(){
     _total;
  }
}

CountingOutputStream cos = new CountingOutputStream();
Writer writer = new OutputStreamWriter(cos, "my_encoding");
//writer.write(myString);

//UPDATE: OutputStreamWriter does a simple copy of the _entire_ input string, to avoid that use:
for(int i = 0; i < myString.length(); i+=8096) {
  int end = Math.min(myString.length(), i+8096);
  writer.write(myString, i, end - i);
}

writer.flush();

System.out.println("Total bytes: " + cos.getTotalSize());

ce n'est pas seulement simple, mais probablement aussi vite que les autres "complexe" des réponses.

Le COS de la classe ne compile pas, mais j'ai ajouté un travail de mise en œuvre de la question d'origine.
votre version de la compilation, mais c'est incorrect. vous ne voulez pas utiliser le décalage dans le calcul.
Oups, corrigé. Apparemment, seuls les write(byte[]) méthode a été utilisée par mes tests.
pour int, vous incrémenter une seule fois. Avez-vous supposer qu'un seul chiffre peut être passé à cette méthode? Je pense qu'il devrait être le nombre de chiffres qui doivent être ajoutés à _total. Pouvez-vous préciser
changer _total à un long serait suffisant.

OriginalL'auteur jtahlborn

Ici est apparemment un travail de mise en œuvre:

import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
public class TestUnicode {
private final static int ENCODE_CHUNK = 100;
public static long bytesRequiredToEncode(final String s,
final Charset encoding) {
long count = 0;
for (int i = 0; i < s.length(); ) {
int end = i + ENCODE_CHUNK;
if (end >= s.length()) {
end = s.length();
} else if (Character.isHighSurrogate(s.charAt(end))) {
end++;
}
count += encoding.encode(s.substring(i, end)).remaining() + 1;
i = end;
}
return count;
}
public static void main(String[] args) {
StringBuilder sb = new StringBuilder();
for (int i = 0; i < 100; i++) {
sb.appendCodePoint(11614);
sb.appendCodePoint(1061122);
sb.appendCodePoint(2065);
sb.appendCodePoint(1064124);
}
Charset cs = StandardCharsets.UTF_8;
System.out.println(bytesRequiredToEncode(new String(sb), cs));
System.out.println(new String(sb).getBytes(cs).length);
}
}

La sortie est:

1400
1400

Dans la pratique, je voudrais augmenter ENCODE_CHUNK à 10MChars.

Probablement légèrement moins efficace que le brettw de la réponse, mais plus simple à mettre en œuvre.

Ce n'est pas si mal, considérant que le OutputStreamWriter de l'autre solution sera également effectuer un codage réel de l'opération dans une mémoire tampon, avant de passer à l' CountingOutputStream. Le seul inconvénient est que votre solution alloue de nouvelles ByteBuffer instances. Lorsque vous résoudre que par la mise en œuvre de la norme d'encodage de la boucle, vous avez de la manière la plus rapide possible (générique) solution. Voir cette réponse pour un bon marché de calcul spécifiquement pour l'UTF-8.

OriginalL'auteur elhefe

Le même à l'aide de apache commons bibliothèques:

public static long stringLength(String string, Charset charset) {
try (NullOutputStream nul = new NullOutputStream();
CountingOutputStream count = new CountingOutputStream(nul)) {
IOUtils.write(string, count, charset.name());
count.flush();
return count.getCount();
} catch (IOException e) {
throw new IllegalStateException("Unexpected I/O.", e);
}
}

OriginalL'auteur 30thh

-2

Ok, c'est très brut. Je l'avoue, mais ce genre de choses est caché par la JVM, nous avons donc de creuser un peu. Et transpirer un peu.

Tout d'abord, nous voulons que le réel char[] que le dos d'une Chaîne sans en faire une copie. Pour ce faire, nous devons utiliser la réflexion pour obtenir le champ "valeur":
```
char[] chars = null;
for (Field field : String.class.getDeclaredFields()) {
if ("value".equals(field.getName())) {
field.setAccessible(true);
chars = (char[]) field.get(string); //<--- got it!
break;
}
}
```
Ensuite, vous devez mettre en œuvre une sous-classe de java.nio.ByteBuffer. Quelque chose comme:
```
class MyByteBuffer extends ByteBuffer {
int length;            
//Your implementation here
};
```
Ignorer tous les getters, de mettre en œuvre tous les mettre méthodes comme put(byte) et putChar(char) etc. À l'intérieur de quelque chose comme put(byte), incrémenter longueur par 1, à l'intérieur de put(byte[]) incrément longueur par la longueur du tableau. Pour l'obtenir? Tout ce qui est à faire, vous ajoutez de la taille de ce qu'il est à longueur. Mais vous n'êtes pas tout stocker dans votre ByteBuffer, vous êtes juste de comptage et de jeter, donc aucun espace n'est prise. Si vous point d'arrêt de la put méthodes, vous pouvez probablement trouver lesquels vous avez réellement besoin de mettre en œuvre. putFloat(float) est probablement pas utilisé, par exemple.

Maintenant pour la grande finale, mettant tous ensemble:
```
MyByteBuffer bbuf = new MyByteBuffer();         //your "counting" buffer
CharBuffer cbuf = CharBuffer.wrap(chars);       //wrap your char array
Charset charset = Charset.forName("UTF-8");     //your charset goes here
CharsetEncoder encoder = charset.newEncoder();  //make a new encoder
encoder.encode(cbuf, bbuf, true);               //do it!
System.out.printf("Length: %d\n", bbuf.length); //pay me US$1,000,000
```
Vous pouvez éviter le vilain reflet des choses, en appelant simplement les CharBuffer.wrap(CharSequence) avec la String lui-même. utiliser le char[] de la String sans copier (au moins dans Oracle JDK 7 Update 21).
Oh joli! Je ne le savais pas.
@JoachimSauer dit il y a longtemps, il n'est pas nécessaire pour cette Réflexion hack, donc pourquoi est-ce répondre à commencer toujours avec elle? Départ avec Java 9, on va à l'échec comme le tableau interne n'est pas un char[] (laissant de côté l'alternative JRE implémentations où il n'ont même plus tôt). En outre, il est étrange de boucle sur getDeclaredFields() au lieu de simplement appeler getDeclaredField("value"), mais de toute façon. L'idée principale de votre réponse, la création d'une sous-classe de ByteBuffer dans la demande, c'est impossible.

OriginalL'auteur brettw

Vous devez vous connecter pour publier un commentaire.