Octets d'une chaîne de caractères en Java

En Java, si j'ai une Chaîne x, comment puis-je calculer le nombre d'octets dans cette chaîne?

On pourrait vouloir utiliser une Chaîne de caractères pour représenter le corps de la réponse HTTP et utiliser la taille pour définir le "Content-length" (Longueur d'en-tête, qui est spécifiée en octets/bytes pas de caractères. w3.org/Protocols/rfc2616/rfc2616-sec14.html#sec14.13
Une colonne de base de données peut avoir de limitation de la longueur, en octets, par exemple VARCHAR2 (4000 OCTETS) dans Oracle. On peut avoir envie de connaître le nombre d'octets d'une Chaîne de caractères en encodage souhaité savoir si la Chaîne de caractères adaptée.
Exactement le même que j'essayais de faire.
Je crois qu'il y a deux interprétations possibles de cette question, en fonction de l'intention: l'Un est "combien de mémoire mon String utiliser?". La réponse à cette question est fournie par @roozbeh ci-dessous (peut-être modulo VM subtilités comme compressé OUPS). L'autre est, "si je convertir la chaîne de caractères à un octet[] combien de mémoire que le tableau d'octets à utiliser?". C'est la question à laquelle il est répondu par Andrzej Doyle. La différence peut être importante: "Hello World" en UTF8 est de 11 octets, mais la Chaîne (par @roozbeh) est de 50 octets (si mon calcul est à droite).
J'aurais ajouté que le 11 octets ne comprennent pas les frais généraux de l'byte[] de l'objet qui les contient, de sorte que la comparaison est quelque peu trompeur.

InformationsquelleAutor Green | 2010-12-08

java string

259

Une chaîne est une liste de caractères (c'est à dire les points de code). Le nombre d'octets nécessaires pour représenter la chaîne dépend entièrement de l'encodage que vous utilisez pour le transformer en octets.

Cela dit, vous pouvez transformer la chaîne en un tableau d'octets, puis regarde sa taille comme suit:
```
//The input string for this test
final String string = "Hello World";

//Check length, in characters
System.out.println(string.length()); //prints "11"

//Check encoded sizes
final byte[] utf8Bytes = string.getBytes("UTF-8");
System.out.println(utf8Bytes.length); //prints "11"

final byte[] utf16Bytes= string.getBytes("UTF-16");
System.out.println(utf16Bytes.length); //prints "24"

final byte[] utf32Bytes = string.getBytes("UTF-32");
System.out.println(utf32Bytes.length); //prints "44"

final byte[] isoBytes = string.getBytes("ISO-8859-1");
System.out.println(isoBytes.length); //prints "11"

final byte[] winBytes = string.getBytes("CP1252");
System.out.println(winBytes.length); //prints "11"
```
Donc, vous voyez, même un simple "ASCII" chaîne peut avoir un nombre différent d'octets dans sa représentation, en fonction de quel encodage est utilisé. Utiliser n'importe quel jeu de caractères qui vous intéresse pour votre cas, en tant qu'argument à getBytes(). Et ne pas tomber dans le piège de supposer que l'UTF-8 représente chaque personnage comme un seul octet, comme ce n'est pas vrai non plus:
```
final String interesting = "\uF93D\uF936\uF949\uF942"; //Chinese ideograms

//Check length, in characters
System.out.println(interesting.length()); //prints "4"

//Check encoded sizes
final byte[] utf8Bytes = interesting.getBytes("UTF-8");
System.out.println(utf8Bytes.length); //prints "12"

final byte[] utf16Bytes= interesting.getBytes("UTF-16");
System.out.println(utf16Bytes.length); //prints "10"

final byte[] utf32Bytes = interesting.getBytes("UTF-32");
System.out.println(utf32Bytes.length); //prints "16"

final byte[] isoBytes = interesting.getBytes("ISO-8859-1");
System.out.println(isoBytes.length); //prints "4" (probably encoded "????")

final byte[] winBytes = interesting.getBytes("CP1252");
System.out.println(winBytes.length); //prints "4" (probably encoded "????")
```
(Notez que si vous ne fournissez pas un jeu de caractères de l'argument, la plate-forme jeu de caractères par défaut est utilisé. Cela peut être utile dans certains contextes, mais en général, vous devriez éviter en fonction des paramètres par défaut, et toujours utiliser explicitement un jeu de caractères lors de l'encodage/décodage est nécessaire.)
- donc encore une fois si j'utilise getBytes().il me donnera la même longueur que x.la longueur je suis mal parce que je ne suis pas sûr
- Des cendres de La longueur du tableau d'octets -- getBytes() -- et x.la longueur PEUT être égal, mais n'est pas garanti pour autant. Il sera égal si tous les caractères sont représentés par un seul octet chacun. Ce sera toujours vrai pour les codages de caractères utiliser un seul octet par caractère (ou moins), comme ISO-8859-1. UTF-8 utilise 1 ou 2 octets, donc, cela dépend de l'exacte des caractères dans la chaîne. Ensuite, il y a des codages de caractères, utilisez toujours deux octets par caractère.
- j'aime votre réponse 🙂 , de sorte qu'ils pourraient en quelque sorte être le même, mais pas toujours, ai-je le droit? o.k. alors est-il possible d'utiliser la méthode sans paramètre, car elle souffrir pour moi une erreur!!
- le point est que le nombre de octets n'est pas toujours le même que le nombre de caractères. Le nombre de octets dépend de l'encodage des caractères utilisé. Vous devez savoir encodage de caractères que vous allez utiliser et d'en tenir compte. Quelle erreur avez-vous? Si vous venez d'utiliser getBytes(), il va utiliser le codage de caractères par défaut de votre système.
- en fait, UTF-8 utilise 1, 2 ou 3 octets par des points de code.
- J'ai mis à jour cette réponse à montrer certains codé toutes les tailles de "ASCII" des personnages, et plus plan de caractères. Et notez que, dans ce dernier exemple, l'UTF-8 n'est, en effet, utiliser 3 octets par caractère. @Vert, comme je l'ai indiqué à la fin vous doit rarement (voire jamais) omettre le jeu de caractères, parce que votre réponse n'est pas très utile, tu ne connais pas le jeu de caractères que vous avez la taille.
- vous avez fait un puissant explication . merci
- Peut-on dire qu'une Chaîne de caractères de type char toujours prendre 4 octets en mémoire pour Java, depuis une Chaîne de caractères char est un point de code?
- Un char est pas un point de code. Un char est de 16 bits (en gros, c'est un unsigned short), il prend toujours 2 octets en mémoire. Un int est nécessaire pour représenter un 4-byte-code, qui est pourquoi les méthodes de comme Chaîne de caractères.codePointAt() de retour int et pas char.
- Je vois. Je suppose que nous pouvons dire: "Une Chaîne de caractères char est toujours 2 octets parce que Java utilise l'UTF-16 pour la représentation des caractères dans la mémoire." - Il Correct?
- Oui, plus ou moins. Vous pourriez vous dire à propos de l'ordre de la cause et de l'effet, cependant. Je serais plus enclin à dire qu'un char est toujours 2 octets parce que c'est un type de données primitif défini à 2 octets. (Et que la représentation UTF-16 est principalement une conséquence de cette situation, plutôt que l'inverse.)
- Merci beaucoup pour l'information.
InformationsquelleAutor Andrzej Doyle
52

Si vous êtes en cours d'exécution avec la version 64 bits références:
```
sizeof(string) = 
8 + //object header used by the VM
8 + //64-bit reference to char array (value)
8 + string.length() * 2 + //character array itself (object header + 16-bit chars)
4 + //offset integer
4 + //count integer
4 + //cached hash code
```
En d'autres termes:
```
sizeof(string) = 36 + string.length() * 2
```
Sur un 32 bits VM ou 64 bits VM comprimé Oups (-XX:+UseCompressedOops), les références sont de 4 octets. De sorte que le total serait de:
```
sizeof(string) = 32 + string.length() * 2
```
Ceci ne prend pas en compte les références à l'objet de type string.
- +1 Pas sûr si c'est ce qui était demandé, mais elle pourrait l'être.
- J'ai été en supposant que la question portait sur le nombre d'octets alloués en mémoire pour un objet de type String. Si la question est sur le nombre d'octets requis pour sérialiser la Chaîne, comme d'autres l'ont souligné, il dépend de l'encodage utilisé.
- Source pour ur réponse ? Merci
- Remarque: sizeof doit être un multiple de 8.
InformationsquelleAutor roozbeh
18

Le pédant réponse (mais pas nécessairement la plus utile, en fonction de ce que vous voulez faire avec le résultat) est:
```
string.length() * 2
```
Java, les chaînes de caractères sont stockées physiquement dans UTF-16BE codage, qui utilise 2 octets par unité de code, et String.length() mesures de la longueur de code UTF-16 unités, donc c'est équivalent à:
```
final byte[] utf16Bytes= string.getBytes("UTF-16BE");
System.out.println(utf16Bytes.length);
```
Et cela vous indiquera la taille de l'intérieur de l' char tableau, dans octets.

Remarque: "UTF-16" donnera un résultat différent de "UTF-16BE" que l'ancien de l'encodage insérer un BOM, l'ajout de 2 octets pour la longueur du tableau.
- Je pense que cela devrait être la accepté de répondre.
- Roozbeh la réponse est mieux, parce qu'il prend les autres octets en compte.
- Êtes-vous sûr que l'encodage est UTF-16BE et pas en UTF-16? En fonction de la classe String Javadoc (docs.oracle.com/javase/6/docs/api/java/lang/String.html), "Une Chaîne de caractères représente une chaîne de caractères dans le format UTF-16...".
InformationsquelleAutor finnw
15

Selon Comment faire pour convertir des Chaînes et de l'UTF8 tableaux d'octets en Java:
```
String s = "some text here";
byte[] b = s.getBytes("UTF-8");
System.out.println(b.length);
```
- mais excusez-moi, lorsque je compile ton code, il me donne une erreur ; car le paramètre "UTF-8".où, quand je passe un paramètre vide, il me donne la même longueur que x.longueur . j'ai mal compris le concept. aide s'il vous plaît
- Ash, quelle est la version de Java que vous avez?
- version 4.00.028
- De cendres, ce que l'exception en êtes-vous?
- pour être clair, c'est la sortie: de test.java:11: non déclarée exception java.io.UnsupportedEncodingException; doivent être pris ou d'déclaré être jeté byte[] b = s.getBytes("UTF-8"); ^ 1 error le Processus est achevé.
- essayez: s.getBytes(Charset.forName("UTF-8")).
InformationsquelleAutor Boris Pavlović
9

Un String instance alloue une certaine quantité d'octets en mémoire. Peut-être que vous êtes à la recherche de quelque chose comme sizeof("Hello World") qui renvoie le nombre d'octets alloués par le discbased lui-même?

En Java, il n'y a généralement pas besoin d'un sizeof fonction, parce que nous n'avons jamais allouer de la mémoire pour stocker une structure de données. Nous pouvons avoir un regard sur le String.java fichier pour une estimation approximative, et nous voyons des "int", des références et une char[]. Le Java langage de spécification définit, que char varie de 0 à 65535, de sorte que deux octets sont suffisantes pour garder un seul caractère dans la mémoire. Mais une JVM ne pas avoir à stocker un char dans les 2 octets, il n'y a plus de garantir que la mise en œuvre de char peuvent contenir des valeurs de l'définit gamme.

Donc sizeof n'a pas vraiment de sens en Java. Mais, à supposer que nous avons une grande Chaîne et un char alloue deux octets, l'empreinte mémoire d'un String objet est d'au moins 2 * str.length() en octets.

InformationsquelleAutor Andreas_D
5

Il y a une méthode appelée getBytes(). Utiliser à bon escient .
- Sagement = ne pas utiliser l'un sans un jeu de caractères en paramètre.
- Pourquoi? Est-ce un problème si je configurer mon environnement pour exécuter avec l'encodage UTF8?
- getBytes permettra également de créer et copier le tableau d'octets, de sorte que si vous parlez de longues chaînes, cette opération peut se révéler onéreuse.
InformationsquelleAutor Andrei Ciobanu
3

Essayez ceci :
```
Bytes.toBytes(x).length
```
En supposant que vous avez déclaré et initialisé x avant
- Cette partie de la Java standard de la bibliothèque? Je ne peux pas trouver le Bytes classe.
InformationsquelleAutor ant

Vous devez vous connecter pour publier un commentaire.