Encoder Chaîne de caractères UTF-8

J'ai une Corde avec un " - " le personnage et j'ai quelques problèmes avec elle. J'ai besoin de coder cette Chaîne pour l'encodage UTF-8. J'ai essayé de cette manière, mais ça ne fonctionne pas:

byte ptext[] = myString.getBytes();
String value = new String(ptext, "UTF-8");

Comment puis-je encoder la chaîne utf-8?

Il est difficile de savoir exactement ce que vous essayez de faire. Ne myString correctement contenir le ñ caractère et vous avez des problèmes en la convertissant en un tableau d'octets (dans ce cas voir les réponses de Pierre et Amir), ou est myString endommagé et que vous essayez de résoudre (dans ce cas, voir les réponses de Joachim et moi)?
J'ai besoin d'envoyer myString à un serveur avec l'encodage utf-8 et j'ai besoin de convertir les " - " le caractère de l'encodage utf-8.
Ainsi, si le serveur s'attend à ce UTF-8, puis ce que vous devez l'envoyer sont octets, pas une Chaîne de caractères. De sorte que par la réponse de Pierre, spécifier l'encodage dans la première ligne et de la chute de la deuxième ligne.
Je suis d'accord qu'il n'est pas clair quelle est la véritable intention est ici. Il semble y avoir beaucoup de questions où les gens essaient de conversions explicites entre les Cordes et les octets plutôt que de laisser le {In,Out}putStream{Read,Writ}ers le faire pour eux. Je me demande pourquoi?
ma conjecture est que ces questions sont posées par des personnes dont les expériences antérieures avec des langages comme C ou en PHP si une chaîne est essentiellement la même chose que d'un tableau d'octets et que vous avez à suivre son encodage séparément (et la conversion d'une chaîne à partir d'un encodage à un autre a un sens).
Merci, je suppose que ça a du sens. Mais elle rend aussi plus difficile qu'il doit être, n'est-ce pas? Je ne suis pas très friand des langues de travail de cette façon, et donc, essayez d'éviter de travailler avec eux. Je pense que Java est le modèle de Chaînes de caractères au lieu d'octets rend les choses beaucoup plus facile. Perl et Python aussi partager le “tout est des chaînes Unicode” modèle. Oui, dans tous les trois, vous pouvez toujours obtenir à octets si vous travaillez à lui, mais dans la pratique, il semble rare que vous avez vraiment besoin d': c'est assez bas niveau. De Plus il se sent un peu comme se brosser les dents d'un chat dans la mauvaise direction, si vous savez ce que je veux dire. 🙂
Je suis complètement d'accord qu'une forte chaîne de l'abstraction est une très bonne chose. Mais C est à partir d'un temps long avant Unicode existé, quand il n'y a pas de codage unique qui pourrait représenter tous les caractères, et quand toute sorte d'abstraction plus pure octets aurait été intolérable de la performance. Les programmeurs Java sont de la chance qu'il a adapté Unicode relativement bien depuis le début. Perl et Python sont plus âgés et avaient support de l'Unicode rénovés, ce qui le rend beaucoup moins propre (explicite str/unicode dualité en Python, méchant implicite UTF-8 drapeau en Perl.
Le Python de la dualité est assez gênant; je suis toujours oublier /u en Python, même problème avec PHP. Avec Perl 5.14, maintenant dans RC1 test, vous pouvez enfin get toutes les chaînes Unicode. Perl regexes sont encore beaucoup plus d'Unicode de l'environnement que de Java, mais j'ai travaillé avec le JDK7 les gens à résoudre qu'.
double possible de Comment faire pour convertir des Chaînes et de l'UTF8 tableaux d'octets en Java

InformationsquelleAutor Alex | 2011-04-20

java utf-8

128

String objets en Java utiliser le codage UTF-16 qui ne peuvent pas être modifiés.

La seule chose qui peut avoir un codage différent est un byte[]. Donc, si vous avez besoin des données UTF-8, alors vous avez besoin d'un byte[]. Si vous avez un String qui contient des données inattendues, alors le problème est parfois plus tôt place que mal converties des données binaires à un String (c'est à dire qu'il était mauvais encodage).
- Techniquement parlant, byte[] n'ont pas de n'importe quel encodage. Tableau d'octets en PLUS de l'encodage peut vous donner de la chaîne de si.
- vrai. Mais la fixation d'un encodage à elle n'a de sens que pour byte[], il ne fait pas de sens pour String (sauf si l'encodage est UTF-16, dans lequel cas il fait sens, mais il reste encore des informations inutiles).
- String objects in Java use the UTF-16 encoding that can't be modified. Avez-vous une source officielle de cette citation?
InformationsquelleAutor Joachim Sauer
162

Comment sur l'utilisation de
```
ByteBuffer byteBuffer = StandardCharsets.UTF_8.encode(myString)
```
- Voir ma discussion avec Peter. Mais si son hypothèse au sujet de la question est de droite, votre solution ne serait toujours pas idée puisqu'elle renvoie un ByteBuffer.
- Mais comment puis-je obtenir une Chaîne codée? elle retourne un ByteBuffer
- c'est impossible pour avoir une codé en UTF-8 Java Chaîne. Vous souhaitez octets, donc soit utiliser le ByteBuffer directement (peut-être même la meilleure solution si votre but est de l'envoyer via un réseau de collecte) ou appelez array() sur celui-ci pour obtenir un byte[]
- Bon, bref et au point... bien sûr, il a besoin de quelques étapes supplémentaires: new String(java.nio.jeu de caractères.Jeu de caractères.forName("UTF-8").coder(myString).array())
- Autre chose qui peut être utile est d'utiliser la Goyave de jeux de Caractères.UTF_8 enum au lieu d'une Chaîne de caractères qui peut lancer une UnsupportedEncodingException. Chaîne -> octets: myString.getBytes(Charsets.UTF_8), et d'octets -> String: new String(myByteArray, Charsets.UTF_8).
- Mieux encore, utiliser la StandardCharsets.UTF_8. Disponible en Java 1.7+.
InformationsquelleAutor Amir Rachum
69

Utilisation byte[] ptext = String.getBytes("UTF-8"); au lieu de getBytes(). getBytes() utilise des soi-disant "encodage par défaut", qui peuvent ne pas être en UTF-8.
- il est clairement la difficulté à obtenir les octets de la chaîne. Comment est getBytes(codage), à côté de l'essentiel? Je pense que la deuxième ligne est là juste pour vérifier s'il peut convertir retour.
- - Je l'interpréter comme ayant une Chaîne brisée et d'essayer de "réparer" par la conversion d'octets et à l'arrière (à tort). Il n'y a aucune indication que la deuxième ligne est juste en vérifiant le résultat.
- non il n'y en a pas, c'est juste mon interprétation. Le vôtre est tout simplement différent.
- vous avez raison, nous aurions besoin de précisions de la part d'Alex ce qu'il signifie vraiment. Ne peut pas résilier le downvote à moins que la réponse est édité...
- Regarde comme nous étions tous les deux la moitié de mal et demi...
InformationsquelleAutor Peter Štibraný
68

Dans Java7 vous pouvez utiliser:
```
import static java.nio.charset.StandardCharsets.*;

byte[] ptext = myString.getBytes(ISO_8859_1); 
String value = new String(ptext, UTF_8); 
```
Cela a l'avantage sur getBytes(String) qu'il ne déclare pas throws UnsupportedEncodingException.

Si vous utilisez une ancienne version de Java, vous pouvez déclarer le jeu de caractères constantes de vous-même:
```
import java.nio.charset.Charset;

public class StandardCharsets {
    public static final Charset ISO_8859_1 = Charset.forName("ISO-8859-1");
    public static final Charset UTF_8 = Charset.forName("UTF-8");
    //....
}
```
- C'est la bonne réponse. Si quelqu'un veut utiliser un type de données chaîne, il peut l'utiliser dans le bon format. Reste de l'réponses pointent à l'octet formaté type.
- Cela fonctionne pour la version 6 de Java aussi
- Fonctionne en 6. Merci.
- Bonne réponse pour moi aussi. Une chose cependant, lorsque je l'ai utilisé comme ci-dessus, caractère allemand changé ?. Donc, j'ai utilisé ceci: byte[] ptext = myString.getBytes(UTF_8); String valeur = new String(ptext, UTF_8); Cela a bien fonctionné.
- C'est génial . il a travaillé pour moi.
InformationsquelleAutor rzymek
31

Java Chaîne est en interne toujours encodé en UTF-16, mais vous devriez vraiment penser comme ça: un codage est un moyen de traduire entre les Cordes et les octets.

Donc si vous avez un problème d'encodage, par le temps que vous avez Chaîne, il est trop tard pour corriger. Vous avez besoin de fixer l'endroit où vous créez une Chaîne à partir d'un fichier, DB ou d'une connexion réseau.
- C'est une erreur commune de croire que les chaînes sont en interne codé en UTF-16. Habituellement, ils sont, mais si, c'est seulement une mise en œuvre spécifique de détail de la classe String. Depuis le stockage interne des données de caractère n'est pas accessible via l'API publique, une Chaîne spécifique à la mise en œuvre peut décider d'utiliser un autre codage.
- L'API est dit explicitement "Une Chaîne de caractères représente une chaîne de caractères dans le format UTF-16". En utilisant autre chose que format interne serait très inefficace, et toutes les implémentations réelles je sais faire utiliser l'UTF-16 en interne. Donc, sauf si vous pouvez citer un qui ne l'est pas, vous vous engagez dans assez absurde donner matière à tergiverser.
- Est-il absurde de distinguer entre l'accès du public et la représentation interne des structures de données?
- alors pouvez-vous donner un exemple pour une machine qui n'a pas en interne représenter des Chaînes UTF-16?
- La JVM (dans la mesure où elle est pertinente pour la VM à tous) utilise UTF-8 pour le codage de la chaîne, par exemple dans les fichiers de classe. La mise en œuvre de java.lang.La chaîne est découplée de la JVM et je pourrais facilement mettre en œuvre la classe à l'aide d'un autre codage pour la représentation interne si c'est vraiment nécessaire pour vous rendre compte que votre réponse est incorrecte. L'utilisation de l'UTF-16 comme le format interne est dans la plupart des cas extrêmement inefficace, aussi bien quand il s'agit de la consommation de mémoire et je ne vois pas pourquoi, par exemple implémentations Java pour l'embarqué matériel ne serait pas optimiser pour mémoire au lieu de la performance.
- Et une fois de plus: tant que l'on ne peut pas donner un exemple concret d'une JVM dont la norme API de mise en œuvre de t en interne, utiliser quelque chose d'autre que UTF-16 pour mettre en œuvre les Cordes, mon affirmation est correcte. Et non, la classe String n'est pas vraiment découplée de la JVM, à cause de choses comme stagiaire() et la constante de la piscine.
InformationsquelleAutor Michael Borgwardt
23

Vous pouvez essayer de cette façon.
```
byte ptext[] = myString.getBytes("ISO-8859-1"); 
String value = new String(ptext, "UTF-8"); 
```
- J'étais fou de joie. Merci à vous pour obtenir les octets "ISO-8859-1" première était la solution.
InformationsquelleAutor user716840

String value = new String(myString.getBytes("UTF-8"));

et, si vous voulez lire depuis un fichier texte avec "ISO-8859-1" codé:

String line;
String f = "C:\\MyPath\\MyFile.txt";
try {
    BufferedReader br = Files.newBufferedReader(Paths.get(f), Charset.forName("ISO-8859-1"));
    while ((line = br.readLine()) != null) {
        System.out.println(new String(line.getBytes("UTF-8")));
    }
} catch (IOException ex) {
    //...
}

InformationsquelleAutor fedesanp

Dans un moment où je suis allé par le biais de ce problème et réussi à le résoudre de la manière suivante

j'ai d'abord besoin d'importer

import java.nio.charset.Charset;

Ensuite, j'ai dû déclarer une constante à utiliser UTF-8 et ISO-8859-1

private static final Charset UTF_8 = Charset.forName("UTF-8");
private static final Charset ISO = Charset.forName("ISO-8859-1");

Puis j'ai pu l'utiliser de la manière suivante:

String textwithaccent="Thís ís a text with accent";
String textwithletter="Ñandú";

text1 = new String(textwithaccent.getBytes(ISO), UTF_8);
text2 = new String(textwithletter.getBytes(ISO),UTF_8);

solution parfaite.

InformationsquelleAutor Quimbo

J'ai utiliser de code ci-dessous pour encoder les caractères spéciaux en spécifiant les encoder au format.

String text = "This is an example é";
byte[] byteText = text.getBytes(Charset.forName("UTF-8"));
//To get original string from byte.
String originalString= new String(byteText , "UTF-8");

InformationsquelleAutor laxman954

-1

Cela a résolu mon problème

    String inputText = "some text with escaped chars"
    InputStream is = new ByteArrayInputStream(inputText.getBytes("UTF-8"));

InformationsquelleAutor Prasanth RJ

Vous devez vous connecter pour publier un commentaire.