Pourquoi charset noms ne sont pas des constantes?

Charset questions sont confus et compliqué par eux-mêmes, mais en plus de cela, vous devez vous rappeler nom exact de votre jeux de caractères. Est-il "utf8"? Ou "utf-8"? Ou peut-être "UTF-8"? Lors de la recherche internet pour les exemples de code vous permettra de voir l'ensemble de la ci-dessus. Pourquoi ne pas simplement faire eux, nommé constantes et l'utilisation Charset.UTF8?

+1: C'était aussi m'énerve tout le temps. La même histoire se passe pendant MessageDigest#getInstance() par la voie.
Pour la vraie réponse, vous auriez besoin de demander à quelqu'un au coucher du Soleil. Bonne chance 🙂
Stephen C: je crois qu'il a été discuté sur une liste de diffusion publique. -Quelqu'un au coucher du Soleil.
voir cette question

InformationsquelleAutor serg | 2009-11-05

character-encoding java

156

La réponse simple à la question posée, c'est que le disponible jeu de caractères les chaînes de varier d'une plateforme à une autre.

Cependant, il y en a six qui sont tenus d'être présents, de sorte que les constantes pourrait avoir été faite pour ceux qui il y a longtemps. Je ne sais pas pourquoi ils ne l'étaient pas.

JDK 1.4 a fait une grande chose, en introduisant le jeu de caractères de type. À ce stade, ils n'auraient pas voulu donner de constantes de Chaîne de plus, puisque le but est d'amener tout le monde à l'aide de Charset instances. Alors pourquoi ne pas fournir le six du jeu de caractères standard constantes, alors? J'ai demandé à Martin Buchholz car il lui arrive d'être assis à côté de moi, et il m'a dit il n'y avait pas vraiment particulièrement bonne raison, sauf que à l'époque, les choses étaient encore à moitié cuit-trop peu de JDK Api avait été rajoutée à accepter le jeu de caractères, et de ceux qui l'ont été, le jeu de caractères surcharges généralement effectuée légèrement pire.

Il est triste de constater que c'est seulement dans le JDK 1.6 qu'ils ont finalement fini d'équiper tout avec Charset les surcharges. Et que cette rétro performances situation existe encore (la raison en est incroyablement bizarre et je ne peux pas l'expliquer, mais est lié à la sécurité!).

Longue histoire courte -- il suffit de définir vos propres constantes, ou de l'utilisation de la Goyave de jeux de Caractères de la classe qui Tony le Poney lié à (si cette bibliothèque n'est pas vraiment en fait encore sorti).

Mise à jour: un StandardCharsets classe est dans le JDK 7.
- Juste curieux, une idée de quand il y aura une nouvelle version (alpha / beta / whatever) de Goyave? La page d'accueil du projet est un peu curt sur cette.
- Pas de dinde pour moi jusqu'à ce qu'il est!
- la raison en est incroyablement bizarre et je ne peux pas l'expliquer, mais est lié à la sécurité - vous pouvez créer une modifiables Chaîne via personnalisé les jeux de caractères, mais ils pourraient avoir été des oeuvres encore plus vite que la chaîne (qui ressemble en fait le jeu de caractères). C'est une omission, la négligence/comment String(byte bytes[], int offset, int length, Charset charset) est mis en œuvre. En fait, le gain de performance n'est pas trivial du tout lors de la création d'une petite chaîne à partir d'une grande byte[].
- C'est pas juste! Vous avez accès à de telles ressources. =( J'ai vu une autre réponse où vous avez dit une fois, "Ouais, j'ai donc demandé à Josh [Bloch] à ce sujet..."
- +1 pour StandardCharsets
- PrintStream ne supporte pas le jeu de caractères
- J'espère qu'ils finiront par référence à la StandardCharsets les champs à droite dans le jeu de caractères, à laquelle ils appartiennent, à mon humble avis. Par exemple: jeu de caractères.UTF_8
InformationsquelleAutor Kevin Bourrillion
100

Deux ans plus tard, et Java 7 StandardCharsets maintenant définit des constantes pour les 6 jeux de caractères standard.

Si vous êtes coincé sur Java 5/6, vous pouvez utiliser la Goyave est Les jeux de caractères constantes, comme suggéré par Kevin Bourrillion et Jon Skeet.

InformationsquelleAutor Etienne Neveu
29

Je dirais que nous pouvons faire beaucoup mieux que ça... pourquoi ne pas la garantie-à-être-disponible jeux directement accessibles? Charset.UTF8 doit être une référence à la Charset, pas le nom d'une chaîne de caractères. De cette façon, nous n'aurions pas à gérer UnsupportedEncodingException tous sur la place.

Vous l'esprit, je pense aussi qu' .NET a choisi une meilleure stratégie par défaut UTF-8 partout. Il a ensuite vissé vers le haut, en nommant le "système d'exploitation par défaut" propriété de codage simplement Encoding.Default - qui n'est pas la valeur par défaut à l'intérieur .NET lui-même 🙁

Retour à rodomontades sur Java de jeu de caractères de soutien - pourquoi n'est-il pas un constructeur de FileWriter/FileReader qui prend un Charset? Fondamentalement, ceux qui sont presque inutiles les cours en raison de cette restriction - vous presque toujours besoin d'un InputStreamReader autour d'un FileInputStreamou l'équivalent pour la sortie 🙁

Infirmière, infirmière - où est mon médicament?

EDIT: Il me semble que cela n'a pas vraiment répondu à la question. La vraie réponse est sans doute soit "personne impliquée pensé" ou "quelqu'un qui pensait que c'était une mauvaise idée." Je suggère fortement que la maison de l'utilitaire de classes fournissant les noms ou les jeux de caractères d'éviter la duplication autour de la base de code... Ou vous pouvez simplement utiliser celui que nous avons utilisé à Google lorsque cette réponse a d'abord été écrit. (Notez qu'à partir de Java 7, vous devriez juste utiliser StandardCharsets à la place.)
- +1. Mais comme une méthode plutôt qu'un champ de façon à permettre le chargement paresseux (bon d'accord, vous allez probablement vouloir UTF-8, mais il y a un peu d'autres jeux de caractères et vous pourriez installations similaires pour eux). Malheureusement, cela ne semble pas être très populaire auprès de ceux qui prennent les décisions.
- Je serais assez heureux avec une méthode, même si j'espère qu'avec impatience le chargement de ces très peu de jeux de caractères ne serait pas un coût significatif.
- Nous sommes sur une croisade pour arrêter désireux de chargement de classe. / Juste fait une recherche d'un JDK pour "UTF-8". Trouvé 270 match(es) en 165 fichier(s). Bien que beaucoup de qui est dans les vieux Apache indésirable (je crois contribué par mon équipe).
- Je suppose que désireux classloading est une de ces choses qui monte jusqu'au fil du temps. Quelques classes ici, quelques cours là - chacun individuellement sonnant assez inoffensif - pourrait faire une grande différence.
- Le dernier lien, de la Goyave, les jeux de Caractères, est cassé.
- Modifié, bien que maintenant tout le monde devrait probablement être à l'aide de StandardCharsets.
- Merci. Probablement presque tout le monde. Il y a un peu de nous qui ont encore à être compatible avec les anciennes versions d'Android, par exemple.
- l'accès à une constante de compilation via un nom (un static final champ) ne cause pas de chargement de classe. Il n'a jamais été une raison pour utiliser un littéral "UTF-8" en mille endroits au lieu d'un seul canonique symbole. Donc, c'est l'inverse, en utilisant une méthode qui serait en fait la cause de la classe de chargement lorsque la méthode est appelée.
- aujourd'hui, l'usine méthodes de java.nio.file.Files, y compris newBufferedReader et newBufferedWriter, par défaut à UTF-8 lorsque aucune Charset a été fourni (et les méthodes qui prennent un charset nom String n'existent même pas dans cette classe).
- Yup, en effet - et c'est très bienvenue.
- Mes commentaires de chaque côté de / ne sont pas liés. Ressemble quand StandardCharsets obtient touché, le UTF_16LE est chargé. (Qui va ralentir le RMI-CGI pont.)
- Je vois ce que tu veux dire. Mais si c'est cher, la conception de l'erreur n'est pas dans le chemin, StandardCharsets a été conçu. Après tout, il n'est pas nécessaire d'avoir distinctes UTF_16BE, UTF_16LE, et UTF_16 classes; c'est un vestige de l'époque où les jeux de caractères où recherché par la construction et de rechercher des noms de classe. Ces classes sont obsolètes; le travail est fait par leur classe de base commune. En fait, il n'y a aucun besoin pour les différents Charset la mise en œuvre des classes à tous, que la spécialisation qui se passe dans le décodeur et encodeur implémentations.
InformationsquelleAutor Jon Skeet
27

En Java 1.7

import java.nio.charset.StandardCharsets

ex:
StandardCharsets.UTF_8
StandardCharsets.US_ASCII

InformationsquelleAutor Roger
5

L'état actuel de l'encodage de l'API laisse quelque peu à désirer. Certaines parties de la version 6 de Java API ne pas accepter Charset en place d'une chaîne de caractères (en logging, dom.ls, PrintStream; il peut y en avoir d'autres). Cela n'aide pas que les encodages sont censés avoir différents noms canoniques pour les différentes parties de la bibliothèque standard.

Je peux comprendre comment les choses sont arrivés là où ils sont; pas sûr que j'ai des idées brillantes sur la façon de les corriger.

Que d'un côté...

Vous pouvez rechercher les noms de Sun Java 6 mise en œuvre ici.

Pour l'UTF-8, les canonique valeurs sont "UTF-8" pour java.nio et "UTF8" pour java.lang et java.io. La seule codages de la spécification exige un JRE afin d'en charge sont: US-ASCII, ISO-8859-1; format UTF-8 ET UTF-16BE; UTF-16LE; UTF-16.
- Je n'ai pas hésiter à le PrintStream, comme la classe n'a clairement dire "La classe PrintWriter doit être utilisé dans les situations qui nécessitent l'écriture des caractères plutôt que des octets." (Qui est, comme toutes les situations...)
InformationsquelleAutor McDowell
2

J'ai il y a longtemps défini une classe utilitaire avec UTF_8, ISO_8859_1 et US_ASCII jeu de caractères constantes.

Aussi, certains depuis longtemps (+de 2 ans), j'ai fait un simple test de performance entre new String( byte[], Charset ) et new String( byte[], String charset_name ) et découvert que ce dernier mise en œuvre est CONSIDÉRABLEMENT plus rapide. Si vous prenez un coup d'oeil sous le capot au code source, vous verrez qu'ils sont, en effet, suivre un tout autre chemin.

Pour cette raison, j'ai inclus un utilitaire dans la même classe
```
public static String stringFromByteArray (
    final byte[] array,
    final Charset charset
)
{
    try
    {
        return new String( array, charset.name( ) )
    }
    catch ( UnsupportedEncodingException ex )
    {
        //cannot happen
    }
}
```
Pourquoi le String( byte[], Charset ) constructeur ne fait pas de même, ça me dépasse.
- Le Charset n'a pas besoin d'être enregistrées, de sorte que l'exception peut arriver. Autant que je me souvienne, il y avait quelques changements dans JDK7 pour le rendre plus rapide pour les bonnes Charset implémentations (éliminer la copie supplémentaire).
InformationsquelleAutor Alexander Pogrebnyak

Vous devez vous connecter pour publier un commentaire.