Comment Trouver le jeu de caractères par Défaut/de Codage en Java?

La réponse évidente est d'utiliser Charset.defaultCharset() mais nous avons récemment trouvé que ce serait peut-être pas la bonne réponse. On m'a dit que le résultat est différent de réel jeu de caractères par défaut utilisé par java.io classes à plusieurs reprises. Ressemble à Java garde de 2 ensembles de jeu de caractères par défaut. Quelqu'un aurait-il des idées sur ce problème?

Nous avons été en mesure de reproduire un cas d'échec. C'est une sorte d'erreur de l'utilisateur, mais il peut toujours exposer la cause de racine de tous les autres problèmes. Voici le code,

public class CharSetTest {

    public static void main(String[] args) {
        System.out.println("Default Charset=" + Charset.defaultCharset());
        System.setProperty("file.encoding", "Latin-1");
        System.out.println("file.encoding=" + System.getProperty("file.encoding"));
        System.out.println("Default Charset=" + Charset.defaultCharset());
        System.out.println("Default Charset in Use=" + getDefaultCharSet());
    }

    private static String getDefaultCharSet() {
        OutputStreamWriter writer = new OutputStreamWriter(new ByteArrayOutputStream());
        String enc = writer.getEncoding();
        return enc;
    }
}

Notre serveur requiert jeu de caractères par défaut dans le Latin-1 pour traiter avec un mélange de codage (ANSI/Latin-1/UTF-8) dans un héritage protocole. Donc, tous nos serveurs fonctionnent avec ce paramètre de JVM,

-Dfile.encoding=ISO-8859-1

Voici le résultat sur Java 5,

Default Charset=ISO-8859-1
file.encoding=Latin-1
Default Charset=UTF-8
Default Charset in Use=ISO8859_1

Quelqu'un essaie de changer l'encodage d'exécution en paramètre le fichier.le codage dans le code. Nous savons tous qui ne fonctionne pas. Cependant, ce qui, apparemment, jette hors defaultCharset() mais cela n'affecte pas le vrai jeu de caractères par défaut utilisé par OutputStreamWriter.

Est-ce un bug ou fonctionnalité?

EDIT: La accepté de répondre montre la cause racine du problème. Fondamentalement, vous ne pouvez pas faire confiance defaultCharset() en Java 5, ce qui n'est pas l'encodage utilisé par défaut par les e/S des classes. Ressemble à Java 6 corrige ce problème.

C'est bizarre, depuis le defaultCharset utilise une variable statique qui est définie une seule fois (accoring à la docs - à VM de démarrage). Ce VM Vendeur utilisez-vous?
J'ai été en mesure de reproduire ce sur Java 5, à la fois sur le Soleil/Linux et Apple/mac OS X.
Ce qui explique pourquoi defaultCharset() ne pas mettre en cache le résultat. J'ai encore besoin de savoir ce qu'est le vrai jeu de caractères par défaut utilisé par IO classes. Il doit y avoir un autre jeu de caractères par défaut de cache quelque part d'autre.
Codeur, je suis encore en recherche sur le sujet. La seule chose que je sais, c'est que le jeu de caractères.defaulyCharset() n'est pas appelé de soleil.nio.cs.StreamEncoder dans la JVM 1.5. Dans la JVM 1.6 le jeu de caractères.defaulyCharset() la méthode est appelée donner les résultats escomptés. JVM 1.5 mise en œuvre de StreamEncoder est mise en cache de la précédente encodage, en quelque sorte.

InformationsquelleAutor ZZ Coder | 2009-11-17

C'est vraiment étrange... une Fois réglé, le jeu de caractères par défaut est mis en cache et il n'est pas changé, alors que la classe est en mémoire. Réglage de la "file.encoding" propriété avec System.setProperty("file.encoding", "Latin-1"); ne fait rien. Chaque fois Charset.defaultCharset() est appelée, elle retourne la mise en cache jeu de caractères.

Voici mes résultats:

Default Charset=ISO-8859-1
file.encoding=Latin-1
Default Charset=ISO-8859-1
Default Charset in Use=ISO8859_1

Je suis en utilisant JVM 1.6 si.

(mise à jour)

Ok. Je l'ai fait reproduire votre bug avec la JVM 1.5.

Regardant le code source de la version 1.5, la mise en cache jeu de caractères par défaut n'est pas définie. Je ne sais pas si c'est un bug ou pas mais de 1,6 changements de cette mise en œuvre et utilise la mise en cache charset:

JVM 1.5:

public static Charset defaultCharset() {
    synchronized (Charset.class) {
        if (defaultCharset == null) {
            java.security.PrivilegedAction pa =
                    new GetPropertyAction("file.encoding");
            String csn = (String) AccessController.doPrivileged(pa);
            Charset cs = lookup(csn);
            if (cs != null)
                return cs;
            return forName("UTF-8");
        }
        return defaultCharset;
    }
}

JVM 1.6:

public static Charset defaultCharset() {
    if (defaultCharset == null) {
        synchronized (Charset.class) {
            java.security.PrivilegedAction pa =
                    new GetPropertyAction("file.encoding");
            String csn = (String) AccessController.doPrivileged(pa);
            Charset cs = lookup(csn);
            if (cs != null)
                defaultCharset = cs;
            else
                defaultCharset = forName("UTF-8");
        }
    }
    return defaultCharset;
}

Lorsque vous définissez l'encodage du fichier à file.encoding=Latin-1 la prochaine fois que vous appelez Charset.defaultCharset(), ce qui se passe, parce que la mise en cache jeu de caractères par défaut n'est pas défini, il va essayer de trouver le bon jeu de caractères pour le nom Latin-1. Ce nom n'est pas trouvé, parce que c'est incorrect, et retourne la valeur par défaut UTF-8.

Quant à savoir pourquoi le IO classes telles que OutputStreamWriter renvoyer un résultat inattendu,

la mise en œuvre de sun.nio.cs.StreamEncoder (sorcière est utilisé par ces IO classes) est différente ainsi que pour la JVM JVM 1.5 et 1.6. La JVM 1.6 mise en œuvre est basée dans le Charset.defaultCharset() méthode pour obtenir le codage par défaut, si l'on n'est pas fourni IO classes. La JVM 1.5 mise en œuvre utilise une méthode différente Converters.getDefaultEncodingName(); pour obtenir le jeu de caractères par défaut. Cette méthode utilise son propre cache du jeu de caractères par défaut est définie sur la JVM de l'initialisation:

JVM 1.6:

public static StreamEncoder forOutputStreamWriter(OutputStream out,
        Object lock,
        String charsetName)
        throws UnsupportedEncodingException
{
    String csn = charsetName;
    if (csn == null)
        csn = Charset.defaultCharset().name();
    try {
        if (Charset.isSupported(csn))
            return new StreamEncoder(out, lock, Charset.forName(csn));
    } catch (IllegalCharsetNameException x) { }
    throw new UnsupportedEncodingException (csn);
}

JVM 1.5:

public static StreamEncoder forOutputStreamWriter(OutputStream out,
        Object lock,
        String charsetName)
        throws UnsupportedEncodingException
{
    String csn = charsetName;
    if (csn == null)
        csn = Converters.getDefaultEncodingName();
    if (!Converters.isCached(Converters.CHAR_TO_BYTE, csn)) {
        try {
            if (Charset.isSupported(csn))
                return new CharsetSE(out, lock, Charset.forName(csn));
        } catch (IllegalCharsetNameException x) { }
    }
    return new ConverterSE(out, lock, csn);
}

Mais je suis d'accord avec les commentaires. Vous ne devriez pas compter sur cette propriété. C'est un détail d'implémentation.

Pour reproduire cette erreur, vous devez être sur Java 5 et votre JRE encodage par défaut doit être en UTF-8.
C'est l'écriture à la mise en œuvre, et non pas l'abstraction. Si vous comptez sur les sans-papiers choses, ne soyez pas surpris si votre code pauses lorsque vous mettez à niveau vers une version plus récente de la plate-forme.

InformationsquelleAutor bruno conde

24

Est-ce un bug ou fonctionnalité?

Ressemble à un comportement indéterminé. Je sais que, dans la pratique, vous pouvez modifier l'encodage par défaut à l'aide d'une propriété de ligne de commande, mais je ne pense pas que ce qui se passe quand vous faites ceci est défini.

Bug ID: 4153515 sur les problèmes de la définition de cette propriété:

Ce n'est pas un bug. Les fichiers"."codage de propriété n'est pas requis par le J2SE
plate-forme de cahier des charges; c'est un détail interne de Soleil de la mise en œuvre et d'
ne devrait pas être examiné ou modifiés par le code de l'utilisateur. Il est également destiné à être
lecture seule; il est techniquement impossible de prendre en charge la définition de cette propriété
pour des valeurs arbitraires sur la ligne de commande ou à tout autre moment au cours du programme
l'exécution.

La meilleure façon de changer l'encodage utilisé par défaut par le VM et le moteur d'exécution
système pour modifier les paramètres régionaux de la plateforme sous-jacente avant de commencer votre
Programme Java.

Je grince des dents quand je vois des gens réglage de l'encodage sur la ligne de commande - vous ne savez pas quel est le code qui va affecter.

Si vous ne souhaitez pas utiliser le codage par défaut, définir l'encodage vous ne voulez explicitement via la méthode appropriée/constructeur.

InformationsquelleAutor McDowell
4

D'abord, Latin-1 est la même que la norme ISO-8859-1, donc, le défaut était déjà OK pour vous. Droit?

Vous avez réussi à définir l'encodage ISO-8859-1 avec votre paramètre de ligne de commande. Vous avez aussi la définir par programme pour "Latin-1", mais ce n'est pas une valeur reconnue de l'encodage d'un fichier Java. Voir http://java.sun.com/javase/6/docs/technotes/guides/intl/encoding.doc.html

Lorsque vous faites cela, ressemble à un jeu de caractères remet à UTF-8, en regardant la source. Qu'au moins explique la plus grande partie du comportement.

Je ne sais pas pourquoi OutputStreamWriter montre ISO8859_1. Il délègue à code source fermé soleil.misc.* des classes. Je devine que ce n'est pas tout à fait affaire avec l'encodage via le même mécanisme, ce qui est étrange.

Mais de sûr, vous devriez toujours être en spécifiant l'encodage que tu veux dire dans ce code. Je n'avais jamais compter sur la plate-forme par défaut.

InformationsquelleAutor Sean Owen
4

Le comportement n'est pas vraiment étrange. La recherche dans la mise en œuvre des classes, il est causé par:
- Charset.defaultCharset() n'est pas mise en cache de déterminer le jeu de caractères en Java 5.
- Le réglage du système de la propriété de fichier".l'encodage" et en invoquant Charset.defaultCharset() nouveau provoque une deuxième évaluation du système de propriété, pas de jeu de caractères avec le nom "Latin-1" est trouvé, donc Charset.defaultCharset() par défaut "UTF-8".
- La OutputStreamWriter est cependant la mise en cache du jeu de caractères par défaut et est probablement déjà utilisé au cours de VM d'initialisation, de sorte que son jeu de caractères par défaut qui détourne de Charset.defaultCharset() si la propriété de système de fichiers".l'encodage" a été modifiée lors de l'exécution.
Comme l'a déjà souligné, il n'est pas documenté la façon dont la machine virtuelle doit se comporter dans une telle situation. Le Charset.defaultCharset() documentation de l'API n'est pas très précis sur la façon dont le jeu de caractères par défaut est déterminé, le seul fait de mentionner qu'il se fait habituellement sur les VM de démarrage, en fonction de facteurs comme l'OS jeu de caractères par défaut ou des paramètres régionaux par défaut.

InformationsquelleAutor jarnbjo
3

J'ai mis la machine virtuelle argument a ÉTÉ server en tant que-Dfile.encoding=UTF-8 pour modifier les serveurs de jeu de caractères par défaut.

InformationsquelleAutor Davy Jones
0

vérifier
```
System.getProperty("sun.jnu.encoding")
```
il semble être le même encodage que celui utilisé dans votre système en ligne de commande.

InformationsquelleAutor neoedmund

Vous devez vous connecter pour publier un commentaire.