Comment enregistrer les caractères chinois dans un fichier avec Java?

J'utilise le code suivant pour enregistrer les caractères Chinois dans un .fichier txt, mais quand je l'ai ouvert avec Wordpad, je ne pouvais pas le lire.

StringBuffer Shanghai_StrBuf = new StringBuffer("\u4E0A\u6D77");
boolean Append = true;

FileOutputStream fos;
fos = new FileOutputStream(FileName, Append);
for (int i = 0;i < Shanghai_StrBuf.length(); i++) {
    fos.write(Shanghai_StrBuf.charAt(i));
}
fos.close();

Que puis-je faire ? Je sais que si je couper et coller des caractères Chinois dans Wordpad, je peux l'enregistrer dans un .fichier txt. Comment dois-je faire en Java ?

source d'informationauteur Frank

Il y a plusieurs facteurs à l'œuvre ici:

Fichiers texte ont pas intrinsèque de métadonnées pour la description de leur codage (pour tous les discours de l'angle du support de taxes, il y a des raisons XML est populaire)
Le codage par défaut pour Windows est toujours un 8bit (ou double-byte) "ANSI" jeu de caractères avec un nombre limité de valeurs, des fichiers de texte qui est écrit dans ce format ne sont pas portables
À dire un fichier Unicode à partir d'un fichier ANSI, Windows apps compter sur la présence d'un marque d'ordre d'octet au début du fichier (pas strictement vrai - Raymond Chen explique). En théorie, la NOMENCLATURE est là pour vous dire la endianess (ordre des octets) de données. Pour l'UTF-8, même si il ya un seul octet de commande, Windows applications s'appuient sur le marqueur octets automatiquement comprendre que c'est de l'Unicode (si vous notez que le bloc-notes est une option d'encodage sur ses dialogues ouvrir/enregistrer).
Il est faux de dire que Java est cassé parce qu'il n'écrit pas de l'UTF-8 BOM automatiquement. Sur les systèmes Unix, il serait une erreur d'écrire une NOMENCLATURE à un fichier de script, par exemple, et de nombreux systèmes Unix utiliser l'UTF-8 par défaut l'encodage. Il ya des moments où vous ne voulez pas sur Windows, soit, comme lorsque vous êtes à l'ajout de données à un fichier existant: fos = new FileOutputStream(FileName,Append);

Ici est une méthode fiable d'ajout de données UTF-8 dans un fichier:

  private static void writeUtf8ToFile(File file, boolean append, String data)
      throws IOException {
    boolean skipBOM = append && file.isFile() && (file.length() > 0);
    Closer res = new Closer();
    try {
      OutputStream out = res.using(new FileOutputStream(file, append));
      Writer writer = res.using(new OutputStreamWriter(out, Charset
          .forName("UTF-8")));
      if (!skipBOM) {
        writer.write('\uFEFF');
      }
      writer.write(data);
    } finally {
      res.close();
    }
  }

Utilisation:

  public static void main(String[] args) throws IOException {
    String chinese = "\u4E0A\u6D77";
    boolean append = true;
    writeUtf8ToFile(new File("chinese.txt"), append, chinese);
  }

Remarque: si le fichier existait déjà et que vous avez choisi d'ajouter des données existantes et n'était pas codé en UTF-8, la seule chose que le code va créer est un gâchis.

Ici est la Closer type utilisé dans ce code:

public class Closer implements Closeable {
  private Closeable closeable;

  public <T extends Closeable> T using(T t) {
    closeable = t;
    return t;
  }

  @Override public void close() throws IOException {
    if (closeable != null) {
      closeable.close();
    }
  }
}

Ce code permet un style Windows meilleure supposition sur la façon de lire le fichier en fonction de l'ordre des octets de marques:

  private static final Charset[] UTF_ENCODINGS = { Charset.forName("UTF-8"),
      Charset.forName("UTF-16LE"), Charset.forName("UTF-16BE") };

  private static Charset getEncoding(InputStream in) throws IOException {
    charsetLoop: for (Charset encodings : UTF_ENCODINGS) {
      byte[] bom = "\uFEFF".getBytes(encodings);
      in.mark(bom.length);
      for (byte b : bom) {
        if ((0xFF & b) != in.read()) {
          in.reset();
          continue charsetLoop;
        }
      }
      return encodings;
    }
    return Charset.defaultCharset();
  }

  private static String readText(File file) throws IOException {
    Closer res = new Closer();
    try {
      InputStream in = res.using(new FileInputStream(file));
      InputStream bin = res.using(new BufferedInputStream(in));
      Reader reader = res.using(new InputStreamReader(bin, getEncoding(bin)));
      StringBuilder out = new StringBuilder();
      for (int ch = reader.read(); ch != -1; ch = reader.read())
        out.append((char) ch);
      return out.toString();
    } finally {
      res.close();
    }
  }

Utilisation:

  public static void main(String[] args) throws IOException {
    System.out.println(readText(new File("chinese.txt")));
  }

(Système d'.out utilise le codage par défaut, de sorte qu'il imprime quelque chose de sensé dépend de votre plate-forme et configuration.)

6

Qui me rappelle:

Le Minimum Absolu que Tout Développeur Doit Absolument, Positivement Savoir Sur Unicode et les Jeux de Caractères (Pas d'Excuses!)
4

Si vous pouvez compter que le codage de caractères par défaut est UTF-8 (ou tout autre codage Unicode), vous pouvez utiliser les éléments suivants:
```
    Writer w = new FileWriter("test.txt");
    w.append("上海");
    w.close();
```
Le moyen le plus sûr est de toujours spécifier explicitement l'encodage:
```
    Writer w = new OutputStreamWriter(new FileOutputStream("test.txt"), "UTF-8");
    w.append("上海");
    w.close();
```
P. S. Vous pouvez utiliser tous les caractères Unicode dans le code source de Java, de même que la méthode et les noms de variables, si le paramètre d'encodage pour javac est configuré droit. Que fait le code source plus lisible que l'échappé \uXXXX forme.
3

Être très prudent avec les approches proposées. Même spécifiant l'encodage du fichier comme suit:

Écrivain w = new OutputStreamWriter(new FileOutputStream("test.txt"), "UTF-8");

ne fonctionnera pas si vous êtes en cours d'exécution sous un système d'exploitation comme Windows. Même en mettant la propriété de système de fichier.le codage UTF-8 ne permet pas de résoudre le problème. C'est parce que Java ne parvient pas à écrire une marque d'ordre des octets (BOM) pour le fichier. Même si vous spécifier l'encodage lors de l'écriture dans un fichier, ouvrir le même fichier dans une application comme Wordpad va afficher le texte, comme des ordures, car il ne détecte pas la NOMENCLATURE. J'ai essayé de courir les exemples ici dans Windows (avec une plate-forme/conteneur de codage de CP1252).

Un bug qui existe pour décrire le problème en Java:

http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058

La solution pour le moment est d'écrire la marque d'ordre d'octet-vous pour s'assurer que le fichier s'ouvre correctement dans d'autres applications. Voir ce pour plus de détails sur la NOMENCLATURE:

http://mindprod.com/jgloss/bom.html

et pour une solution correcte voir le lien suivant:

http://tripoverit.blogspot.com/2007/04/javas-utf-8-and-unicode-writing-is.html
1

Voici un moyen parmi beaucoup d'autres. Fondamentalement, nous sommes juste en précisant que la conversion être fait pour de l'UTF-8 avant la sortie d'octets à la FileOutputStream:
```
String FileName = "output.txt";

StringBuffer Shanghai_StrBuf=new StringBuffer("\u4E0A\u6D77");
boolean Append=true;

Writer writer = new OutputStreamWriter(new FileOutputStream(FileName,Append), "UTF-8");
writer.write(Shanghai_StrBuf.toString(), 0, Shanghai_StrBuf.length());
writer.close();
```
Je vérifiés manuellement ce contre les images à http://www.fileformat.info/info/unicode/char/ . Dans l'avenir, veuillez suivre Java normes de codage, y compris les bas-de-casse des noms de variables. Il améliore la lisibilité.

Essayer cela,

StringBuffer Shanghai_StrBuf=new StringBuffer("\u4E0A\u6D77");
    boolean Append=true;

    Writer out = new BufferedWriter(new OutputStreamWriter(
        new FileOutputStream(FileName,Append), "UTF8"));
    for (int i=0;i<Shanghai_StrBuf.length();i++) out.write(Shanghai_StrBuf.charAt(i));
    out.close();

Vous devez vous connecter pour publier un commentaire.