Comment valider si une chaîne UTF-8 contient mal les caractères encodés

Dans un grand ensemble de données, j'ai des données qui ressemble à ceci:

"guide (but, yeah, itâ€™s okay to share it with â€˜em)."

J'ai ouvert le fichier dans un éditeur hexadécimal et exécuter le raw d'octets de données par le biais d'un codage de caractères algorithme de détection (http://code.google.com/p/juniversalchardet/) et c'est détectée en tant que UTF-8.

Il me semble que la source des données mal interprété le caractère original ensemble et a écrit UTF-8 valide que pour la sortie que j'ai reçu.

J'aimerais valider les données pour le mieux que je peux. Existe-il des heuristiques/algorithmes de là-bas qui pourrait m'aider à prendre un coup de couteau à la validation?

Quelle est la source ici? Avez-vous pousser les données d'origine de ladite source? Au premier coup d'oeil je dirais que vous avez essayé et poussé cp-1252 apostrophes à elle sans qu'ils ne soient convertis au bon format UTF-8 équivalents...
Vous devez montrer comment vous êtes en train de lire les données à partir de l'ensemble de données et de la façon dont vous avez présenté les données de l'utilisateur/vous-même. Par exemple, êtes-vous à l'aide de FileReader de le lire et de System.out.println() le présenter? Vous devez indiquer un ou deux d'entre eux à utiliser l'UTF-8 au lieu de la plate-forme de jeu de caractères par défaut qui est reconnaissable en tant que CP1252.
Cela ressemble à un UTF-8 de la source de données (avec U+2019 ’ codé correctement, que les octets e2 80 99) décodés à l'aide de l'octet windows-1252 encodage (où ils sont interprétés comme des points de code U+00e2 U+20ac U+2122 - â€™.
Double Possible de Vérifier si une Chaîne est valide codé en UTF-8 en Java

InformationsquelleAutor David Parks | 2013-01-09

Vous ne pouvez pas le faire une fois que vous avez la chaîne, vous devez le faire pendant que vous avez encore des entrées brutes. Une fois que vous avez la chaîne, il n'y a aucun moyen de dire automatiquement si â€™ était en fait destiné entrée sans une certaine sérieusement fragile tests. Par exemple:

public static boolean isUTF8MisInterpreted( String input ) {
          //convenience overload for the most common UTF-8 misinterpretation
          //which is also the case in your question
      return isUTF8MisInterpreted( input, "Windows-1252");  
}

public static boolean isUTF8MisInterpreted( String input, String encoding) {

    CharsetDecoder decoder = Charset.forName("UTF-8").newDecoder();
    CharsetEncoder encoder = Charset.forName(encoding).newEncoder();
    ByteBuffer tmp;
    try {
        tmp = encoder.encode(CharBuffer.wrap(input));
    }

    catch(CharacterCodingException e) {
        return false;
    }

    try {
        decoder.decode(tmp);
        return true;
    }
    catch(CharacterCodingException e){
        return false;
    }       
}

public static void main(String args[]) {
    String test = "guide (but, yeah, itâ€™s okay to share it with â€˜em).";
    String test2 = "guide (but, yeah, it’s okay to share it with ‘em).";
    System.out.println( isUTF8MisInterpreted(test)); //true
    System.out.println( isUTF8MisInterpreted(test2)); //false

}

Si vous avez toujours accès aux matières premières d'entrée, vous pouvez voir si un tableau d'octets montants pleinement octets utf-8 valide la séquence:

public static boolean isValidUTF8( byte[] input ) {

    CharsetDecoder cs = Charset.forName("UTF-8").newDecoder();

    try {
        cs.decode(ByteBuffer.wrap(input));
        return true;
    }
    catch(CharacterCodingException e){
        return false;
    }       
}

Vous pouvez également utiliser le CharsetDecoder avec des cours d'eau, par défaut, il jette exception dès qu'il voit invalide octets dans le codage donnée.

C'est de loin la solution la plus simple que j'ai trouvé jusqu'à présent. Merci!

InformationsquelleAutor Esailija

-4

Si vous utilisez HTML5 puis il suffit d'ajouter le
<meta charset="UTF-8"> à l'intérieur de la <head>

pour HTML4 <meta http-equiv="Content-type" content="text/html;charset=UTF-8">

InformationsquelleAutor Tabish

Vous devez vous connecter pour publier un commentaire.