Comment ignorer le marqueur d'ordre d'octets UTF-8 dans les comparaisons de chaînes?

Je vais avoir un problème de comparaison de chaînes de caractères dans une Unité de Test en C# 4.0 à l'aide de Visual Studio 2010. Ce même cas de test fonctionne correctement dans Visual Studio 2008 (avec C# 3.5).

Voici le code snippet:

byte[] rawData = GetData();
string data = Encoding.UTF8.GetString(rawData);

Assert.AreEqual("Constant", data, false, CultureInfo.InvariantCulture);

Lors du débogage de ce test, le data chaîne apparaît à l'œil nu pour contenir exactement la même chaîne que le littéral. Quand j'ai appelé data.ToCharArray()j'ai remarqué que le premier octet de la chaîne data est la valeur 65279 qui est de l'UTF-8 Octets de Commande de Marqueur. Ce que je ne comprends pas, c'est pourquoi Encoding.UTF8.GetString() garde cet octet autour de.

Comment puis-je obtenir Encoding.UTF8.GetString() à pas placer l'Octet de Commande de Marqueur dans la chaîne résultante?

Mise à jour: Le problème était que GetData()qui lit un fichier à partir du disque, lit les données depuis le fichier à l'aide de FileStream.readbytes(). J'ai corrigé cela en utilisant un StreamReader et la conversion de la chaîne d'octets à l'aide de Encoding.UTF8.GetBytes()qui est ce qu'il aurait dû faire en premier lieu! Merci pour toute l'aide.

source d'informationauteur Skrud

c#equality unit-testing utf-8 visual-studio-2010

Bien, je suppose que c'est parce que les données binaires brutes comprend la NOMENCLATURE. Vous pouvez toujours supprimer le BOM-vous après décodage, si vous ne voulez pas, mais vous devriez considérer si le tableau d'octets devraient envisager la NOMENCLATURE pour commencer.

EDIT: Sinon, vous pouvez utiliser un StreamReader pour effectuer le décodage. Voici un exemple, montrant le même tableau d'octets d'être converti en deux caractères à l'aide de Encoding.GetString ou d'un caractère par un StreamReader:

using System;
using System.IO;
using System.Text;

class Test
{
    static void Main()
    {
        byte[] withBom = { 0xef, 0xbb, 0xbf, 0x41 };
        string viaEncoding = Encoding.UTF8.GetString(withBom);
        Console.WriteLine(viaEncoding.Length);

        string viaStreamReader;
        using (StreamReader reader = new StreamReader
               (new MemoryStream(withBom), Encoding.UTF8))
        {
            viaStreamReader = reader.ReadToEnd();           
        }
        Console.WriteLine(viaStreamReader.Length);
    }
}

Il y a une légère façon la plus efficace de le faire que de créer StreamReader et MemoryStream:

1) Si vous savez qu'il y a toujours une NOMENCLATURE

string viaEncoding = Encoding.UTF8.GetString(withBom, 3, withBom.Length - 3);

2) Si vous ne savez pas, vérifiez:

string viaEncoding;
if (withBom.Length >= 3 && withBom[0] == 0xEF && withBom[1] == 0xBB && withBom[2] == 0xBF)
    viaEncoding = Encoding.UTF8.GetString(withBom, 3, withBom.Length - 3);
else
    viaEncoding = Encoding.UTF8.GetString(withBom);

-3

Je crois que le plus de caractère est supprimé si vous Trim() le chaîne décodée

Vous devez vous connecter pour publier un commentaire.