c# Détecter l'encodage xml à partir du Tableau d'Octets?

Eh bien, j'ai un tableau d'octets, et je sais que je suis un xml serilized objet dans le tableau d'octets est-il possible de l'encodage à partir d'elle?

Im ne va pas deserilize, mais im en l'enregistrant dans un champ xml sur un serveur sql... donc j'ai besoin de convertir une chaîne de caractères?

toute solution finale avec l'intégralité du code source de l'échantillon de travail à ce sujet ?

InformationsquelleAutor Peter | 2009-02-24

binary-data c#encoding xml

7

Vous pouvez consulter la première 40-ish octets¹. Ils devrait contenir le document de déclaration (en supposant qu'il a un document de déclaration") qui doit contenir le codage ou vous pouvez supposer qu'il est en UTF-8 ou UTF-16, ce qui est évident à partir de la façon dont vous l'avez compris, le <?xml partie. (Il suffit de cocher pour les deux modèles.)

De façon réaliste, vous attendez-vous que vous aurez jamais obtenir quoi que ce soit d'autre que UTF-8 ou UTF-16? Si pas, vous pouvez cocher la case pour les modèles que vous obtenez à la fois de ceux et de lever une exception si elle ne suit pas en soit le motif. Sinon, si vous voulez faire une autre tentative, vous pouvez toujours essayer de décoder le document en UTF-8, le ré-encoder et voir si vous obtenez le même octets de retour. Ce n'est pas idéal, mais c'est peut-travail.

Je suis sûr qu'il y a de plus rigoureux de façons de le faire, mais ils sont susceptibles d'être tatillons 🙂

¹ Tout à fait peut-être moins que cela. Je figure 20 caractères devrait être suffisant, qui est de 40 octets en UTF-16.
- Downvoters: si vous allez à downvote, veuillez fournir un commentaire. Sinon, le downvote sert pas.
- Ils ont juste être hatin.
- toute solution finale avec l'intégralité du code source de l'échantillon de travail à ce sujet ?
- Pas pour moi, j'en ai peur. Je n'ai pas le temps de revenir sur ce droit maintenant.
InformationsquelleAutor Jon Skeet

Une solution similaire à cette question pourrait résoudre ce problème en utilisant un jet sur le tableau d'octets. Ensuite, vous n'aurez pas à jouer au niveau de l'octet. Comme ceci:

Encoding encoding;
using (var stream = new MemoryStream(bytes))
{
    using (var xmlreader = new XmlTextReader(stream))
    {
        xmlreader.MoveToContent();
        encoding = xmlreader.Encoding;
    }
}

InformationsquelleAutor Peter Lillevold

7

La première 2 ou 3 octets peut-être une Marque d'Ordre des Octets (BOM), qui peut vous dire si le flux est de l'UTF-8, Unicode-little-endian ou Unicode-gros-boutiste.

UTF-8 BOM est 0xEF 0xBB 0xBF
Unicode-gros-boutiste est 0xFE 0xFF
Unicode-LittleEndiaon est 0xFF 0xFE

Si aucune de ces sont présents, alors vous pouvez utiliser l'ASCII pour tester <?xml (note la plus moderne de la génération XML colle à la norme qu'aucun blanc ne peut précéder le xml déclarer).

ASCII est utilisé jusqu' ?> de sorte que vous pouvez trouver la présence de encoding= et trouver sa valeur.
Si l'encodage n'est pas présent ou <?xml déclarer n'est pas présent, alors vous pouvez supposer UTF-8.
- toute solution finale avec l'intégralité du code source de l'échantillon de travail à ce sujet ?
InformationsquelleAutor AnthonyWJones

La Spécification W3C XML a une section sur la façon de déterminer l'encodage d'une chaîne d'octets.

Vérifiez tout d'abord pour une Unicode Marque d'Ordre d'Octet

Une NOMENCLATURE est juste un autre caractère; c'est l':

"ZÉRO DE LA LARGEUR DE NO-BREAK SPACE' (U+FEFF)

Le caractère U+FEFF, ainsi que tous les autres caractères dans le fichier, est codé à l'aide du schéma de codage:

00 00 FE FF: UCS-4, big-endian machine (1234 ordre)
FF FE 00 00: UCS-4, little-endian machine (4321 ordre)
00 00 FF FE: UCS-4, insolite octet de commande (2143)
FE FF 00 00: UCS-4, insolite octet de commande (3412)
FE FF ## ##: UTF-16, big-endian
FF FE ## ##: UTF-16, little-endian
EF BB BF: UTF-8

où ## ## peut être n'importe quoi - à l'exception de deux à zéro

Afin de vérifier d'abord le premier octets pour l'une de ces signatures. Si vous trouvez l'un d'entre eux, le retour que code identificateur de page

UInt32 GuessEncoding(byte[] XmlString)
{
   if BytesEqual(XmlString, [00, 00, $fe, $ff]) return 12001; //"utf-32BE" - Unicode UTF-32, big endian byte order
   if BytesEqual(XmlString, [$ff, $fe, 00, 00]) return 1200;  //"utf-32" - Unicode UTF-32, little endian byte order
   if BytesEqual(XmlString, [$fe, $ff, 00, 00]) throw new Exception("Nobody supports 2143 UCS-4");
   if BytesEqual(XmlString, [$fe, $ff, 00, 00]) throw new Exception("Nobody supports 3412 UCS-4");
   if BytesEqual(XmlString, [$fe, $ff])
   {
      if (XmlString[2] <> 0) && (XmlString[3] <> 0)
         return 1201;  //"unicodeFFFE" - Unicode UTF-16, big endian byte order
   }
   if BytesEqual(XmlString, [$ff, $fe])
   {
      if (XmlString[2] <> 0) && (XmlString[3] <> 0)
         return 1200;  //"utf-16" - Unicode UTF-16, little endian byte order
   }
   if BytesEqual(XmlString, [$ef, $bb, $bf])    return 65001; //"utf-8" - Unicode (UTF-8)

Ou bien chercher <?xml

Si le document XML n'a pas de Marque d'Ordre des Octets de caractères, puis vous allez à la recherche pour les cinq premiers caractères de chaque document XML doit avoir:

<?xml

Il est utile de savoir que

< est #x0000003C
? est #x0000003F

Avec qui nous avons assez de regarder les quatre premiers octets:

00 00 00 3C: UCS-4, big-endian machine (1234 ordre)
3C 00 00 00: UCS-4, little-endian machine (4321 ordre)
00 00 3C 00: UCS-4, insolite octet de commande (2143)
00 3C 00 00: UCS-4, insolite octet de commande (3412)
00 3C 00 3F: UTF-16, big-endian
3C 00 3F 00: UTF-16, little-endian
3C 3F 78 6D: UTF-8
4C 6F A7 94: certains saveur de EBCDIC

De sorte que nous pouvons ajouter de plus à notre code:

   if BytesEqual(XmlString, [00, 00, 00, $3C])    return 12001; //"utf-32BE" - Unicode UTF-32, big endian byte order
if BytesEqual(XmlString, [$3C, 00, 00, 00])    return 1200;  //"utf-32" - Unicode UTF-32, little endian byte order
if BytesEqual(XmlString, [00, 00, $3C, 00])    throw new Exception("Nobody supports 2143 UCS-4");
if BytesEqual(XmlString, [00, $3C, 00, 00])    throw new Exception("Nobody supports 3412 UCS-4");
if BytesEqual(XmlString, [00, $3C, 00, $3F])   return return 1201;  //"unicodeFFFE" - Unicode UTF-16, big endian byte order
if BytesEqual(XmlString, [$3C, 00, $3F, 00])   return 1200;  //"utf-16" - Unicode UTF-16, little endian byte order
if BytesEqual(XmlString, [$3C, $3F, $78, $6D]) return 65001; //"utf-8" - Unicode (UTF-8)
if BytesEqual(XmlString, [$4C, $6F, $A7, $94])
{
//Some variant of EBCDIC, e.g.:
//20273   IBM273  IBM EBCDIC Germany
//20277   IBM277  IBM EBCDIC Denmark-Norway
//20278   IBM278  IBM EBCDIC Finland-Sweden
//20280   IBM280  IBM EBCDIC Italy
//20284   IBM284  IBM EBCDIC Latin America-Spain
//20285   IBM285  IBM EBCDIC United Kingdom
//20290   IBM290  IBM EBCDIC Japanese Katakana Extended
//20297   IBM297  IBM EBCDIC France
//20420   IBM420  IBM EBCDIC Arabic
//20423   IBM423  IBM EBCDIC Greek
//20424   IBM424  IBM EBCDIC Hebrew
//20833   x-EBCDIC-KoreanExtended IBM EBCDIC Korean Extended
//20838   IBM-Thai    IBM EBCDIC Thai
//20866   koi8-r  Russian (KOI8-R); Cyrillic (KOI8-R)
//20871   IBM871  IBM EBCDIC Icelandic
//20880   IBM880  IBM EBCDIC Cyrillic Russian
//20905   IBM905  IBM EBCDIC Turkish
//20924   IBM00924    IBM EBCDIC Latin 1/Open System (1047 + Euro symbol)
throw new Exception("We don't support EBCDIC. Sorry");
}
//Otherwise assume UTF-8, and fail to decode it anyway
return 65001; //"utf-8" - Unicode (UTF-8)
//Any code is in the public domain. No attribution required.
}

InformationsquelleAutor Ian Boyd

Vous devez vous connecter pour publier un commentaire.