Fichier XML format d'encodage “utf-8” VS “UTF-8”?
Lorsque le fichier XML a été de convertir au format ASCII. Il est des valeurs différentes pour l'utilisateur, les trois personnages de utf
et UTF
.
<?xml version="1.0" encoding="utf-8"?>
<?xml version="1.0" encoding="UTF-8"?>
J'ai essayé de créer un nouveau fichier xml avec vs2005. utf-8
forme de fichier généré par défaut.
qui est un plus à la définition standard? merci.
- Depuis les minuscules sont plus fréquentes,
utf-8
prendra probablement très légèrement moins d'espace lors de la compression. - Oui, minuscules compresse mieux encode.ru/threads/...
Vous devez vous connecter pour publier un commentaire.
La L'IANA de caractères de la base de registre dit:
Mais cette page, la spécification XML, et unicode.org sont conformes à tirer parti de l'UTF-8.
charset utf-8 uppercase|lowercase bug|solved
tourne tout à fait un certain nombre de corrections de rapports qui ont été résolus/contournée en utilisant des majusculesUTF-8
alors que je n'ai pas trouvé rapports (dans un délai d'un soir de googler ce sujet) où un problème peut être résolu en changeant majuscules en minuscules. Affligé logiciel inclus Apache xerces (MacOS X), jsp, jetty (rupture AWS S3 signatures, voir: github.com/golang/go/issues/19430) et de nombreux autres. Sur cette base on pourrait faire un argument que les majuscules UTF-8 charset jouit d'une meilleure compatibilité (surtout avec les anciens outils).De la Spécification XML:
"Les processeurs XML DOIVENT correspondre à l'encodage des caractères dans les noms de la casse manière"
Cela indique que vous pouvez utiliser des majuscules ou en minuscules ou même mélangés les cas, si vous le souhaitez. Toutefois, la spécification utilise "UTF-8" dans tous ses exemples afin que, pour plus de cohérence, j'irais avec ça.
Pour ceux qui sont intéressés par les détails techniques - y compris des liens vers certaines des normes et des précédents - j'ai écrit un billet il y a quelques années à propos de La casse des caractères UTF-8 dans les Déclarations XML.
Dans mon expérience (qui est principalement avec .NET), le jeu de caractères identificateurs sont traités comme insensible à la casse, donc
UTF-8
etutf-8
, ainsi queUtf-8
ou toute autre variation de celle-ci, toujours la même chose. Ce serait également le cas pour d'autres jeux de caractères, tels queISO-8859-1
(Latin 1), etc. Le boîtier ne devrait pas d'importance, comme l'affaire n'est pas un meaninful facteur dans une telle identification.Je n'en étroite collaboration avec les services web à travers de multiples plates-formes, et je n'ai jamais vraiment vu une forme "standard" utilisé. J'ai vu toutes les variations de l'une variété de jeux de caractères...souvent différentes variations à partir d'un seul partenaire.
Majuscule) est le standard de facto. Il doit toujours fonctionner avec n'importe quelle combinaison des cas, cependant.