Devrait le code source soit enregistré au format UTF-8

Comment est-il important d'enregistrer votre code source au format UTF-8?

Eclipse sous Windows utilise CP1252 de codage de caractères par défaut. Le CP1251 format non les caractères UTF-8 peut être sauvé et j'ai vu cela se produire si vous copiez et coller à partir d'un document Word pour un commentaire.

La raison que je demande, c'est parce que d'habitude je configurer Maven codage pour être en format UTF-8 et récemment, il a pris un peu de non cartographiables erreurs.

(mise à jour) Veuillez ajouter toutes les raisons de le faire et pourquoi, il y a quelques pièges courants qui doivent être connus?

(mise à jour) Quel est votre objectif? Pour trouver la meilleure pratique donc quand demander pourquoi devrions-nous utiliser l'UTF-8, j'ai une bonne réponse, je n'ai pas.

Non les caractères UTF-8? Si CP1251 a vraiment, alors je préfère ne pas les avoir dans le code source.
UTF-8 peut coder TOUS les caractères que Java peut utiliser (Unicode). Ce tableau semble impliquer que chaque caractère dans CP1251 peut être mappé à un caractère Unicode. Je ne sais pas ce que "non cartographiables erreurs", sauf peut-être si Maven est à l'aide d'un interne, plus restrictif, de jeu de caractères. unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1251.TXT

InformationsquelleAutor JARC | 2010-02-01

25

Quel est votre objectif? Solde de vos besoins à la lumière des avantages et des inconvénients de ce choix.

UTF-8 pour
- permet l'utilisation de toutes les chaînes de caractères sans \uHHHH échapper
UTF-8 Contre
- à l'aide de caractères non-ASCII littéraux sans \uHHHH augmente le risque de corruption de caractères
  - de polices et le clavier questions peuvent se poser
  - besoin de documenter et de mettre en application l'utilisation de l'UTF-8 dans tous les outils (éditeurs, compilateurs construire des scripts, des outils diff)
- méfiez-vous de la marque d'ordre d'octet
ASCII Pros
- caractère/octet mappages sont partagés, par tout un éventail de codages
  - rend les fichiers source très portable
  - souvent évite le besoin de spécifier l'encodage des méta-données (étant donné que les fichiers seraient identiques si elles ont été ré-encodées en UTF-8, Windows-1252, ISO 8859-1 et la plupart des choses à court d'UTF-16 et/ou EBCDIC)
ASCII Contre
- limitée jeu de caractères
- ce n'est pas les années 1960
Remarque: ASCII 7 bits, pas de "extended" et à ne pas confondre avec Windows-1252, ISO 8859-1, ou quoi que ce soit d'autre.
- +1 Sommes bien en place 🙂 Juste l'emportent sur vous-même.
- Quel est votre objectif? Pour trouver la meilleure pratique donc quand demander pourquoi devrions-nous utiliser l'UTF-8, j'ai une bonne réponse - merci pour le post.
- +1 pour le "méfiez-vous de la marque d'ordre d'octet"
- Il y a une seule bonne raison de stocker des sources en UTF-8: si vous avez des commentaires dans une langue que les besoins des caractères non-ASCII. Pour UI/messages, les chaînes doivent être stockées dans une sorte de fichiers de ressources/les catalogues de messages. Bon internationalisation de la pratique.
- UTF-8 ne pas utiliser une marque d'ordre d'octet. Alors qu'il est possible d'utiliser plusieurs octets pour représenter un seul point de code Unicode, il n'est pas un jeu de caractères multioctets. UTF-16 utilise deux octets (ou quatre avec une mère porteuse) afin d'ordre des octets est pertinente que là. Pensez-y de cette façon. UTF-8 "consomme" un octet à la fois à partir d'un flux d'entrée, éventuellement consommer plusieurs octets dans la succession de mettre un point de code. UTF-16 consomme deux octets à la fois, de sorte que l'ordre des questions.
- Alors que son vrai que l'UTF-8 n'est pas utilisation marque d'ordre des octets, il a encore un: \uEFBBBF (oui, la marque d'ordre d'octet pour l'UTF-8 est plus de l'ordre d'octet pour l'UTF-16 en dépit d'être un NOOP). Il n'est de souligner qu'un fichier est en UTF-8 et non ASCII.
- Bon point concernant les années 1960. Il n'y a rien de mal dans les années 1960, sauf que le calcul de genre de sucé.
InformationsquelleAutor McDowell
6

Important, c'est au moins que vous avez besoin pour être cohérente avec l'encodage utilisé pour éviter les harengs. Donc non, " X " ici, il Y et Z d'ailleurs. Enregistrer le code source dans le codage de X. Définir le code d'entrée de l'encodage X. Définir le code de sortie de l'encodage X. Jeu characterbased de transfert FTP pour l'encodage X. Etc.

Aujourd'hui UTF-8 est un bon choix car il couvre tous les caractères de l'homme dans le monde est au courant et est un peu partout pris en charge. Donc, oui, je mettrais de l'espace de travail d'encodage à elle aussi. J'ai aussi de l'utiliser pour.
- Quoi de harengs? Si la source est basé sur Windows et exécuté sur *nix serait-ce une bonne raison de le définir votre encodage?
- Je suppose que ces cas sont rares, mais très possible.
- Par exemple, oui. Codage par défaut, à savoir diffère sur les deux plates-formes. Cela n'affecte pas la fonctionnalité technique de code Java en quelque sorte cependant (Java littéraux/mots clés sont déjà en partie de l'ASCII, qui est en fait la base de toutes les autres codages (attendez-vous de l'EBCDIC, mais c'est une autre histoire), mais il peut provoquer des erreurs d'entrée/sortie.
- Non, Java identifiant ne sont pas nécessairement uniquement des caractères Ascii dans le fichier. Ceci est valable int déclaration (au moins javac et eclipse accepter qu'): int é\u1212;
- Je parlais de littéraux/mots clés comme public, class, null, etc, pas sur les identificateurs.
- Désolé, j'aurais pris mon temps avant de commenter.
InformationsquelleAutor BalusC
6

Éclipse du paramètre par défaut de l'utilisation de la plate-forme de codage par défaut est une mauvaise décision à mon humble avis. J'ai trouvé nécessaire de modifier la valeur par défaut est UTF-8, peu de temps après son installation, car certains de mes fichiers source utilisés (probablement à partir d'extraits de copié/collé à partir de pages web.)

Le Langage Java et l'API spécifications exigent le support UTF-8 alors vous êtes certainement d'accord aussi loin que les outils standard de l'aller, et c'est un long temps depuis que j'ai vu un décent de l'éditeur qui ne supporte pas l'UTF-8.

Même dans des projets qui utilisent JNI, vos sources C sera normalement en US-ASCII, qui est un sous-ensemble de l'UTF-8, de façon à avoir à la fois ouvert dans le même IDE ne sera pas un problème.
- Quid des utilisateurs d'essayer de compiler leur ancienne source de fichiers avec des caractères spéciaux? L'éclipse de la décision semble être directement liée au comportement de javac, qui utilise par défaut de la plate-forme de codage par défaut.
InformationsquelleAutor finnw
2

Oui, à moins que votre compilateur/interpréteur n'est pas en mesure de travailler avec les fichiers UTF-8, il est certainement le chemin à parcourir.
- ...qui, dans javac peut être contrôlé avec -encoding argument par la voie. Bon point cependant, +1.
- "c'est certainement le chemin à parcourir", parce que ...
InformationsquelleAutor poke
2

Je ne pense pas qu'il y a vraiment une réponse positive ou négative à cette question. Je dirais que les lignes directrices suivantes devraient être utilisées pour choisir un format d'encodage, par ordre de priorité (de la plus haute à la plus basse):

1) Choisir un encodage de votre chaîne d'outil prend en charge. C'est beaucoup plus facile qu'elle ne l'habitude d'être. Même dans la mémoire récente, beaucoup de compilateurs et des langues essentiellement pris en charge uniquement des caractères ASCII, ce qui est plus ou moins forcé les développeurs dans le codage des langues d'europe Occidentale. Ces jours-ci, beaucoup de nouveaux appui aux langues des autres encodages, et presque tous les honnêtes des éditeurs et des IDEs de soutenir un considérablement longue liste d'encodages. Encore... il y a juste assez trublions que vous avez besoin de vérifier avant de vous installer sur un codage.

2) Choisir un codage qui prend en charge autant de l'alphabet que vous souhaitez utiliser que possible. Je place cela comme une priorité secondaire parce que franchement, si vos outils ne prennent pas en charge, il n'a pas vraiment d'importance si vous aimez le codage mieux ou pas.

UTF-8 est un excellent choix dans de nombreuses circonstances du monde d'aujourd'hui. C'est moche, peu élégante, mais elle permet de résoudre une multitude de problèmes (à savoir traiter avec le code existant) qui cassent les autres encodages, et il semble devenir de plus en plus la norme de facto de l'encodage des caractères. Il prend en charge tous les principaux de l'alphabet, sacrément près chaque éditeur sur la planète prend en charge maintenant, et d'une multitude de langues et les compilateurs de le soutenir, trop. Mais comme je l'ai mentionné ci-dessus, il y a juste assez héritage des récalcitrants que vous avez besoin de vérifier votre outil de la chaîne de bout en bout avant de choisir définitivement.
- Fortement en désaccord avec le "laid, inélégant," format de la partie. UTF-8 est un peu un chef d'oeuvre pour autant que je suis concerné: rétro-compatible, plus efficace en terme d'espace que la plupart des gens pensent (et oui, même pour les langues Asiatiques), peut être ramassé à mi-parcours, facilement identifiables dans la plupart des cas, ne nécessite pas une NOMENCLATURE binaire-sortable...
- Ne vous méprenez pas - compte tenu des contraintes dans lesquelles ils travaillaient, je suis assez impressionné par le format. Mais l'honnête réalité est que si nous avons été à partir de zéro aujourd'hui, nous venons d'être à l'aide d'une droite 32 ou 64 bits jeu de caractères à la fin de l'histoire. L'élégance Pure dans sa forme la plus simple.
- Vraiment vous ne devriez PAS choisir un encodage autre que UTF-8 ou ASCII. UTF-8 prend en charge tous les Java caractères (c'est important). ASCII n'est pas, mais est portable partout. Tout autre choix pour l'encodage est susceptible d'être un problème quelque part le long de la ligne.
InformationsquelleAutor Russell Newquist

Vous devez vous connecter pour publier un commentaire.