Pourquoi l'exécution de code Java dans les commentaires avec certains caractères Unicode-ils autorisés?

Le code suivant génère la sortie "Bonjour le Monde!" (non, vraiment, essayez).

public static void main(String... args) {

   //The comment below is not a typo.
   //\u000d System.out.println("Hello World!");
}

La raison pour cela est que le compilateur Java analyse le caractère Unicode \u000d comme une nouvelle ligne et se transforme en:

public static void main(String... args) {

   //The comment below is not a typo.
   //
   System.out.println("Hello World!");
}

Résultant ainsi en un commentaire d'être "exécuté".

Car il peut être utilisé pour "masquer" le code malveillant ou que ce soit un mauvais programmeur la possibilité de concevoir, pourquoi est-il permis, dans les commentaires?

Pourquoi est-ce autorisé par les spécifications de Java?

"Pourquoi est-ce autorisé" semble être trop opinion de moi. La langue concepteurs pris une décision, quoi d'autre est-il besoin de le savoir? Sauf si vous trouvez une déclaration de la personne qui fait de cette décision, nous ne pouvons que spéculer.
Bien qu'étrange, je ne vois pas cela comme un problème réel. Les utilisateurs normaux ne savent pas la différence entre le code caché dans un commentaire et régulière code pour eux, il n'a pas d'importance. Ensuite, il pourrait être un membre de l'équipe de cacher le code des autres membres, mais les développeurs vont réagir en voyant un étrange commentaire comme celui-ci, et de le supprimer ou étudier. Si c'était pour passer à travers et mis en usage, un VCS va vous dire la personne qui l'a fait, donc on peut attraper.
\u000d signifie ASCII 0x0D, \n, New Line
Une chose intéressante, c'est au moins que OP IDE évidemment est faux et affiche une coloration incorrecte,
C'est expliqué dans la question. L'OP est de se demander pourquoi dans la section des commentaires, il est également traduite \n.
Peut-être liés: stackoverflow.com/questions/4448180/...
Oui, la réponse faisant autorité ne peut venir que de créateurs. Cependant, il peut y avoir de l'information quelque part sur pourquoi cela a été fait (compatibilité, la limitation des outils, etc.), donc il est responsable.
cela ne convient pas pour une bonne cause ou pour une question comme par AFIN de normes.Si vous voyez de près le 1er vote de proximité a été fait par tjcrowder qui est d'avoir 360,349 reps
'cause caractère de saut de ligne est également autorisé ... je l'avais testé avec c++ et c#, ces langues sont skiping les lignes après la lecture de // mais java semble analyse la ligne complète et interpréter le code de saut de ligne char.
Mais les concepteurs de Java visitez DONC il est donc possible d'obtenir des réponses par l'un d'eux. Ils peuvent aussi existent des ressources qui déjà répondre à cette question.
Je ne sais pas pour vous, mais je soupçonne que c'est juste un effet secondaire de la décision générale pour traiter unidoce caractères à l'intérieur de commentaires. Peut-être afin de permettre les commentaires de code en langues étrangères, ou avec de la mathématique grecque signes. Personnellement, je préfère l'éviter... (javadoc peut-être une exception, mais ensuite je n'ai pas besoin de cette fonction parce que le HTML a son propre support pour les caractères spéciaux).
stackoverflow.com/questions/3866187/... exemple amusant
Unicode d'échappement partout et sont toujours analysées avant tout le reste. L'intention est que tout fichier source peut être converti en équivalent fichier contenant uniquement des caractères ASCII.
Connexes: stackoverflow.com/q/13116648/319403
C'est également affiché comme un commentaire dans Eclipse, donc, connaissez-vous une IDE qui n' pas l'afficher comme un commentaire?
Netbeans (au moins dans la version 8.0.2) se termine le commentaire après l'echappé Unicode retour à la ligne, montrant la println() comme du code. Il montre également le même comportement que le compilateur pour l'échappé de début de commentaire le code de stackoverflow.com/questions/4448180/...
Cela signifie également que les invalides Unicode s'échappe dans les commentaires de provoquer des erreurs de compilation (comme un chemin d'accès windows continue \users), ce qui peut être gênant.
Les OP n'ont pas fait mention de son IDE affiche que le code. La seule chose, en soulignant que nous pouvons dire à partir de texte de la question est que le code Java surligneur ici, DONC s'il se trompe.
Ce que vous montrez est un bug dans l'IDE. Il est parfaitement valable code. Que l'IDE ne pas MONTRER que le code est le bug. IDEs faut arrêter de croire les compilateurs ne sont pas conscients de l'unicode.
ce qui fait de vous tirer la conclusion que c'est un bug dans l'OP de l'IDE? (Comment savez-vous OP est d'utiliser un IDE?)
La réponse simple est que le code n'est pas dans un commentaire à tous, par les règles de la langue, de sorte que la question est mal formé.
Eclipse Luna se termine le commentaire après l'unicoded retour chariot. Son comportement par défaut est de "résoudre" le caractère unicode lors de l'enregistrement du document, de sorte que tout le code écrit dans un commentaire après une unicode retour chariot sera fait de montrer à l'extérieur de la ligne de commentaire.
peut-être en utilisant le terme IDE est présomptueux. L'erreur est dans l'éditeur/IDE/ou de la perception de l'utilisateur de la "ligne" et "déclaration". La perception de l'utilisateur d'un relevé actif peut être considérablement améliorée par l'utilisation d'une syntaxe conscient de l'éditeur. Si la syntaxe de conscience de l'éditeur de ne pas gérer correctement un aspect de la prise en charge syntaxe du langage, l'outil est dans l'erreur, vis-a-vis, c'est un bug.
C'est DONC de la coloration syntaxique, bien sûr, ne sait pas qu'elle ne traite qu'avec Java. C'est un "jack of all trades", et il est lié à la promenade sur le bord des cas.
Avoir une quantité massive de rep comme ça ne signifie pas qu'ils ont un avis autorisé que tout le monde devrait suivre. Bien que le libellé de la question qui peut changer (le"pourquoi" est très opiniâtre) je pense que c'est vraiment un très bon sujet, et je suis très content que ça été apportée jusqu'ici.
Un raisonnablement intelligent malfaiteur aurait assurez-vous qu'il ressemblait à une partie du commentaire. Ne devrait pas être difficile de le faire paraître innocent.
En supposant que ce n'est pas un bug du compilateur, je dirais que c'est une grave et choquant faille dans la spec. Employés malveillants existent, et ils sont assez dangereux sans la langue en les aidant à ce point.
Vous pouvez réellement commentaire de l'ensemble de la classe avec ce truc et il fonctionne toujours!
La question du titre semble être faux pour moi. L' \u000d personnage est dans ce cas de résiliation du commentaire, donc le code n'est pas dans un commentaire à tous. C'est aussi absurde que de demander ton le compilateur analyse le caractère de saut de ligne à la fin du commentaire, plutôt que d'aller à l'infini. En fin de compte ce défaut provient du défaut inhérent de faire des commentaires de la ligne de base dans un non la ligne de base de la langue.
C'est l'ensemble de la prémisse de la question, n'est-ce pas?
Shameless plug: Vous pouvez jouer avec cela à l': obfuscat.ion.la terre
\u000d est le retour chariot; \u000a serait le retour à la ligne. L'un d'eux termine le // commentaire.
Double Possible de unicode caractère de saut de ligne(\u000d) en Java
Je vais voter pour fermer cette question hors-sujet, car la question est sur la langue, de la conception, pas de programmation à proprement parler.
Je vais voter pour fermer cette question hors-sujet, car l'erreur ne peut pas être recréé. Le code n'est pas un commentaire, cependant, l'IDE de l'OP choses, il est, mais que c'est un bug dans l'IDE et a peu à voir avec le fait que vous pouvez exécuter du code dans un commentaire
Pourquoi le compilateur accepte \u-séquences à l'extérieur de la chaîne/les chaînes de caractères? Ainsi, au premier coup d'œil, il semblait être une bonne idée. Avec le recul, nous pouvons dire qu'il n'était pas une bonne idée, mais il est trop tard. (Remarque: il existe de nombreuses mentions de "IDE" dans les commentaires, mais la question n'a rien à voir avec une quelconque "IDE".)
Le point de permettre à de code UTF-16 unité s'échappe est de soutenir tous les valide Java identificateurs (esp. les noms de classe) dans un fichier source avec un encodage de caractère qui ne l'est pas.

InformationsquelleAutor Reg | 2015-06-09

729

Unicode décodage prend place avant les autres lexical de la traduction. Le principal avantage de cela est qu'il est trivial de faire l'aller-retour entre ASCII et un autre codage. Vous n'avez même pas besoin de savoir où les commentaires de début et de fin!

Comme indiqué dans JLS Section 3.3 cela permet à tout basé sur le code ASCII outil pour traiter les fichiers source:

[...] Le langage de programmation Java spécifie une méthode standard de la transformation d'un programme écrit en Unicode en ASCII qui change un programme dans un formulaire qui peut être traitée par le code ASCII d'outils. [...]

Cela donne une garantie fondamentale pour l'indépendance de plate-forme (indépendance de prise en charge des jeux de caractères) qui a toujours été un objectif majeur pour la plate-forme Java.

Être capable d'écrire n'importe quel caractère Unicode n'importe où dans le fichier est une fonction propre, et particulièrement important dans les commentaires, lors de la fixation de code dans des langues non latines. Le fait qu'il peut interférer avec la sémantique de telle manière subtile est juste une (malheureuse) d'effets secondaires.

Il y a de nombreux pièges sur ce thème et Java casse-têtes par Joshua Bloch et Neal Gafter inclus la variante suivante:
Est-ce légal programme Java? Si oui, que faut-il imprimer?
```
\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020
\u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079
\u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020
\u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063
\u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028
\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020
\u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b
\u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074
\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020
\u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b
\u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d
```
(Ce programme s'avère être un simple "Hello World" du programme.)

Dans la solution à la devinette, ils soulignent:

Plus sérieusement, ce casse-tête sert à renforcer les leçons des trois précédents: Unicode fuites sont essentielles lorsque vous avez besoin d'insérer des caractères qui ne peuvent pas être représentés de toute autre manière dans votre programme. Éviter dans tous les autres cas.

Source: Java: Exécution de code dans les commentaires?!
- Bref ensuite, Java intentionnellement le permet: le "bug" est dans le cas des OP IDE?
- C'est plus dans la tête des gens. Les gens n'essayez pas de comprendre comment Java analyse des œuvres, de sorte IDEs parfois afficher le code dans un mauvais sens. Dans l'exemple ci-dessus, le commentaire devrait se terminer avec \u000d et la partie après il devrait avoir le code de faits saillants.
- Une autre erreur commune est de coller des Fenêtres chemins d'accès dans le code comme // C:\user\... ce qui conduit à une erreur de compilation puisque \user n'est pas valide séquence d'échappement Unicode.
- Je comprends introduction de caractères unicode, mais pas tellement pourquoi il est permis, dans les commentaires?
- Dans eclipse le Code après \u000d est mis en évidence en partie. Après avoir appuyé sur Ctrl+Maj+F le personnage est remplacée par la nouvelle ligne et le reste de la ligne est emballé
- Donc.. c'est lié à la façon dont le compilateur traite les fichiers de code source?. Ce problème ne peut pas être reproduit lorsque nous utilisons bloquer les commentaires au lieu d'une seule ligne de commentaires
- il existe de nombreuses caractéristiques de la langue qui n'a pas de sens en conjonction avec d'autres fonctions de la langue. Dans ce cas, la langue concepteurs de mettre l'échappement unicode manipulation avant de l'analyseur, et d'être en mesure d'utiliser unicode s'échappe dans les commentaires était tout simplement une (peut-être malheureux) effet secondaire.
- Alors que je suis d'accord avec la réponse de @aioobe que le code source est valide et que le problème est plutôt dans l'IDE (et le code source de surligneur sur StackOverflow), veuillez noter qu'il y a un autre "problème" avec le code. Le caractère CR entré en tant que séquence d'échappement unicode est interprété comme un bon début d'une nouvelle ligne, mais le nombre de ligne n'est pas incrémenté.
- les commentaires sont ignorés tout le chemin vers le prochain caractère de nouvelle ligne. \u000d est interprété comme un caractère de nouvelle ligne.
- Si je comprends bien la réponse est correcte, vous devriez être en mesure de reproduire ce avec bloc de commentaires. \u002A/ devrait mettre fin à la commenter.
- wow, \u002A/ est vraiment mal, éclipse totalement ne parvient pas à analyser. Mettre le code entre /*\u002A/ et /\u002a*/ et il est complètement caché comme commentaire. Trouvé ce que bug 3533
- Notez que cela aurait pu être évité complètement si la spécification du langage avait interdit l'utilisation de \u notation pour représenter quoi que ce soit représentable en ASCII.
- bon point, bien fait. À tout le moins, cela devrait être à un Niveau de 1 Avertissement du Compilateur.
- Qu'allait-il faire en sorte que si vous êtes sur un ordinateur qui n'utilise pas de l'ASCII, alors il y a beaucoup de personnages que vous ne pouvez pas saisir, tels que des Mainframes IBM qui utilisent EBCDIC, qui n'a pas d'accolades.
- Avez-vous réellement avoir à l'esprit un tel personnage?
- Oui, des accolades. {}
- Wikipédia prétend qu'ils sont à des postes de C0 et D0 en EBCDIC. Il semble assez ridicule de s'attendre à des programmeurs d'utiliser \u échappe pour quelque chose d'aussi omniprésents que les accolades...
- Un rapide coup d'œil montre que vous êtes de droite. Mais il contient aussi de la "Portabilité est entravée par un manque de beaucoup de symboles couramment utilisés dans la programmation et dans les communications réseau, tels que les accolades." et "Il existe au moins six mutuellement des versions incompatibles". Je suppose que ça doit être une version différente.
- On n'aurait pas à interdire tout en ASCII si l'on devait préciser que la première étape de compilation est de la subdivision en lignes, et tous les caractères de nouvelle ligne qui introduit après qui seront traitées comme-est, tels que string st="Hello\u000D\u000Athere" serait de générer des douze chaîne de caractères contenant un retour chariot et une nouvelle ligne.
- Si jamais quelqu'un est sceptique et que vous souhaitez tester le programme "hello world", la classe devrait être nommé "Ugly.java". Il y a d'autres drôles de chose qui peut être causé par ce... Par exemple, insérer LRM de caractère vous permettra de compiler du code tel que for (char c‮ = 1; c‮ > 0; c‮++)
- Peut-on l'appeler commentaire de la journée, même si il a été posté de 8 jours ? :/
InformationsquelleAutor aioobe
138

Depuis, il n'a pas encore été examinés, ici une explication, pourquoi la traduction de l'Unicode des évasions qui se passe avant tout autre code source de traitement:

L'idée derrière cela est qu'il permet lossless traductions de code source Java entre les différents encodages de caractères. Aujourd'hui, il existe un large support de l'Unicode, et ça ne ressemble pas à un problème, mais à l'époque, il n'était pas facile pour un développeur d'un pays occidental à recevoir certains le code source de ses collègues Asiatiques contenant des caractères Asiatiques, apporter des modifications (y compris la compilation et les tests) et d'envoyer le résultat à l'arrière, tous sans endommager quelque chose.

Ainsi, le code source de Java peut être écrit dans n'importe quel encodage et permet un large éventail de caractères à l'intérieur d'identifiants, de caractère et de String littéraux et les commentaires. Puis, afin de les transférer sans perte, tous les caractères non pris en charge par la cible de codage sont remplacés par leur Unicode échappe.

C'est un processus réversible et le point intéressant est que la traduction peut être faite par un outil qui n'a pas besoin de savoir quelque chose sur le code source Java syntaxe que la traduction de la règle n'est pas dépendant de lui. Cela fonctionne de la traduction à leurs caractères Unicode à l'intérieur du compilateur qui se passe de manière indépendante pour le code source Java syntaxe. Cela implique que vous pouvez effectuer un nombre arbitraire de pas de traduction dans les deux sens sans jamais en modifier la signification du code source.

C'est la raison pour une autre bizarre fonctionnalité qui n'a même pas été mentionné: le \uuuuuuxxxx syntaxe:

Lorsqu'un outil de traduction est d'échapper les caractères et de rencontres, une séquence qui est déjà évadé de la séquence, il doit insérer un u dans la séquence, la conversion de \ucafe à \uucafe. Le sens ne change pas, mais lors de la conversion dans l'autre sens, l'outil doit juste enlever un u et de ne remplacer que les séquences contenant un seul u par leurs caractères Unicode. De cette façon, même Unicode évasions sont conservés dans leur forme originale lors de la conversion d'avant en arrière. Je suppose, personne n'a jamais utilisé cette fonctionnalité...
- Il est intéressant de noter, native2ascii ne semble pas utiliser le \uu...xxxx syntaxe,
- Ouais, native2ascii était destiné à contribuer à la préparation des offres de ressources en les convertissant en iso-latin-1, tel que Properties.load a été fixé à lire en latin-1 seulement. Et là, les règles sont différentes, pas de \uuu… syntaxe et aucun début de l'étape de traitement. Dans les fichiers de propriétés, property=multi\u000aline est en effet le même que property=multi\nline. (Contredisant le membre de phrase “à l'aide d'Unicode s'échappe tel que défini à la section 3.3 de La Java™ Spécification de Langage” de la documentation)
- Notez que cet objectif aurait pu être atteint sans des verrues; la façon la plus simple aurait été d'interdire \u échappe à produire les caractères U+0000–007F gamme. (Tous ces caractères peuvent être représentés de façon native par tous les nationaux que les codages ont été pertinents dans les années 1990—eh bien, peut-être à l'exception de certains des caractères de contrôle, mais vous n'avez pas besoin d'écrire de Java, de toute façon.)
- eh bien, si vous excluez les caractères de contrôle qui ne sont pas autorisés dans le code source Java de toute façon, vous avez raison. Néanmoins, cela impliquerait l'élaboration de règles plus complexes. Et aujourd'hui, il est trop tard pour discuter de la décision...
- ah le problème de l'enregistrement d'un document en utf8 et non latine ou quelque chose d'autre. Toutes mes bases de données ont été brisées ainsi à cause de ce western de bêtises
InformationsquelleAutor Holger
104

Je vais complètement inefficace ajouter le point, juste parce que je ne peux pas m'en empêcher et je n'en ai pas vu encore, que la question n'est pas valide car il contient un caché, postulat qui est faux, à savoir que le code est dans un commentaire!

Dans le code source de Java \u000d est équivalent dans tous les sens pour un ASCII caractère CR. C'est une fin de ligne, simple et clair, partout où il se produit. La mise en forme de la question est trompeuse, en ce que la séquence de caractères effectivement du point de vue syntaxique correspond est:
```
public static void main(String... args) {
   //The comment below is no typo. 
   //
 System.out.println("Hello World!");
}
```
À mon humble avis le plus de la réponse correcte est donc: le code s'exécute, car il n'est pas dans un commentaire, c'est sur la ligne suivante. "L'exécution de code dans les commentaires" n'est pas autorisé en Java, tout comme vous pouvez attendre.

Grande partie de la confusion vient du fait que la syntaxe de surligneurs et IDEs ne sont pas assez sophistiqués pour tenir compte de cette situation. Ils ne traitent pas l'unicode échappe à tous, ou ils le font après l'analyse du code au lieu de l'avant, comme javac n'.
- Je suis d'accord, ce n'est pas un java "erreur de conception" , mais c'est un IDE bug.
- La question est surtout de savoir pourquoi le code que regarde comme un commentaire de quelqu'un qui ne connaissent pas cet aspect particulier de la langue et peut-être sans référence à la coloration syntaxique, est en fait pas un commentaire. S'opposer sur la base de la prémisse de la question est non valide n'est pas sincère.
- il ne regarde que comme un commentaire lors de l'affichage avec des outils particuliers, d'autres, c'est le contraire.
- il ne faut pas pour pour avoir quelque chose de plus qu'un éditeur de texte pour lire le code. À tout le moins, il viole le principe des moindres surprise, à savoir que // les commentaires de style, continuer jusqu'à la prochaine caractère \n - pas de n'importe quel autre séquence qui est finalement remplacé par les \n par la suite. Les commentaires sont jamais attendu à autre chose que dépouillé. Mauvais préprocesseur.
InformationsquelleAutor Pepijn Schmitz
65

La \u000d échapper termine un commentaire parce que \u les fuites sont uniformément converti à la correspondante de caractères Unicode avant le programme est sous forme de jeton. Vous pourriez également utiliser \u0057\u0057 au lieu de // à commencer un commentaire.

C'est un bug dans votre IDE, qui devrait de la syntaxe en surbrillance la ligne à, il est clair que la \u000d se termine le commentaire.

C'est aussi une erreur de conception dans la langue. Il ne peut pas être corrigé maintenant, parce que ce serait briser les programmes qui en dépendent. \u échappe devrait être converti à caractère Unicode correspondant par le compilateur seulement dans des contextes où les qui "fait sens" (chaîne de caractères littéraux et les identifiants, et probablement nulle part ailleurs) ou qu'ils doivent avoir été interdit de produire les caractères U+0000–007F gamme, ou les deux. L'une de ces sémantique aurait empêché le commentaire ne soit interrompue par la \u000d échapper, sans interférer avec les cas où \u d'échappement utile de noter que cette comprend utilisation de \u échappe à l'intérieur des commentaires comme une façon d'encoder les commentaires dans un non-latins, parce que l'éditeur de texte pourrait prendre une vue plus large de l'endroit où \u les fuites sont importantes que le compilateur ne. (Je ne suis pas au courant de tout éditeur ou IDE qui permettra d'afficher \u s'échappe comme les caractères correspondants dans tout contexte, cependant).

Il y a une semblable erreur de conception dans le C de la famille,¹ où backslash-retour à la ligne est traitée avant le commentaire limites sont définies, si par exemple la
```
//this is a comment \
   this is still in the comment!
```
Je soulève cette question pour illustrer que c'est facile de faire cette erreur de conception, et ne pas réaliser que c'est une erreur, jusqu'à ce qu'il soit trop tard pour le corriger, si vous êtes habitué à la réflexion sur la segmentation et l'analyse de la façon dont le compilateur les programmeurs pensent la segmentation et l'analyse. En gros, si vous avez déjà défini votre grammaire formelle et puis quelqu'un arrive avec un syntaxiques cas particulier — trigraphs, barre oblique inverse-saut de ligne, le codage arbitraire de caractères Unicode dans les fichiers source limitée au format ASCII, ce qui doit être calé dans, il est plus facile d'ajouter une transformation passer avant le tokenizer que c'est de redéfinir le tokenizer de prêter attention à l'endroit où il est logique d'utiliser ce cas particulier.

¹ Pour les pédants: je suis conscient que cet aspect de la C était de 100% intentionnelle, avec justification à l'appui — que je ne fais pas ce que ça permettrait de mécanique de la force de l'ajustement de code avec arbitrairement long des lignes sur des cartes perforées. C'est encore une erreur de conception de décision.
- Je n'irais pas jusqu'à dire que c'est une conception erreur. Je pourrais d'accord avec vous que c'était un mauvais choix de conception, ou un choix avec des conséquences malheureuses, mais je pense que ça fonctionne comme la langue des designers prévu: Il vous permet d'utiliser tout caractère unicode n'importe où dans le fichier, tout en conservant le codage ASCII du fichier.
- Je pense que si le raisonnement était comme indiqué, puis antislash suivi par certains autres caractères (par exemple,!) devrait avoir indiqué que le reste de la ligne physique doit être ignorée, et le premier caractère de la ligne suivante doit être considérée comme directement suivant le caractère avant la barre oblique inverse. Qui permettrait \! à coups de poing dans les colonnes 71-72, laissant les huit colonnes disponibles pour les numéros de séquence. Dans certains contextes, le marqueur-bande truc pourrait réduire la nécessité lisibles par machine pour les numéros, mais je ne pense pas qu'il serait l'éliminer.
- Cela dit, je pense que le choix de l'étape de traitement pour \u est moins absurde que la décision de suivre C du plomb dans l'aide de zéros pour la notation octale. Tout en octal notation est parfois utile, je n'ai pas encore entends quelqu'un qui s'articulent autour d'un argument pourquoi un zéro est une bonne façon de le mentionner.
- Les gens qui ont lancé cette fonctionnalité en C89 ont été de généraliser le comportement de l'original K&R préprocesseur plutôt que de concevoir une fonction à partir de zéro. Je doute qu'ils étaient familiers avec les coups de poing de la carte de meilleures pratiques, et je doute aussi que la fonction jamais été utilisés aux fins prévues, sauf peut-être pour une ou deux retrocomputing exercices.
- Je n'aurais pas un problème avec Java \u que la pré-segmentation en unités de transformation si il était interdit de produire des caractères U+0000..U+007F gamme. C'est la combinaison de "cela fonctionne partout" et "cet alias de caractères ASCII avec syntaxique signification" qui rétrograde à partir maladroit de flat-out faux.
- Je pourrais aller avec ce que, si, en général, je ne suis pas un grand fan de la façon dont les langues de l'approche non-ASCII identifiants. Depuis Unicode comprend beaucoup de homoglyphs, et les langues qui permettent Unicode identificateurs imposent souvent des restrictions minimales sur leur utilisation, il est excessivement difficile de produire une liste de programme lisible par l'être humain, mais sémantiquement ambiguë.
- Ouais, même Unicode propres recommandations sur la façon de faire des identificateurs dans les langages de programmation sont trop loosey goosey pour moi d'être à l'aise avec.
- Personnellement, je pense que les langages de programmation doit définir serré et lâche des critères de correspondance, et exigent que les identificateurs doivent correspondre étroitement à être considéré comme une correspondance, mais devrait l'ombre de tous les identifiants qui correspondent vaguement (une telle règle devrait s'appliquer aux majuscules/minuscules en ASCII, mais aussi dans de nombreux Unicode scénarios). Ainsi, si Foo est définie à l'extérieur de son contexte et foo est définie dans un intérieur, puis à l'intérieur de la contexte foo ferait référence à la dernière identifiant et Foo serait une erreur de syntaxe. L'application d'une telle règle de homoglyphs, mais avec un moyen de la contourner dans des cas particuliers...
- ...(par exemple, indiquer explicitement au compilateur "je veux identificateurs foo et Foo, ou Χ et X, à la fois d'être accessible ici), permettrait de se prémunir contre beaucoup de situations ambiguës.
- aujourd'hui, IDEs le faire. Le “lâche critères de correspondance” est souvent constitué d'une seule lettre, puis l'IDE remplit les autres personnages pour en faire un “serré critères de correspondance” et je ne pense pas que les compilateurs doivent toujours composer avec les “lâche critères de correspondance”. I. e, je n'ai pas l'habitude d'un compilateur qui est heureuse de se résout apparition de i à I et quand quelqu'un compile sur un turc locale, i est soudain résolu à İ...
- En vertu des règles que j'aimerais voir, dans un champ où Six a été défini, les identifiants six, SİX, Sıx, etc. ne serait pas utilisable, même si elles existaient dans des étendues extérieures. Les Collisions peuvent entraîner des erreurs de syntaxe qui nécessitent un explicite "distinguer ces identifiants" directive, mais ne pouvait pas changer le sens de code qui toujours compilé.
- Sur votre "pour les pédants": bien sûr, à ce moment, le // commentaire sur une seule ligne n'existe pas. Et depuis C est un terminateur d'instruction qui n'est pas une nouvelle ligne, il serait principalement utilisé pour les longues chaînes, sauf que, autant que je puisse en déterminer la "chaîne de caractères littérale de concaténation de" est il y a de K&R.
InformationsquelleAutor zwol
21

C'était intentionnel choix de conception qui va tout le chemin du retour à l'origine de la conception de Java.

À ces gens qui demandent "qui veut Unicode s'échappe dans les commentaires?", Je présume qu'ils sont des gens dont la langue maternelle utilise les caractères latins. En d'autres termes, il est inhérent à la conception originale de Java que les gens pourraient utiliser arbitraire de caractères Unicode où juridique dans un programme Java, le plus souvent dans les commentaires et les chaînes de caractères.

C'est sans doute une lacune dans les programmes (comme Ide) utilisée pour afficher le texte source que de tels programmes ne peuvent pas interpréter l'Unicode s'échappe et afficher le glyphe.
- De nos jours, nous utilisons de l'UTF-8 pour notre code source, et peut utiliser les caractères Unicode directement, pas besoin de s'échappe.
InformationsquelleAutor Jonathan Gibbons
20

Je suis d'accord avec @zwol que ceci est une erreur; mais je suis encore plus critique.

\u escape est utile dans le string et char littéraux; et c'est le seul endroit où il devrait exister. Il devrait être traité de la même manière que les autres s'échappe comme \n; et "\u000A" devrait dire exactement "\n".

Il n'y a absolument aucun point d'avoir \uxxxx dans les commentaires - personne ne peut le lire.

De même, il n'y a aucun point de l'utilisation de \uxxxx dans l'autre partie du programme. La seule exception est probablement dans les Api publiques qui sont contraints à contenir certaines non-ascii les caractères - quelle est la dernière fois que nous avons vu que?

Les concepteurs avaient leurs raisons en 1995, mais 20 ans plus tard, ce qui semble être un mauvais choix.

(question pour les lecteurs - pourquoi cette question reçois des nouvelles des votes? cette question est liée à partir de quelque part populaire?)
- Je suppose que vous n'êtes pas traîner, où les caractères non-ASCII sont utilisés dans les Api. Il y a des gens à l'utiliser (pas moi), par exemple, dans les pays Asiatiques. Et quand vous utilisez des caractères non-ASCII dans les identifiants, leur interdisant dans les commentaires de la documentation n'a guère de sens. Néanmoins, leur permettant l'intérieur d'un jeton et leur permettant de changer le sens ou la limite d'un jeton sont des choses différentes.
- ils peuvent utiliser un encodage de fichier. pourquoi écrire int \u5431 quand vous pouvez faire int 整
- Qu'allez-vous faire si vous ont pour compiler le code à l'encontre de leur API et ne peut pas utiliser le bon encodage (à supposer qu'il n'était pas répandue UTF-8 soutien en 1995). Vous avez juste à appeler une méthode et ne souhaitez pas installer le support des langues Asiatiques pack de votre système d'exploitation (rappelez-vous, les années nonante) pour cette seule méthode...
- Est-ce un scénario fictif? Je ne pense pas qu'il se passe dans le monde réel.
- Ce serait encore pire si des caractères arbitraires ont été autorisés dans des identifiants, mais dans le même temps, l'accès à ces identifiants à partir de certains endroits étaient impossibles. Lors de la conception d'une langue, vous devez décider. Je peux vivre avec une langue de restreindre les symboles ASCII comme je vois les problèmes localisés de code source. Mais je suis aussi un utilisateur actif du tout-anglais stackoverflow site, j'ai donc (et probablement vous aussi) a un parti pris. Nous connaissons la valeur de parler avec d'autres personnes (sur un site international) sur le code. En passant, j'ai laissé une réponse expliquant l'intention originale (afair)...
- Ce qui est beaucoup plus clair maintenant que 1995 est que vous savez mieux l'anglais si vous voulez programmer. La programmation est une interaction internationale, et presque toutes les ressources sont en anglais.
- non-ASCII dans les identificateurs est une autre boîte de pandore, car il est non seulement non-alphanumériques ASCII, mais il comprend aussi beaucoup, y compris des codes de commande: stackoverflow.com/questions/4838507/...
- Je ne pense pas que cela a changé. Java de la documentation est en anglais la plupart du temps ainsi. Il y avait une traduction en Japonais maintenu pendant un certain temps, mais le maintien de deux langues n'a pas vraiment de retour à l'idée de le maintenir pour tous les lieux du monde (plutôt réfutées il). Et avant cela, il n'y avait pas de langue dominante avec support de l'Unicode dans les identificateurs de toute façon. Donc, je pense, quelqu'un pensée qui localisée code source était la prochaine grande chose. Je dirais heureusement, il n'a pas décoller.
- ouais, j'aime ce que vous pouvez faire avec incorporés de droite à gauche écrit, mais aussi des choses aussi simple que le fait que ä et ä sont des identifiants différents (parce que l'on est U+0061U+0308 et les autres U+00E4).
- RTL lui-même peut aussi être source de confusion. Il y a une question à laquelle je ne trouve pas en ce moment où l'OP a été d'essayer de correspondre à une sous-chaîne d'une chaîne: les arguments ont été inversés.
- vous pensez probablement %n dans format(). \n signifie exactement le caractère 0x0a, voir docs.oracle.com/javase/specs/jls/se8/html/jls-3.html#jls-3.10.6
- J'ai l'impression que unicode pourrait être valable dans un commentaire... plus précisément une documentation commentaire /** ... */ avec une description qui sera généré en HTML (javadoc page; maintenant, dans ce cas, je serais probablement toujours utiliser un littéral de saut de ligne en plus de cela, et pour une documentation commentaire, il ne serait pas souffrir de ce problème, à moins que j'ai eu les caractères unicode pour les DEUX * et / dans le commentaire directement après l'un de l'autre parce que de documenter les commentaires ne sont pas terminées par un seul caractère de nouvelle ligne.
- bon point. cependant, nous pouvons utiliser des fichiers xml s'échapper il - ⪹ -> ⪹
- Que suis-je censé faire quand je dois modéliser quelque chose qui n'a pas un nom anglais? C'est assez commun, si jamais vous traiter avec des domaines comme le droit ou l'entreprise ou similaires qui manquent de ces choses. En particulier dans les domaines juridiques, les mots ont un sens très précis. Imaginez si l'alphabet standard n'ont pas de C, X ou Q. Maintenant, vous avez une classe appelée "KommonLaw" ou quelque chose. Vous voulez utiliser le 'C'. Dans votre monde, c'est faux. Mais que faire si KommonLaw veut dire autre chose. Maintenant ce qui? Vous feriez à un certain point, essayez d'utiliser une langue qui vous permettent d'utiliser " C " au lieu de cela, probablement.
- ne pouvez-vous pas utiliser le caractère directement, au lieu de la séquence d'échappement, par exemple class Løtveit au lieu de class L\u00D8tveit
- Qui fonctionne très bien pour moi, mais alors vous devez écrire "nouvelle Løe()" quelque part, et vous auriez probablement obtenir vraiment fatigué de copypasting 'ø réel bientôt. Vous permettant de sub \u00D8 ces lieux serait probablement plus facile sur votre santé mentale. (Ou si vous voulez juste utiliser le IBM international de mise en page, mais c'est parce qu'il prend en charge la plupart de l'europe occidentale caractères. Mais ensuite il y a le Pinyin, etc.)
- Je n'ai pas de type ou de copier @HaakonLøtveit, l'éditeur n'a pour moi par l'auto-complétion. Même pour Java. Même si je dois copier ø, il est probablement plus facile que de trouver et de taper son unicode.
- Oui. Votre éditeur aujourd'hui, en 2016, ne que. Mais de Java, a été publié en 1995. Emacs n'ont pas de sémantique de l'auto-complétion à l'époque, et a été la chose la plus avancée disponible pour Java. Il n'a même pas de support de l'unicode.
InformationsquelleAutor ZhongYu
11

Les seules personnes qui peuvent répondre à pourquoi Unicode évasions ont été mises en œuvre comme ils l'ont été sont les personnes qui ont écrit la spécification.

Une raison plausible c'est qu'il y a la volonté de permettre à l'ensemble de la BMP que possible les caractères de code source Java. Cela pose un problème cependant:
- Vous voulez être en mesure d'utiliser tout BMP caractère.
- Vous voulez être en mesure de saisir un BMP personnage assez facile. Une façon de le faire est avec Unicode échappe.
- Vous voulez garder la spécification lexicale facile pour les humains à lire et à écrire, et relativement facile à mettre en œuvre ainsi.
C'est incroyablement difficile lors de l'Unicode échappe à entrer dans la mêlée: il crée un ensemble de charge de nouveaux lexer règles.

Le chemin le plus facile est de faire lexing en deux étapes: la première est de rechercher et de remplacer les caractères Unicode s'échappe avec le personnage qu'il représente, et ensuite d'analyser le document qui en résulte comme si Unicode échappe n'existent pas.

L'avantage, c'est qu'il est facile de spécifier, de sorte qu'il rend la spécification plus simple, et il est facile à mettre en œuvre.

L'inconvénient est, bien, votre exemple.
- Ou, de limiter l'utilisation de \uxxxx à des identificateurs, des littéraux de chaîne, et les constantes de caractère. Qui est ce C11 n'.
- qui complique vraiment l'analyseur de règles, parce que ceux qui définissent ces choses, qui est ce que je suis en spéculant fait partie de la raison pour laquelle c'est la façon dont il est.
InformationsquelleAutor Martijn
-2

Le compilateur ne concerne pas seulement traduit Unicode s'échappe dans les personnages qu'ils représentent avant qu'il traite un programme en jetons, mais il le fait avant de jeter les commentaires et les espaces.

Ce programme contient un seul échappement Unicode (\u000d), situé dans son seul commentaire. Comme le commentaire que vous avez dit, cette évasion représente le caractère de saut de ligne, et le compilateur dûment traduit avant de le jeter commentaire.

C'est dépend de la plateforme. Sur certaines plateformes, comme UNIX, il va travailler; sur d'autres, tels que Windows, il ne sera pas. Bien que la sortie peut regarder la même chose à l'œil nu, on pourrait facilement causer des problèmes si elle a été enregistré dans un fichier ou transmise à un autre programme pour un traitement ultérieur.
- Autant d'éloquence que votre "réponse" peut-être, en effet, il n'est pas une réponse à tout. OP la question était: "Pourquoi est-ce autorisé" mais ceci est une explication de comment il fonctionne...qui OP déjà fourni.
- Avez-vous des sources pour confirmer que c'est dépendant de la plate-forme? Si cela est vrai, je le considère comme Java sera entièrement brisée (je fais de toute façon, c'est juste un autre clou dans le cercueil).
- Le compilateur Java traite un nu \u000d que la fin d'une ligne // commentaire, même sur Windows. (Testé avec Oracle Java 1.7 et IBM Java 1.8 sur Windows 7, juste pour être sûr...)
InformationsquelleAutor Arp

Vous devez vous connecter pour publier un commentaire.