HTML les entités de caractères et encodage des caractères

Lorsque y compris les entités HTML dans un document HTML, ne les entités doivent être de la même encodage des caractères que le document est spécifié à l'aide d'?

Par exemple, si je vais utiliser la marque du droit d'auteur dans un document HTML qui est spécifié comme UTF-8, est-il nécessaire d'utiliser l'Unicode entité HTML (©) ou est-il acceptable d'utiliser d'autres entités, telles que les ASCII entité HTML (©)?

Veuillez expliquer votre réponse. Je suis conscient qu'il va "travailler", mais est-il un cas où il ne fonctionne pas?

Merci!

ASCII ne comprend pas un symbole de droit d'auteur dans le jeu de caractères qu'il code.
Il a probablement juste de l'ISO-8859-1 (ISO Latin 1). J'ai entendu beaucoup de gens utilisent ASCII de façon interchangeable avec cet encodage et alors que techniquement c'est pas la même chose que je viens de supposer qu'ils signifient Latin 1.
En fait, j'ai été en passant par un tableau comme ceci: ascii.cl/htmlcodes.htm je suppose que, depuis le tableau affiche ASCII colonne pour le symbole du droit d'auteur, qu'il était dans l'encodage.
Mais, je peux voir que cela: ascii.cl ne pas inclure le symbole du droit d'auteur. Ce n' "ASCII" consulter dans le lien précédent, alors?
les gens sont très très lâche avec le terme ASCII ces jours-ci. Ils ont presque toujours dire la norme ISO Latin 1. Voir ceci: en.wikipedia.org/wiki/Extended_ASCII

OriginalL'auteur Mike Moore | 2010-08-29

10

© et © spécifier le même caractère - 169 est l'équivalent hexadécimal A9. Ces deux spécifier un symbole de droit d'auteur. Les entités de caractères dans le code HTML de toujours se référer à des points de code Unicode, ce qui est couvert dans le HTML 4 Standard. Ainsi, même si votre jeu de caractères changements, votre entités font toujours référence aux mêmes personnages.

Cela signifie également que vous pouvez encoder des caractères qui ne fait pas apparaître au sein de votre jeu de caractères de votre choix. Je viens de créer un document dans la norme ISO-8859-1 jeu de caractères, mais il inclut un grec lambda. Aussi, ASCII n'est pas capable de coder un symbole de copyright, mais cela peut travers des entités de caractères.

Edit: Lire les commentaires sur les autres répondre, je tiens à préciser un peu tout ça. Si vous utilisez UTF-8 comme encodage de votre document, vous pouvez, au sein de la source HTML brut, écrire un symbole de droit d'auteur tout comme-est. (Vous avez besoin de trouver un moyen pour elle d'entrée, bien sûr: le copier-coller être l'habitude.) UTF-8 vous permettra de directement encoder n'importe quel symbole que vous voulez. ISO-8859-1 est beaucoup plus limitée, ASCII et plus encore. Par exemple, dans mon code HTML, si mon document est en UTF-8 document, je peux le faire:
```
Hi there. This document is ©2010. Good day!
```
ou:
```
Hi there. This document is &#xA9;2010. Good day!
```
ou:
```
Hi there. This document is &copy;2010. Good day!
```
La première n'est valable que si le jeu de caractères prend en charge "©". Les deux autres sont toujours valables, mais moins lisible. Quel que soit l'éditeur de texte que vous utilisez, si il vaut son poids, devrait être en mesure de vous dire quel caractère il est l'encodage du document.

Si vous faites cela, vous devez vous assurer que votre serveur web informe le client du jeu de caractères correct, ou que votre document déclare avec quelque chose comme:
```
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
```
J'ai utilisé UTF-8 il y a comme un exemple. XHTML devrait avoir le jeu de caractères dans l'ouverture <?xml ... ?> tag.

Correct, donc, si vous devez pour une raison quelconque de ne pas utiliser le Latin 1, ni Unicode comme jeu de caractères de document, vous pouvez toujours afficher le symbole du droit d'auteur l'utilisation de ces entités.
Où est la source officielle de cette information? Je suis en train de faire un travail qui couvre plus de ce cas d'utilisation et souhaitez obtenir plus de détails. Merci.
Quelle partie de ces postes vous êtes à la recherche d'une source? Comment encoder des entités est cité dans le post, bien qu'aujourd'hui, j'avais lien vers le standard HTML5 (mais je ne pense pas que HTML5 modifie cet aspect). Si vous êtes simplement à la recherche pour le nombre (par exemple, comment traduire © dans ©): tout d'abord, je vous recommande d'utiliser de l'UTF-8 et le simple fait d'écrire le caractère littéralement, c'est à dire, il suffit de mettre © ou similaires dans votre code source, puisqu'il est directement lisible par un humain (RibaldEddie de réponse). Autrement, le nombre est juste le point de code Unicode. shapecatcher.com vous permettra de dessiner le personnage dont vous avez besoin,
...unicode.org a graphiques, Googler "unicode <description de votre personnage>" travaille habituellement, par exemple, "unicode droit d'auteur".
Je faisais allusion à l'orientation pour choisir les entités de caractères à coder et qui à l'entrée-est.

OriginalL'auteur Thanatos
4

La beauté de l'encodage UTF-8, c'est que vous pouvez en fait il suffit d'inclure le caractère binaire. Vous n'avez pas besoin de coder comme une entité à tous. Ainsi: ©

Oh, vous voulez juste savoir la différence entre les deux entités? Il n'y a aucun. L'un décrit l'octet en Hexadécimal et l'autre en décimal.

Par le "caractère binaire", tu veux dire que je pourrais juste de copier le symbole de votre réponse et de le coller dans mon document HTML (ce qui signifie qu'il va ressembler le symbole dans le code) et, tant que c'est de l'UTF-8, c'est correct??
C'. Quel est le point de l'utilisation de l'UTF-8 si vous êtes en train de coder le tout dans des entités? C'est ce que l'Unicode est pour!
Correct. Certains personnages ont encore besoin d'être codé par entité, mais seulement ceux qui ont de sens sémantique en HTML, comme inférieur à et supérieur. Mais l'auteur signe fonctionne, tout simplement (tm).
Le symbole du droit d'auteur apparaît dans la norme ISO-8859-1. SI vous êtes correctement déclarer l'encodage utilisé dans votre document HTML, de sorte que les navigateurs peuvent afficher correctement le texte, vous n'auriez pas besoin d'avoir recours à des entités, soit pour l'ISO-8859-1. Depuis l'ISO-8859-1 et UTF-8 ont la même table de caractères pour le premier octet, dans lequel le symbole du droit d'auteur apparaît, c'est assez sûre symbole pour afficher en HTML sans l'aide d'une entité. Les autres personnages de cette carte à plusieurs octets besoin d'utiliser l'entité si le document HTML ont été annoncés pour le navigateur comme ISO-8859-1 document. Si aucune entité n'existe pour un multi-octets char...
... alors vous devez utiliser un autre encodage, plus raisonnablement que serait UTF-8.

OriginalL'auteur RibaldEddie

Vous devez vous connecter pour publier un commentaire.