Japonais Code ASCII

Où puis-je obtenir une liste des codes ASCII correspondant Japonais en kanji, hiragana et katakana. Je suis en train de faire une fonction java et Javascript qui détermine si c'est un caractère Japonais. Quelle est son aire de répartition dans le code ASCII?

OriginalL'auteur cedric | 2009-11-26

cjk unicode

10

ASCII est synonyme de American Standard Code for Information Interchange, ne comprend 128 caractères (pas tous d'entre eux, même imprimable), et est basé sur les besoins de l'emploi Américain circa 1960. Il comprend rien à tout les caractères Japonais.

Je crois que vous voulez le Unicode les points de code pour certains personnages, que vous pouvez rechercher dans l' graphiques fournis par unicode.org.

OriginalL'auteur
6

Veuillez consulter mon question similaire concernant les Kanji/Kana caractères. @Coobird mentionne qu'il peut être difficile de décider ce que vous voulez de contre-vérifier les depuis de nombreuses Kanji chevauchement avec des caractères Chinois.

En bref, les plages Unicode pour les caractères hiragana et katakana sont:
- Hiragana: Unicode: 3040-309F
- Katakana: Unicode: 30A0–30FF
Si vous trouvez cette réponse s'il vous plaît utiles upvote @coobird la réponse à ma question.

がんばって！

OriginalL'auteur Zack The Human
2

Caractères japonais ne seront pas dans la plage ASCII, ils vont être en Unicode. Que voulez-vous, juste le char de la valeur pour chaque personnage?

yup.J'ai besoin de valeurs pour chaque personnage

OriginalL'auteur Noon Silk
0

Je ne vais pas ressasser la partie en ASCII. Juste un coup d'oeil à la Tableaux De Codes Unicode.

Une intéressante liées queestion serait "est-il un 8-bit ASCII étendu codant pour le Japonais?", bien 😉
grrrrrr lol

OriginalL'auteur dda
0

Kanji aura une Unicode "Script" propriété de Hani, hiragana aura un "Script", une propriété de Hira, et katakana ont un "Script", une propriété de Kana. En Java, vous pouvez déterminer le "Script" de la propriété d'un caractère à l'aide du Personnage.UnicodeScript classe: http://docs.oracle.com/javase/7/docs/api/java/lang/Character.UnicodeScript.html je ne sais pas si vous pouvez déterminer un personnage "Script" de la propriété dans le code Javascript.

Bien sûr, la plupart des kanji sont des personnages qui sont également utilisés en Chinois; étant donné un caractère comme 猫, il est impossible de dire si il est utilisé comme un caractère Chinois ou un Japonais de caractère.

OriginalL'auteur Tanner Swett
0

Eh bien, il a été un certain temps, mais voici un lien vers les tables des hiragana, katakana, kanji, etc et leurs Unicodes...

http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

MAIS, comme vous le savez probablement Unicodes sont en hexadécimal. Vous pouvez les traduire en nombres décimaux à l'aide de Windows Calc dans le programmeur de mode et puis à l'entrée de ce numéro comme un code ASCII et il va produire le caractère que vous voulez bien en fonction de ce que vous mettez dans. Il sera en MS Wordpad et Word(pas le bloc-notes).

Par exemple les hiragana ぁ est 3041 en Unicode. 3041 est hexadécimal et se traduit par 12353 en décimal. Si vous entrez 12353 comme un code ASCII dans Wordpad ou Word je.e appuyez sur la touche Alt, entrez 12353 sur le numéro de pad puis relâchez la touche Alt, il apparaîtra à l'impression ぁ. La gamme des caractères Japonais semble être en Hiragana:3040 - 309f(12352-12447 en ASCII), les Katakana:30a0 - 30ff(12448-12543 en ASCII), Kanji: 4e00-4DB5(19968-19893 ASCII), donc il y a plusieurs gammes. Il y a aussi un katakana demi-largeur de la gamme sur ce graphique.

"Unicodes sont hexadécimal". La messagerie unifiée. C'est complètement absurde de la déclaration. Les points de Code sont seulement des nombres; hexadécimal est juste une façon d'écrire les nombres. Je suis sûr que je peux trouver un unicode inscription en virgule quelque part sur le web.

OriginalL'auteur Andrew Fisher
-2

Je pense que ce que tu veux dire par ASCII code pour le Japonais est la SBCS (Single Byte Character Set) équivalent en Japonais. Pour le Japonais, vous avez seulement MBCS (Multi-Byte Character Sets) qui a une combinaison unique de caractères sur deux octets et des caractères multioctets. Donc, pour un Japonais, fichier texte enregistré dans MBCS vous avez des non-Japonais caractères (lettres et chiffres anglais et en commun les caractères non-alphanumériques enregistrés sous la forme d'un octet, et des caractères Japonais enregistré comme deux octets.

En supposant que vous n'êtes pas en se référant à UNICODE qui est un uniforme DBCS (Double Byte Character Set) où chaque caractère est exactement deux octets. En fait, pour être plus exact, dernièrement, UNICODE a également de multiples DBCS parce que le jeu de caractères ne pouvait pas accueillir d'autres plus de personnage. Certains caractères UNICODE consiste de 4 octets ayant déjà les deux premiers octets en tant que personnage principal.

Si vous faites référence à La première (MBCS) et pas d'UNICODE, puis il ya beaucoup de jeu de caractères Japonais comme Shift-JIS (la plus populaire). Donc je suggère que vous la recherche de caractères Shift-JIS carte. Bien qu'il y a d'autres jeu de caractères Japonais de la carte à côté de Shift-JIS.

Unicode est pas d'un “double-byte character set”. Ne confondez pas les encodages avec le jeu de caractères elle-même. Le standard Unicode prévoit, entre autres choses, une correspondance entre les lettres et les chiffres ("code de référence"). Lorsque vous parlez d'un “deux octets Unicode”, vous faites probablement référence UCS2 (deux octets par des points de code, ne peut pas représenter tous les caractères Unicode) ou UTF-16 (deux ou quatre octets par des points de code). D'autres codages inclure UTF-32 (quatre octets codage) et UTF-8 (un codage qui utilise un, deux, trois, ou quatre octets par des points de code).

OriginalL'auteur Nap

Vous devez vous connecter pour publier un commentaire.