Chinois simplifié tableau Unicode
Où puis-je trouver un tableau Unicode ne montrant que les caractères Chinois simplifiés?
J'ai cherché partout mais impossible de trouver quoi que ce soit.
Mise à JOUR :
J'ai trouvé qu'il y est un autre codage appelé GB 2312 -
http://en.wikipedia.org/wiki/GB_2312
- qui contient seulement caractères simplifiés.
Certes, je peux l'utiliser pour obtenir ce dont j'ai besoin?
J'ai aussi trouvé ce fichier qui correspond GB2312 Unicode -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- mais je ne suis pas sûr si c'est exact ou pas.
Si la table n'est pas correcte, peut-être quelqu'un pourrait m'indiquer celui qui est, ou peut-être juste un tableau de la GB2312 personnages et une certaine façon de les convertir?
Mise à JOUR 2 :
Ce site fournit également un GO/Unicode table et même un programme Java pour générer un fichier
avec tous les GO caractères ainsi que l'Unicode équivalents :
http://www.herongyang.com/gb2312/
OriginalL'auteur cmann | 2011-01-04
Vous devez vous connecter pour publier un commentaire.
La Unihan base de données contient cette information dans le fichier
Unihan_Variants.txt
. Par exemple, une paire de traditionnel/simplifié caractères sont:Dans le cas ci-dessus, U+6A5F est 機, la forme traditionnelle de 机 (U+673A).
Une autre approche consiste à utiliser la CC-CEDICT projet, qui publie un dictionnaire de caractères Chinois et ses composés (traditionnel et simplifié). Chaque entrée ressemble à quelque chose comme:
La première colonne est en caractères traditionnels, et la deuxième colonne est simplifiée.
Pour obtenir tous les caractères simplifiés, lire ce fichier texte et de dresser une liste de chaque personnage qui apparaît dans la deuxième colonne. Notez que certains caractères peuvent ne pas apparaître par eux-mêmes (uniquement dans les composés), de sorte qu'il n'est pas suffisant de regarder au caractère unique des entrées.
Donc, si je devais utiliser le Unihan_Variants.txt fichier, je voudrais simplement trouver chaque ligne avec kTraditionalVariant et utiliser le code au début de la ligne et cela devrait me donner tous les simplifiée des caractères unicode?
La dernière Unihan base de données est ici:
Unihan.zip
. Notez que seuls certains personnages ont à la fois traditionnel et simplifié variantes, donc pas tous les personnages, même une entrée dansUnihan_Variants.txt
. Je suppose que cela dépend si vous voulez "de tous les caractères utilisés dans le Chinois Simplifié", ou "seulement les caractères simplifiés où ils sont différents du traditionnel".Je suppose que c'est probablement inutile d'avoir TOUS les personnages, je suis sûr que le plus commun devrait être suffisant? Peut-être quelque chose le long des lignes de caractères enseigné dans les écoles Chinoises?
Dans que cas, avoir un regard sur le Hanyu Shuiping Kaoshi des listes de mots. Ce sont officiel tests de compétence pour les Chinois au sein de la république populaire de chine.
OriginalL'auteur Greg Hewgill
L'OP n'a pas d'indiquer la langue qu'ils utilisent, mais si vous êtes à l'aide de Ruby, j'ai écrit un petite bibliothèque qui permet de distinguer entre le Chinois simplifié et traditionnel (plus les coréens et les Japonais comme un bonus). Comme suggéré dans la réponse de Greg, il s'appuie sur une version distillée de
Unihan_Variants.txt
pour lequel les caractères sont exclusivement simplifié et qui sont exclusivement traditionnel.https://github.com/jpatokal/script_detector
Exemple:
Mais comme le Unicode FAQ dûment avertit, cela nécessite considérable de fragments de texte pour fonctionner de manière fiable, et qui va donner des résultats trompeurs pour les chaînes courtes. Considérer les Japonais de Tokyo:
Depuis deux personnages arriver aussi être valable, Chinois traditionnel, et il n'y a pas exclusivement des caractères Japonais, il n'est pas reconnu correctement.
OriginalL'auteur jpatokal
Je ne sais pas si c'est facile à faire. Han idéogrammes sont unifiés dans Unicode, donc il n'est pas immédiatement évident de savoir comment le faire. Mais le Unihan base de données (http://www.unicode.org/charts/unihan.html) pourraient avoir les données dont vous avez besoin.
OriginalL'auteur arnsholt
Selon wikipédia Chinois simplifié v. traditionnelle, kanji, ou en d'autres formats, c'est laissé à la police de rendu dans de nombreux cas. Ainsi, alors que vous pourriez avoir une sélection de Chinois simplifié codepoints, cette liste ne serait pas du tout complète, puisque le nombre de caractères ne sont plus distinctes.
Ainsi, le choix de la police serait de couvrir la glyphe choix. Ainsi, lorsqu'un particulier codepoint est disponible dans plusieurs styles chinois simplifié de la police montrent le chinois simplifié, le glyphe.
Greg réponse est exacte; la page liée est la page principale. Il dispose d'une interface web de la base de données, mais la sauvegarde de fichiers sont référencés sur la page: "Pour l'accès à la version la plus récente des fichiers de données brutes (Unihan.zip), reportez-vous à unicode.org/Public/UNIDATA."
Merci pour le lien.
OriginalL'auteur Michael Lowman
Je ne crois pas qu'il y a un tableau avec seulement simplifié points de code. Je pense qu'ils sont tous regroupés dans le CJK gamme de 0x4E00 par 0x9FFF
OriginalL'auteur Chris Haas
Voici une regex de tous les caractères Chinois simplifiés j'ai fait. Pour une raison quelconque Stackoverflow est de se plaindre, il est donc lié à un pastebin ci-dessous.
https://pastebin.com/xw4p7RVJ
Vous remarquerez que cette liste comprend des fourchettes plutôt que chaque caractère individuel, mais aussi que ce sont les caractères utf-8, pas échappé à des représentations. Il m'a bien servi dans une itération ou d'une autre depuis environ 2010. Espérons que tout le monde peut le faire une certaine utilisation de maintenant.
Si vous ne voulez pas les caractères simplifiés (je ne peux pas imaginer pourquoi, il n'est pas venu une fois en 9 ans), itérer sur tous les caractères à partir de
['一-龥']
et essayer de construire une nouvelle liste. Ou d'exécuter deux regex, afin de vérifier qu'il est Chinois, mais n'est pas Chinois simplifiéOriginalL'auteur MrMesees