UTF-8: combien d'octets sont utilisés par les langues pour représenter un caractère visible?
Existe-t-il un tableau ou quelque chose de semblable, ce qui montre combien d'octets sont différentes langues ont besoin en moyenne de représenter un personnage visible (glyphe) lorsque l'encodage est utf-8?
source d'informationauteur sid_com
Vous devez vous connecter pour publier un commentaire.
Si vous voulez quelque chose de plus général, je pense que vous devez vous en tenir à ceci:
C'est très incomplète, approximative, et non quantitative.
Si vous avez besoin de quelque chose de plus quantitative, je pense que vous aurez à la recherche de chaque langue individuellement. Je doute que vous trouverez précalculées résultats qui s'appliquent déjà une multitude de langues différentes.
Si vous avez un corpus de texte pour une langue, il est facile de calculer le nombre moyen d'octets requis. Démarrer avec le Corpus de textes page Wikipedia. Elle est reliée à au moins une bonne librement disponible corpus pour l'anglais et il peut être disponible pour d'autres langues (je n'ai pas la chasse à travers les liens pour en savoir).
D'ailleurs, je ne recommandons pas d'utiliser cette information pour raccourcir la longueur d'un champ de base de données que vous avez indiqué (dans les commentaires) que vous avez l'intention de le faire. Tout d'abord, si vous avez utilisé un corpus constitué à partir de la littérature à venir avec votre nombre d'octets par caractère, vous pouvez trouver le corpus n'est pas représentative de la peu court chaînes de texte dans votre base de données, les jeter hors de votre attente. Juste obtenir l'ensemble de la colonne de base de données. La plupart des résultats seront beaucoup plus courtes que la longueur maximale, et quand ils ne le sont pas, je ne pense pas que votre optimisation est la peine de sauver une centaines d'octets.
Regarder une liste de blocs Unicode et leur point de code gammes, par exemple, l'consultable http://www.fileformat.info/info/unicode/block/index.htm ou le fonctionnaire http://www.unicode.org/Public/UNIDATA/Blocks.txt :