Comment tester une application pour l'encodage correct (par exemple UTF-8)

Problèmes d'encodage sont parmi les un sujet qui m'ont piqué le plus souvent au cours du développement. Chaque plate-forme insiste sur son propre codage, le plus probable des non-UTF-8 par défaut sont dans le jeu. (J'ai l'habitude de travailler sur Linux, par défaut en UTF-8, mes collègues travaillent pour la plupart sur la version allemande de Windows, par défaut ISO-8859-1 ou d'une même page de code windows)

Je crois, que l'UTF-8, c'est un standard pour le développement d'un i18nable application. Cependant, dans mon expérience de codage, des bugs sont généralement découvertes à la fin (même si je suis situé en Allemagne et nous avons quelques caractères spéciaux que le long avec de l'ISO-8859-1 fournissent les différences observables).

Je crois que les développeurs avec une absence totale de jeu de caractères ASCII (ou ceux qui connaissent une langue qui utilise un tel jeu de caractères) ont une longueur d'avance dans la fourniture de données de test. Mais il doit y avoir un moyen de faciliter ce, pour le reste d'entre nous.

Ce que [technique|outil|incentive] sont des gens ici? Comment obtenez-vous votre co-développeurs à s'occuper de ces questions? Comment avez-vous vérifier la conformité? Sont les contrôles effectués manuellement ou automatiquement?

En ajoutant une réponse possible à l'avance:

J'ai découvert récemment fliptitle.com (ils fournissent un moyen facile d'obtenir des caractères bizarres écrit "uʍop ǝpısdn" *) et j'ai l'intention de les utiliser pour fournir facilement vérifiable UTF-8 chaînes de caractères (comme la plupart des caractères utilisés il y a à peu bizarre binaire de codage de position), mais il doit sûrement être plus systématique des tests, des motifs ou des techniques pour s'assurer de l'UTF-8 de compatibilité/d'utilisation.

Note: Même si il y a acceptée de répondre, j'aimerais savoir de plus en plus techniques et des modèles si il y a quelques. S'il vous plaît ajouter plus de réponses si vous avez d'autres idées. Et il n'a pas été facile de choisir une seule réponse pour acceptation. J'ai choisi la regexp réponse pour le moins attendu de l'angle pour aborder le problème, même si il y aurait des raisons pour choisir d'autres réponses. Dommage qu'une seule réponse peut être acceptée.

Vous remercie pour votre intervention.

*) c'est "à l'envers" écrit "à l'envers", pour ceux qui ne peuvent pas voir ces personnages en raison de problèmes de police

Merci pour le (très apprécié) des réponses jusqu'à maintenant - j'aimerais garder cette question ouverte pendant un certain temps pour accumuler autant d'idées pour lutter contre le problème que possible.

OriginalL'auteur Olaf Kock | 2009-01-25

5

Il y a un expression régulière pour tester si une chaîne est UTF-8 valide:
```
$field =~
  m/\A(
     [\x09\x0A\x0D\x20-\x7E]            # ASCII
   | [\xC2-\xDF][\x80-\xBF]             # non-overlong 2-byte
   |  \xE0[\xA0-\xBF][\x80-\xBF]        # excluding overlongs
   | [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}  # straight 3-byte
   |  \xED[\x80-\x9F][\x80-\xBF]        # excluding surrogates
   |  \xF0[\x90-\xBF][\x80-\xBF]{2}     # planes 1-3
   | [\xF1-\xF3][\x80-\xBF]{3}          # planes 4-15
   |  \xF4[\x80-\x8F][\x80-\xBF]{2}     # plane 16
  )*\z/x;
```
Mais cela ne garantit pas que le texte réel est UTF-8.

Un exemple: La séquence d'octets pour la lettre " (U+00F6) et le correspondant de l'UTF-8 séquence est 0xC3B6.

Ainsi, lorsque vous obtenez 0xC3B6 en entrée vous pouvez dire que c'est UTF-8 valide. Mais on ne peut sûrement dire que la lettre ö a été soumis.

C'est parce que, imaginez que pas en UTF-8 a été utilisé, mais l'ISO 8859-1 à la place. Il y a la séquence 0xC3B6 représente le personnage Ã (0xC3) et ¶ (0xB6) respectivement.

De sorte que la séquence 0xC3B6 peut soit représenter ö l'utilisation de l'UTF-8 ou Ã¶ utilisation de la norme ISO 8859-1 (même si ce dernier est assez inhabituel).

Donc à la fin c'est seulement deviner.

Wow - c'est le moins attendu de l'angle d'aborder le problème. Je suis impressionné. Aussi, ¶ appartient aux personnages plus facilement détectée comme une erreur de codage.

OriginalL'auteur Gumbo

Merci pour fliptitle!

Moi aussi, je suis en train d'établir un bon plan de test pour s'assurer que l'application prend en charge Unicode dans l'ensemble du système.

Je suis bilingue, mais dans deux langues qui utilisent uniquement de l'ISO-8859-1. Donc, j'ai eu du mal à déterminer ce qu'est une "vraie-vie", "significatif" manière de tester la gamme complète d'Unicode possibilités.

Je viens de tomber sur ce:

Les Tests internationaux notions de base - les Essais non-anglais et non-ASCII soutien

Suivi Post:

Après l'élaboration de certains tests pour mon application, j'ai réalisé que j'avais concocté une petite liste de codées valeurs qui pourraient être utiles à d'autres.

Je suis en utilisant le suivant internationale des chaînes dans mon test:

(NOTE: voici certains de texte UTF-8... j'espère que vous pouvez voir dans votre navigateur)

ユーザー別サイト

简体中文

크로스 플랫폼으로

מדורים מבוקשים

أفضل البحوث

Σὲ γνωρίζω ἀπὸ

Десятую Международную

แผ่นดินฮั่นเสื่อมโทรมแสนสังเวช

∮ E⋅da = Q, n → ∞, ∑ f(i) = ∏ g(i)

français langue étrangère

mañana olé

(Fin de l'UTF-8 étrangères/non-texte en anglais)

Cependant, à différents moments au cours des tests, j'ai réalisé que c'était insuffisant pour seulement avoir des informations sur la manière dont les cordes étaient censés regarder lorsqu'ils sont rendus dans leur des alphabets étrangers. J'ai aussi besoin de connaître la bonne Unicode codepoint de nombres, mais aussi les valeurs hexadécimales correctes de ces chaînes dans au moins deux codages (UCS-2 et UTF-8).

Ici est l'équivalent de point de code de numérotation et les valeurs en hexadécimal:

str = L"\u30E6\u30FC\u30B6\u30FC\u5225\u30B5\u30A4\u30C8"; //JAPAN 
//Little endian UTF-16/UCS-2: e6 30 fc 30 b6 30 fc 30 25 52 b5 30 a4 30 c8 30 00 00
//Hex of UTF-8: e3 83 a6 e3 83 bc e3 82 b6 e3 83 bc e5 88 a5 e3 82 b5 e3 82 a4 e3 83 88 00 

str = L"\u7B80\u4F53\u4E2D\u6587"; //CHINA 
//Little endian UTF-16/UCS-2: 80 7b 53 4f 2d 4e 87 65 00 00 
//Hex of UTF-8: e7 ae 80 e4 bd 93 e4 b8 ad e6 96 87 00

str = L"\uD06C\uB85C\uC2A4 \uD50C\uB7AB\uD3FC\uC73C\uB85C"; //KOREA 
//Little endian UTF-16/UCS-2: 6c d0 5c b8 a4 c2 20 00 0c d5 ab b7 fc d3 3c c7 5c b8 00 00
//Hex of UTF-8: ed 81 ac eb a1 9c ec 8a a4 20 ed 94 8c eb 9e ab ed 8f bc ec 9c bc eb a1 9c 00 

str = L"\u05DE\u05D3\u05D5\u05E8\u05D9\u05DD \u05DE\u05D1\u05D5\u05E7\u05E9\u05D9\u05DD"; //ISRAEL 
//Little endian UTF-16/UCS-2: de 05 d3 05 d5 05 e8 05 d9 05 dd 05 20 00 de 05 d1 05 d5 05 e7 05 e9 05 d9 05 dd 05 00 00
//Hex of UTF-8: d7 9e d7 93 d7 95 d7 a8 d7 99 d7 9d 20 d7 9e d7 91 d7 95 d7 a7 d7 a9 d7 99 d7 9d 00

str = L"\u0623\u0641\u0636\u0644 \u0627\u0644\u0628\u062D\u0648\u062B"; //EGYPT 
//Little endian UTF-16/UCS-2: 23 06 41 06 36 06 44 06 20 00 27 06 44 06 28 06 2d 06 48 06 2b 06 00 00
//Hex of UTF-8: d8 a3 d9 81 d8 b6 d9 84 20 d8 a7 d9 84 d8 a8 d8 ad d9 88 d8 ab 00 

str = L"\u03A3\u1F72 \u03B3\u03BD\u03C9\u03C1\u03AF\u03B6\u03C9 \u1F00\u03C0\u1F78"; //GREECE 
//Little endian UTF-16/UCS-2: a3 03 72 1f 20 00 b3 03 bd 03 c9 03 c1 03 af 03 b6 03 c9 03 20 00 00
//Hex of UTF-8: ce a3 e1 bd b2 20 ce b3 ce bd cf 89 cf 81 ce af ce b6 cf 89 20 e1 bc 80 cf 80 e1 bd b8 00 

str = L"\u0414\u0435\u0441\u044F\u0442\u0443\u044E \u041C\u0435\u0436\u0434\u0443\u043D\u0430\u0440\u043E\u0434\u043D\u0443\u044E"; //RUSSIA 
//Little endian UTF-16/UCS-2: 14 04 35 04 41 04 4f 04 42 04 43 04 4e 04 20 00 1c 04 35 04 36 04 34 04 43 04 3d 04 30 04 40 04 3e 04 34 04 3d 04 43 04 4e 04 00 00
//Hex of UTF-8: d0 94 d0 b5 d1 81 d1 8f d1 82 d1 83 d1 8e 20 d0 9c d0 b5 d0 b6 d0 b4 d1 83 d0 bd d0 b0 d1 80 d0 be d0 b4 d0 bd d1 83 d1 8e 00

str = L"\u0E41\u0E1C\u0E48\u0E19\u0E14\u0E34\u0E19\u0E2E\u0E31\u0E48\u0E19\u0E40\u0E2A\u0E37\u0E48\u0E2D\u0E21\u0E42\u0E17\u0E23\u0E21\u0E41\u0E2A\u0E19\u0E2A\u0E31\u0E07\u0E40\u0E27\u0E0A"; //THAILAND
//Little endian UTF-16/UCS-2: 41 0e 1c 0e 48 0e 19 0e 14 0e 34 0e 19 0e 2e 0e 31 0e 48 0e 19 0e 40 0e 2a 0e 37 0e 48 0e 2d 0e 21 0e 42 0e 17 0e 23 0e 21 0e 41 0e 2a 0e 19 0e 2a 0e 31 0e 07 0e 40 0e 27 0e 0a 0e 00 00
//Hex of UTF-8: e0 b9 81 e0 b8 9c e0 b9 88 e0 b8 99 e0 b8 94 e0 b8 b4 e0 b8 99 e0 b8 ae e0 b8 b1 e0 b9 88 e0 b8 99 e0 b9 80 e0 b8 aa e0 b8 b7 e0 b9 88 e0 b8 ad e0 b8 a1 e0 b9 82 e0 b8 97 e0 b8 a3 e0 b8 a1 e0 b9 81 e0 b8 aa e0 b8 99 e0 b8 aa e0 b8 b1 e0 b8 87 e0 b9 80 e0 b8 a7 e0 b8 8a 00

str = L"\u222E E\u22C5da = Q,  n \u2192 \u221E, \u2211 f(i) = \u220F g(i)"; //MATHEMATICS 
//Little endian UTF-16/UCS-2: 2e 22 20 00 45 00 c5 22 64 00 61 00 20 00 3d 00 20 00 51 00 2c 00 20 00 20 00 6e 00 20 00 92 21 20 00 1e 22 2c 00 20 00 11 22 20 00 66 00 28 00 69 00 29 00 20 00 3d 00 20 00 0f 22 20 00 67 00 28 00 69 00 29 00 00 00
//Hex of UTF-8: e2 88 ae 20 45 e2 8b 85 64 61 20 3d 20 51 2c 20 20 6e 20 e2 86 92 20 e2 88 9e 2c 20 e2 88 91 20 66 28 69 29 20 3d 20 e2 88 8f 20 67 28 69 29 00 

str = L"fran\u00E7ais langue \u00E9trang\u00E8re"; //FRANCE
//Little endian UTF-16/UCS-2: 66 00 72 00 61 00 6e 00 e7 00 61 00 69 00 73 00 20 00 6c 00 61 00 6e 00 67 00 75 00 65 00 20 00 e9 00 74 00 72 00 61 00 6e 00 67 00 e8 00 72 00 65 00 00 00
//Hex of UTF-8: 66 72 61 6e c3 a7 61 69 73 20 6c 61 6e 67 75 65 20 c3 a9 74 72 61 6e 67 c3 a8 72 65 00

str = L"ma\u00F1ana ol\u00E9"; //SPAIN
//Little endian UTF-16/UCS-2: 6d 00 61 00 f1 00 61 00 6e 00 61 00 20 00 6f 00 6c 00 e9 00 00 00
//Hex of UTF-8: 6d 61 c3 b1 61 6e 61 20 6f 6c c3 a9 00

Aussi, voici quelques images qui montrent quelques communes "sig-rendus" qui peuvent se produire dans différents éditeurs, même si le sous-jacent octets sont bien formés en UTF8. Si vous voyez l'une de ces interprétations, cela signifie probablement que vous avez correctement réalisé une chaîne UTF8, mais que votre éditeur/viewer est d'essayer de les interpréter dans certaines encodage autre que UTF-8.

L'Échantillon Rendus Num. 1

L'Échantillon Rendus Num. 2

Merci pour ces pointeurs - j'ai un peu manqué quand il est affiché au début, juste trouvé maintenant

OriginalL'auteur pestophagous

3

Le véritable fauteur de trouble avec l'encodage des caractères est assez souvent qu'il y a plusieurs encodage des bogues et que certains comportement incorrect a été introduit en raison d'autres bugs. Je n'ai pas le nombre de fois que j'ai vu cela se produire.

L'objectif, comme toujours, est à manipuler correctement dans chaque endroit. Donc la plupart du temps de simples tests unitaires peuvent faire l'affaire, il n'a même pas à être très complexe de jeux de caractères. - Je trouver tous les bogues juste par des essais sur notre caractère national "ø", parce qu'il établit différemment en UTF-8 et la plupart des autres jeux de caractères.

L'agrégat fonctionne très bien quand toutes les pièces de le faire correctement. Je sais que cela peut sembler trivial, mais quand il s'agit de jeu de caractères de questions, elle a toujours travaillé pour moi 😉

C'est notre société de talk - "dès Que vous le faites à droite - problèmes en aller". 🙂 Comment êtes-vous sûr que les tests pour "ö" en UTF-8 ne sont pas de travail si il teste pour - dire - "Ã¶" dans la norme ISO-8859-1 - c'est à dire assertEquals("ö","ö") devient assertEquals("Ã¶","Ã¶") - au sens figuré
Vous affirmez avec le \u séquence d'échappement par rapport à la non-caractère d'échappement

OriginalL'auteur krosenvold
2

La localisation est assez difficile.

Je pense que vous êtes vraiment se poser deux questions. L'un d'eux, comment voulez-vous obtenir tout le monde à travailler correctement sur un i8n application, n'est pas technique, mais un projet de gestion de la question, à mon avis. Si vous voulez que les gens à utiliser une norme commune, comme UTF-8, alors vous devrez tout simplement de la faire respecter. Outils d'aide, mais les gens doivent d'abord être dit de le faire.

D'ailleurs dire que l'UTF-8 est à mon avis le chemin à parcourir, il est difficile de donner une réponse aux questions sur les outils. Cela dépend vraiment du type de projet que vous êtes en train de faire. Si, par exemple, est un projet Java qui vous parlez, alors c'est une simple question de configurer correctement l'IDE pour coder les fichiers en UTF-8. Et assurez-vous que votre UTF-8 localisations sont dans les fichiers de ressources externes.

Une chose que vous pouvez certainement le faire est de faire des tests unitaires que vérifier la conformité. Si vos messages localisés/les étiquettes sont dans les fichiers de ressources, alors il est faily facile de vérifier si elles sont correctement codés en UTF-8 je pense.

Vous avez raison, c'est plusieurs questions à la fois. Principalement parce que je n'ai pas trouvé comment vraiment s'attaquer au problème (autre que de simplement "faire des erreurs"...), je suis à la recherche pour tous les outils pour ma boîte à outils pour aider dans les projets actuels et futurs.
plus - votre une faute de frappe décrit les situations que j'ai vécu: "faily facile à vérifier..." j'aime ça, il a vraiment quelque chose de vrai 😉

OriginalL'auteur Stefan Arentz
1

En PHP, nous utilisons les fonctions mb_ comme mb_detect_encoding() et mb_convert_encoding(). Ils ne sont pas parfaits, mais ils nous chercher à 99,9% du chemin. Que nous avons un peu d'expressions régulières pour extraire funky caractères quelque peu y faire de temps en temps.

Si vous allez internationale, vous voulez absolument utiliser de l'UTF-8. Nous n'avons pas encore trouver la solution parfaite pour obtenir l'ensemble de nos données en UTF-8, et je ne suis pas sûr qu'il existe. Vous avez juste à continuer à bricoler avec elle.

mb_detect_encoding semble fournir une approche similaire comme la regexp fournis par Gumbo bien mieux lisible - il a l'air de la même façon heuristique dans l'Ã¶ serait également toujours exister, non? Merci pour vos commentaires.

OriginalL'auteur jjriv

Vous devez vous connecter pour publier un commentaire.