Comment tester une application pour l'encodage correct (par exemple UTF-8)

Problèmes d'encodage sont parmi les un sujet qui m'ont piqué le plus souvent au cours du développement. Chaque plate-forme insiste sur son propre codage, le plus probable des non-UTF-8 par défaut sont dans le jeu. (J'ai l'habitude de travailler sur Linux, par défaut en UTF-8, mes collègues travaillent pour la plupart sur la version allemande de Windows, par défaut ISO-8859-1 ou d'une même page de code windows)

Je crois, que l'UTF-8, c'est un standard pour le développement d'un i18nable application. Cependant, dans mon expérience de codage, des bugs sont généralement découvertes à la fin (même si je suis situé en Allemagne et nous avons quelques caractères spéciaux que le long avec de l'ISO-8859-1 fournissent les différences observables).

Je crois que les développeurs avec une absence totale de jeu de caractères ASCII (ou ceux qui connaissent une langue qui utilise un tel jeu de caractères) ont une longueur d'avance dans la fourniture de données de test. Mais il doit y avoir un moyen de faciliter ce, pour le reste d'entre nous.

Ce que [technique|outil|incentive] sont des gens ici? Comment obtenez-vous votre co-développeurs à s'occuper de ces questions? Comment avez-vous vérifier la conformité? Sont les contrôles effectués manuellement ou automatiquement?

En ajoutant une réponse possible à l'avance:

J'ai découvert récemment fliptitle.com (ils fournissent un moyen facile d'obtenir des caractères bizarres écrit "uʍop ǝpısdn" *) et j'ai l'intention de les utiliser pour fournir facilement vérifiable UTF-8 chaînes de caractères (comme la plupart des caractères utilisés il y a à peu bizarre binaire de codage de position), mais il doit sûrement être plus systématique des tests, des motifs ou des techniques pour s'assurer de l'UTF-8 de compatibilité/d'utilisation.

Note: Même si il y a acceptée de répondre, j'aimerais savoir de plus en plus techniques et des modèles si il y a quelques. S'il vous plaît ajouter plus de réponses si vous avez d'autres idées. Et il n'a pas été facile de choisir une seule réponse pour acceptation. J'ai choisi la regexp réponse pour le moins attendu de l'angle pour aborder le problème, même si il y aurait des raisons pour choisir d'autres réponses. Dommage qu'une seule réponse peut être acceptée.

Vous remercie pour votre intervention.

*) c'est "à l'envers" écrit "à l'envers", pour ceux qui ne peuvent pas voir ces personnages en raison de problèmes de police

Merci pour le (très apprécié) des réponses jusqu'à maintenant - j'aimerais garder cette question ouverte pendant un certain temps pour accumuler autant d'idées pour lutter contre le problème que possible.

OriginalL'auteur Olaf Kock | 2009-01-25