Comment puis-je corriger l'encodage d'un fichier?

J'ai un texte codé en ANSI fichier ne doit pas avoir été encodé en ANSI comme il n'y avait accentué
caractères ANSI ne prend pas en charge. Je préfère travailler avec UTF-8.

Les données peuvent être décodées correctement, ou est-il perdu dans le transcodage?

Quels outils dois-je utiliser?

Voici un échantillon de ce que j'ai:

ç é

Je peux dire à partir du contexte (café devrait être café) que ceux-ci devraient être ces deux personnages:

ç é
  • Connaissez-vous l'origine de l'encodage du fichier (en supposant qu'il a été converti à un certain point à partir d'un jeu de caractères à un autre)? Si oui, vous devriez être en mesure à la carte à partir de la résultante des caractères de retour à l'origine des caractères à l'aide de tables comme celui-ci. Si vous ne connaissez pas le codage d'origine, vous pourriez probablement un travail à l'aide d'une approche probabiliste basée sur la fréquence des mots différents dans la langue que vous travaillez avec. Mais vous ne pouvez pas être prêt à mettre dans le travail qu'il faudrait.
  • Malheureusement, non, je ne sais pas le codage d'origine. C'est un problème commun lorsque les clients de vous envoyer des fichiers sur une variété de systèmes. Ils ne savent pas ce qu'est un codage de caractères est. Notez que l'adoption croissante des postes de travail Linux à l'aide de l'UTF-8 par défaut, pourrait réduire ce problème de manière transparente.
  • Je suis totalement d'accord. UTF-8 est sans doute la plus raisonnable encodage à utiliser dans la plupart des situations, mais on ne peut guère s'attendre à des clients pour comprendre ou de la loi sur que, malheureusement.
InformationsquelleAutor Liam | 2008-09-25