UTF-8 encoder les Url

Info:

J'ai un programme qui génère le XML sitemaps pour Google Webmaster Tools (entre autres choses).
GWTs me donne des erreurs pour certaines sitemaps car les Url contiennent des séquences de caractères comme ã¾, ã‹, ã€, etc. **

GWTs dit:

Nous avons besoin de votre fichier Sitemap pour être codé en UTF-8 (vous pouvez généralement le faire lorsque vous vous enregistrez le fichier). Comme avec tous les fichiers XML, les valeurs de données (y compris les Url) doit utiliser les codes d'échappement pour les caractères: &, ', ", <, >.

Les caractères spéciaux sont excaped dans les fichiers XML (avec des entités HTML).
Fichier XML extrait de:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://domain/folder/listing-&#227;&#129;.shtml</loc>
        ...

Sont mes Url codées en UTF-8?

Si pas, Comment puis-je le faire en Java?
Ce qui suit est la ligne dans mon programme où j'ai ajouter l'URL du sitemap:

    siteMap.addUrl(StringEscapeUtils.escapeXml(countryName+"/"+twoCharFile.getRelativeFileName().toLowerCase()));

** = Je ne suis pas sûr que ceux qui sont à l'origine de l'erreur, probablement les deux premiers exemples.

Je m'excuse pour tout le montage.

Je ne comprends pas vraiment ta question. Il semble que vous n'avez pas échappé HTML vous des données (indépendamment de l'utilisation de l'utf-8). Êtes-vous échapper ou pas?
J'ai édité la question beaucoup de choses.
Ouvrez votre sitemap XML fichiers dans un éditeur de texte qui prend en charge l'encodage UTF-8 (comme Notepad++) pour un test rapide pour déterminer si vos fichiers sont enregistrés dans le bon encodage.
Fait. Pas certain de l'endroit où chercher à voir si les Url sont correctement codés en UTF-8. J'ai fourni un extrait du fichier XML. On dirait que les personnages ont été échappés (avec des entités HTML).
le menu Encodage dans Notepad++ vous permettra de visualiser l'encodage utilisé. Vous pouvez modifier l'encodage du fichier, mais ce n'est pas le point; l'utilisation de l'approche suggérée pour spécifier l'encodage de l'URL. En outre, aussi, assurez-vous d'écrire le fichier sitemap à l'aide de l'encodage UTF-8 (lorsque vous utilisez la classe FileOutputStream ou d'une autre catégorie).

OriginalL'auteur Adam Lynch | 2011-05-23