Le codage HTML des questions - “Â” caractère montrant au lieu de “ ”

J'ai une application héritée juste de commencer à faire des siennes, pour quelque raison que ce soit, je ne suis pas sûr. Il génère un tas de code HTML qui est transformé en PDF rapports par ActivePDF.

Le processus fonctionne comme ceci:

Tirer un modèle HTML à partir d'une base avec des jetons dans il être remplacé (par exemple, "~CompanyName~", "~CustomerName~", etc.)
Remplacer les jetons avec les données réelles
De l'ordre sur le code HTML avec une simple fonction regex que la propriété formats HTML balise de valeurs d'attribut (assure guillemets, etc, depuis ActivePDF le moteur de rendu de hait rien mais des guillemets simples autour de valeurs d'attribut)
Envoyer le code HTML pour un service web qui crée le fichier PDF.

Quelque part dans ce désordre, les espaces insécables à partir du modèle HTML (le  s) sont l'encodage ISO-8859-1, de sorte qu'elles s'affichent de manière incorrecte comme un "Â" caractère lors de l'affichage du document dans un navigateur (FireFox). ActivePDF dégueule sur ces caractères non-UTF8.

Ma question: comme je ne sais pas d'où le problème vient du fait et n'ont pas le temps pour l'explorer, est-il un moyen facile de ré-encoder ou trouver et remplacer les mauvais caractères? J'ai essayé de l'envoyer par le biais de cette petite fonction que j'ai jeté, mais il ~~se transforme en gobbledegook~~ ne change rien.

Private Shared Function ConvertToUTF8(ByVal html As String) As String
    Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1")
    Dim source As Byte() = isoEncoding.GetBytes(html)
    Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source))
End Function

Des idées?

EDIT:

Je suis arriver avec cela pour l'instant, bien qu'il ne semble guère être une bonne solution:

Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String
    Return Regex.Replace(html, "[^\u0000-\u007F]", "&nbsp;")
End Function

Le HTML contient aucune méta de détails pour décrire son jeu de caractères?
[Précédente, a commenté supprimé] réponse Courte: non.
Pour moi travaillé: utf8_decode()

InformationsquelleAutor Cᴏʀʏ | 2009-09-22

324

Quelque part dans ce désordre, les espaces insécables à partir du modèle HTML (le s) l'encodage ISO-8859-1, de sorte qu'elles s'affichent de manière incorrecte comme un "Â" caractère

Que j'avais de l'encodage UTF-8, puis, pas ISO-8859-1. L'espace insécable est le byte 0xA0 en ISO-8859-1; lorsqu'ils sont encodés en UTF-8, ça serait 0xC2,0xA0, qui, si vous (à tort) la considèrent comme ISO-8859-1 en tant que "Â ". Qui comprend une fuite nbsp dont vous ne pouvez pas le remarquer; si cet octet n'est pas là, alors quelque chose d'autre a malmené votre document et nous avons besoin de voir plus loin jusqu'à trouver ce qui.

Quelle est la regexp, comment la création de modèles de travail? Il semble être un bon analyseur HTML impliqué quelque part, si votre   chaînes sont (bien) être transformé en U+00A0 ESPACE insécable caractères. Si oui, vous pouvez simplement le processus de votre modèle de mode natif dans les DOM, et de lui demander de serialise à l'aide de l'encodage ASCII pour garder les caractères non-ASCII comme des références. Ce serait aussi arrêter de vous avoir à faire des regex de post-traitement sur le code HTML lui-même, qui est toujours fortement de l'affairisme.

Bien de toute façon, pour l'instant vous pouvez ajouter l'un des éléments suivants de votre document <head> et voir si cela fait regarder à droite dans le navigateur:
- pour HTML4: <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
- de HTML5: <meta charset="utf-8">
Si vous avez fait cela, alors aucun problème restant est ActivePDF la faute.
- <meta charset="utf-8"> en HTML5
- Je ne recommanderais pas <meta charset="utf-8"> encore. Le http-equiv version est toujours valide en HTML5 et est mieux pris en charge.
- Réponses à partir de Lequel Utiliser: <meta charset='utf-8" > vs <meta http-equiv= "Content-Type" de l'état que la version courte est bien pris en charge.
- Trouvé une autre source Cela fonctionne dans tous les navigateurs
- Il fonctionne dans toutes les moderne navigateurs. Il n'est certainement pas de travailler dans tous les legs et de niche (par exemple mobile) des navigateurs, ou sur toutes les araignées.
- "Quelque part dans ce merdier"... LOL! Nice est ouvert! Bonne réponse! +1
- Nice one, a eu le même problème avec asp.net et AspPDF PDF generator. Placé à la tête de la page et il est tout beau maintenant.
- c'est une grande réponse 🙂
- Fonctionne sur TuesPechkin HTML/PDF generator dans .NET aussi. Grande correction!
- vous monsieur n'sauver ma journée! +1 🙂
InformationsquelleAutor bobince
24

Si quelqu'un avait le même problème que moi et le jeu de caractères a déjà été correct, il suffit de faire ceci:
1. Copiez tout le code à l'intérieur de l' .fichier html.
2. Ouvrir le bloc-notes (ou tout éditeur de texte de base) et de coller le code.
3. Aller "Fichier -> Enregistrer sous"
4. Entrez votre nom de fichier "example.html" (cliquez sur "Enregistrer en tant que type: Tous les Fichiers (.)")
5. Sélectionnez l'Encodage en UTF-8
6. Cliquez sur Enregistrer et vous pouvez maintenant supprimer votre ancien .fichier html et le fichier de codage doit être fixé
- Cela n'a pour moi. Maintenant, dans le sublime il dit UTF-8 with BOM au lieu de UTF-8. Pour voir ce sublime texte, vous devez show_encoding ensemble de true dans les Paramètres de l'Utilisateur.
- J'ai eu le problème que le fait de montrer Â au lieu de » , amd Lors de l'Utilisation de cette solution, le problème est résolu mais il y a un php warning: Warning: session_start(): Cannot send session cache limiter - headers already sent (output started at D:\Program Files\wamp\wamp\www\projects\kerala\kerala_public_html\edit\business_details.php:1) in D:\Program Files\wamp\wamp\www\projects\kerala\kerala_public_html\user\include\fg_membersite.php on line 152
- a travaillé pour moi. excellent 😀
- Cette solution a fonctionné pour moi. Je travaillais dans notepad++, et quand je l'ai enregistré dans la base de ms bloc-notes en tant que UTF-8, après l'ouverture du nouveau fichier dans notepad++, le codage a été définie pour l'UTF-8 BOM (dont je ne suis pas sûr de ce que signifie). De toute façon, qui semble avoir été le problème pour moi.
- Merci!!!! Cela a fait le tour. Je vois dans la requête/réponse le fichier (dans mon cas, ASPX) a été codé en UTF-8. Notepad++ s'il avait encodé en UTF-8, aussi. Ce que le diable, non? Mais vous avez la solution a fait le tour. Pour moi, c'était un espagnol phrase qui n'était pas le codage correctement sur la page. J'ai lu ailleurs de ne pas utiliser l'UTF-8 BOM pour l'espagnol, mais il fixe pour moi.
InformationsquelleAutor Low
11

Problème:
Même j'ai été confronté au problème où nous étions l'envoi '£' avec une chaîne de caractères dans la requête POST CRM Système, mais quand nous avons fait la OBTENIR de l'appel de CRM , il était en train de revenir 'Â£' avec une certaine chaîne de contenu. Donc, ce que nous avons analysé est que '£' a se converti à 'Â£'.

Analyse:
Le problème que nous avons trouvé après avoir fait des recherches, c'est que dans l'après appel, nous avons mis HttpWebRequest ContentType comme "text/xml" tandis que dans d'OBTENIR de l'Appel, il a été "text/xml; charset:utf-8".

Solution:
De sorte que la partie de la solution, nous avons inclus les charset:utf-8 dans la requête POST et ça fonctionne.

InformationsquelleAutor Himanshu Tarsoliya
-1

Dans mon cas, j'ai été prise en croix latine signe au lieu de nbsp, même qu'une page a été correctement encodé en UTF-8. Rien de ci-dessus a aidé à résoudre le problème et j'ai essayé toutes.

En fin de compte le changement de police pour IE (avec un navigateur spécifique, css) a aidé, j'ai été en utilisant Helvetica-Nue comme un corps de police changeant de la police Arial résolu le problème .

InformationsquelleAutor Mohika
-1

Bien je l'ai eu ce Problème aussi dans mes quelques sites web et tout ce que je dois faire est de personnaliser le contenu fetler pour les entités HTML. avant que plus je les supprimer plus je l'ai eu, donc il suffit de changer vous html fiter ou de l'analyse de la fonction de la page et ça a fonctionné. Ses principalement en raison des éditeurs HTML dans la plupart des Cms. le fait qu'ils stockent analyser les données à l'origine du problème (Dans Mon cas). Peut que ce serait Aider dans votre cas trop

InformationsquelleAutor JK-Ryder
-2

J'ai eu le même genre de problème. Apparemment, c'est tout simplement parce que PHP ne reconnaît pas l'utf-8.

Je déchirait mes cheveux au début, quand un '£' gardé signe montrant que 'Â£', bien que figurant sur ok dans DreamWeaver. Finalement, je me suis souvenu que j'avais eu des problèmes avec des liens par rapport à l'indice de fichier, lorsque les pages, si on les regarde directement serait de travailler avec des diaporamas, mais pas lorsqu'il est utilisé avec un include (mais c'est à côté de la question. De toute façon, je me demandais si cela pourrait être un problème similaire, donc au lieu de mettre dans la page que j'ai eu des problèmes avec, j'ai simplement mis dans le index.php fichier - problème fixe tout au long de.

InformationsquelleAutor FourPart
-3

La raison pour cela est PHP ne reconnaît pas l'utf-8.

Ici, vous pouvez vérifier pour tous les Caractères Spéciaux en HTML

http://www.degraeve.com/reference/specialcharacters.php
- Ce n'était pas une question à propos de PHP, c'est VB.NET.
- je n', mais vous pouvez utiliser ces caractères pour résoudre le problème . ce fixe ma solution.
InformationsquelleAutor al123

Vous devez vous connecter pour publier un commentaire.