HTMLParser.HTMLParser().ne pas encoder() ne fonctionne pas
Je voudrais le convertir en entités HTML de retour à son format lisible par l'homme, par exemple,'£'
'£', '°'
' ° ' etc.
J'ai lu plusieurs posts à ce sujet
La conversion de la source html du contenu en format lisible avec Python 2.x
Décoder les entités HTML en Python chaîne?
Convertir XML/HTML Entités en Chaîne Unicode en Python
et selon eux, j'ai choisi d'utiliser les sans-papiers de la fonction ne pas encoder(), mais il ne fonctionne pas pour moi...
Mon exemple de code, c'est comme:
import HTMLParser
htmlParser = HTMLParser.HTMLParser()
decoded = htmlParser.unescape('© 2013')
print decoded
Quand j'ai couru ce script python, la sortie est toujours:
© 2013
au lieu de
© 2013
Je suis à l'aide de Python 2.X, qui fonctionne sous Windows 7 et Cygwin console. J'ai googlé et n'a pas trouvé de problèmes similaires..quelqu'un Pourrait-il m'aider?
OriginalL'auteur D.Q. | 2013-07-19
Vous devez vous connecter pour publier un commentaire.
Apparemment
HTMLParser.unescape
était un peu plus primitive avant Python 2.6.Python 2.5:
Python 2.6/2.7:
Voir le 2.5 mise en œuvre vs le 2.6 mise en œuvre /2.7 mise en œuvre
html.unescape()
en Python 3.4+OriginalL'auteur DrMeers
Ce site listes de certaines solutions, voici l'un d'eux:
Pas la plus jolie chose si, puisque vous avez à la liste de chaque échappé symbole manuellement.
EDIT:
Comment à ce sujet?
J'ai ajouté une nouvelle méthode, il a travaillé pour moi.
OriginalL'auteur epiphone