HTMLParser.HTMLParser().ne pas encoder() ne fonctionne pas

Je voudrais le convertir en entités HTML de retour à son format lisible par l'homme, par exemple,'£''£', '°' ' ° ' etc.

J'ai lu plusieurs posts à ce sujet

La conversion de la source html du contenu en format lisible avec Python 2.x

Décoder les entités HTML en Python chaîne?

Convertir XML/HTML Entités en Chaîne Unicode en Python

et selon eux, j'ai choisi d'utiliser les sans-papiers de la fonction ne pas encoder(), mais il ne fonctionne pas pour moi...

Mon exemple de code, c'est comme:

import HTMLParser

htmlParser = HTMLParser.HTMLParser()
decoded = htmlParser.unescape('&copy; 2013')
print decoded

Quand j'ai couru ce script python, la sortie est toujours:

&copy; 2013

au lieu de

© 2013

Je suis à l'aide de Python 2.X, qui fonctionne sous Windows 7 et Cygwin console. J'ai googlé et n'a pas trouvé de problèmes similaires..quelqu'un Pourrait-il m'aider?

J'ai essayé de l'appeler à partir de la ligne de commande et le temps d'INACTIVITÉ, et il ne fonctionne pas pour moi (Python 2.7 sous Windows 8).

OriginalL'auteur D.Q. | 2013-07-19

6

Apparemment HTMLParser.unescape était un peu plus primitive avant Python 2.6.

Python 2.5:
```
>>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
'&copy;'
```
Python 2.6/2.7:
```
>>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('&copy;')
u'\xa9'
```
Voir le 2.5 mise en œuvre vs le 2.6 mise en œuvre /2.7 mise en œuvre

il est html.unescape() en Python 3.4+

OriginalL'auteur DrMeers

Ce site listes de certaines solutions, voici l'un d'eux:

from xml.sax.saxutils import escape, unescape

html_escape_table = {
    '"': "&quot;",
    "'": "&apos;",
    "©": "&copy;"
    # etc...
}
html_unescape_table = {v:k for k, v in html_escape_table.items()}

def html_unescape(text):
    return unescape(text, html_unescape_table)

Pas la plus jolie chose si, puisque vous avez à la liste de chaque échappé symbole manuellement.

EDIT:

Comment à ce sujet?

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

salut, je vous remercie pour votre réponse. Mais le contenu de ma page html est inconnu, donc à moins que j'ai la liste de toutes les html des caractères spéciaux...
J'ai ajouté une nouvelle méthode, il a travaillé pour moi.

OriginalL'auteur epiphone

Vous devez vous connecter pour publier un commentaire.