Comment puis-je traiter une chaîne de caractères au format unicode et ne pas encoder les caractères d'échappement dans en python?

Par exemple, si j'ai un unicode chaîne, je peux le coder comme un ASCII chaîne comme suit:

>>> u'\u003cfoo/\u003e'.encode('ascii')
'<foo/>'

Cependant, j'ai, par exemple, cette ASCII chaîne:

'\u003foo\u003e'

... que je veux à son tour tenu de la même ASCII chaîne comme dans mon premier exemple ci-dessus:

'<foo/>'

InformationsquelleAutor John | 2008-11-06

45

Il m'a fallu un certain temps pour comprendre cela, mais cette page avait la meilleure réponse:
```
>>> s = '\u003cfoo/\u003e'
>>> s.decode( 'unicode-escape' )
u'<foo/>'
>>> s.decode( 'unicode-escape' ).encode( 'ascii' )
'<foo/>'
```
Il y a aussi un "raw-unicode-escape' codec pour traiter les autres de la manière d'indiquer des chaînes Unicode -- cocher la case "Unicode Constructeurs" de la section de la page pour plus de détails (car je ne suis pas Unicode-saavy).

EDIT: Voir aussi Python Standard Encodages.
- python.org/doc/2.5.2/lib/standard-encodings.html
- Notez qu'il ne s'applique que pour Python 2. En Python 3, toutes les chaînes sont des objets unicode stackoverflow.com/questions/28583565/...
InformationsquelleAutor hark
2

Ned Batchelder dit:
C'est un peu dangereux selon l'endroit où la chaîne vient de,
mais que diriez-vous:
```
>>> s = '\u003cfoo\u003e'
>>> eval('u"'+s.replace('"', r'\"')+'"').encode('ascii')
'<foo>'
```
En fait, cette méthode peut être faite sans danger comme suit:
```
>>> s = '\u003cfoo\u003e'
>>> s_unescaped = eval('u"""'+s.replace('"', r'\"')+'-"""')[:-1]
```
L'esprit de la triple-devis chaîne et le tableau de bord juste avant la clôture 3-citations.
1. À l'aide d'un 3-chaîne de caractères entre guillemets fera en sorte que si l'utilisateur entre ' \\" ' (espaces ajoutés pour la clarté visuelle) dans la chaîne, il ne serait pas perturber l'évaluateur;
2. Le tableau de bord à la fin est un failsafe dans le cas où l'utilisateur de la chaîne se termine par un ' \" ' . Avant de nous attribuer le résultat nous découpons les insérée tableau de bord avec [:-1]
Donc, il n'y aurait pas besoin de s'inquiéter de ce que les utilisateurs d'entrer, tant qu'elle est saisie dans le format raw.

InformationsquelleAutor MakerDrone
1

Sur Python 2.5 l'encodage correct est "unicode_escape", pas "unicode-escape" (notez le trait de soulignement).

Je ne sais pas si la version la plus récente de Python changé le nom unicode, mais ici seulement travaillé avec le trait de soulignement.

De toute façon, c'est ça.

InformationsquelleAutor Kaniabi
1

À un certain point, vous allez rencontrer des problèmes lorsque vous rencontrez des caractères spéciaux comme les caractères Chinois ou des émoticônes dans une chaîne de caractères que vous souhaitez décoder c'est à dire des erreurs qui ressemblent à ceci:
```
UnicodeEncodeError: 'ascii' codec can't encode characters in position 109-123: ordinal not in range(128)
```
Pour mon cas (twitter traitement des données), j'ai décodé comme suit pour me permettre de voir tous les personnages sans erreurs
```
>>> s = '\u003cfoo\u003e'
>>> s.decode( 'unicode-escape' ).encode( 'utf-8' )
>>> <foo>
```
InformationsquelleAutor OkezieE
0

C'est un peu dangereux selon l'endroit où la chaîne est à venir, mais que diriez-vous:
```
>>> s = '\u003cfoo\u003e'
>>> eval('u"'+s.replace('"', r'\"')+'"').encode('ascii')
'<foo>'
```
- Malheureusement, notre entrée est à venir des utilisateurs ce serait trop dangereux pour nous.
InformationsquelleAutor Ned Batchelder

Vous devez vous connecter pour publier un commentaire.