Python UTF-8 comparaison

a = {"a":"çö"}
b = "çö"
a['a']
>>> '\xc3\xa7\xc3\xb6'

b.decode('utf-8') == a['a']
>>> False

Ce qui se passe là-dedans?

edit= je suis désolé, c'était mon erreur. C'est encore Faux. Je suis à l'aide de Python 2.6 sur Ubuntu 10.04.

Pourquoi avez-vous vous attendez à ce que la comparaison entre une chaîne et un dict donnerait n'importe quoi mais False? Qu'attendiez-vous?

InformationsquelleAutor erkangur | 2010-08-03

28

Solutions possibles

Écrire comme ceci:
```
a = {"a": u"çö"}
b = "çö"
b.decode('utf-8') == a['a']
```
Ou comme ceci (vous pouvez également ignorer les .decode('utf-8') sur les deux côtés):
```
a = {"a": "çö"}
b = "çö"
b.decode('utf-8') == a['a'].decode('utf-8')
```
Ou comme ceci (ma recommandation):
```
a = {"a": u"çö"}
b = u"çö"
b == a['a']
```
Explication

Mis à jour en fonction de Tim commentaire. Dans votre code, b.decode('utf-8') == u'çö' et a['a'] == 'çö', de sorte que vous êtes en train de faire la comparaison suivante:
```
u'çö' == 'çö'
```
L'un des objets est de type unicode, l'autre est de type str, de sorte que, pour l'exécution de la comparaison, le str est converti à unicode et puis les deux unicode objets sont comparés. Il fonctionne très bien dans le cas de purement chaînes ASCII, par exemple: u'a' == 'a', depuis unicode('a') == u'a'.

Cependant, il échoue dans le cas de u'çö' == 'çö', depuis unicode('çö') renvoie l'erreur suivante: UnicodeDecodeError: 'ascii' codec ne peut pas décoder les octets 0xc3 en position 0: ordinal pas in range(128), et donc l'ensemble de comparaison renvoie False et les enjeux de l'avertissement suivant: UnicodeWarning: Unicode comparaison égale a échoué à convertir à la fois les arguments en Unicode - interpréter comme étant inégale.
- "Dans votre version du code, le type(a['a']) est str, tandis que le type b.decode('utf-8')) est unicode, d'où l'inégalité." Cette déclaration est fausse, comme l'tests d'égalité des valeurs. UTF-8 & caractères ASCII ont les mêmes valeurs: u a' == 'a'
- Vous avez raison, je n'étais pas précis. Ce que je voulais dire, c'est que Python 2.6.5 sur Ubuntu 10.4 met en garde explicitement que: UnicodeWarning: Unicode comparaison égale a échoué à convertir à la fois les arguments en Unicode - interpréter comme étant inégale.
- J'ai mis à jour ma réponse basée sur Tim commentaire.
InformationsquelleAutor Bolo
5

b est un string, a est un dict

Vous voulez (je crois):

b == a['a']

InformationsquelleAutor NullUserException
3

UTF-8 est un encodage utilisé pour enregistrer le texte Unicode dans les fichiers. Toutefois, en Python vous travaillez avec des objets qui ont un moyen de représenter le texte Unicode, et de cette façon n'est pas de l'UTF-8.

Vous pouvez toujours comparer des chaînes Unicode Python, mais c'est sans rapport avec l'UTF-8, sauf que si vous voulez mettre des constantes dans ces chaînes Unicode, alors vous aurez besoin d'encoder le texte du fichier contenant votre code source, en UTF-8. Dès que l'opérateur d'affectation est exécutée, la chaîne n'est plus UTF-8, mais c'est maintenant le Python représentation interne.

Par ailleurs, si vous faites des comparaisons avec Unicode, vous souhaiterez probablement utiliser le unicodedata module et de normaliser les cordes avant de comparaisons sont faites.

InformationsquelleAutor Michael Dillon
2

Essayer
b == a['un']

InformationsquelleAutor PaulMcG
2

De la comparaison d'une chaîne à une dict.
```
>>> a = {"a":"çö"}
>>> b = "çö"
>>> a == b
False
>>> a['a'] == b
True
```
Si vous comparez la chaîne (b) le membre de (a['a']), puis vous obtenez le résultat souhaité.

InformationsquelleAutor brennie
0

Assurez-vous que votre code est en UTF-8 (et NON en Latin-1) et/ou d'utiliser une ligne de codage de la manière suivante:
```
#! /usr/bin/python
# -*- coding: utf-8 -*-
a = {"a": u"çö"}
b = "çö"
assert b == a['a']
assert b.decode('utf-8') == a['a'].decode('utf-8')
```
Si vous êtes en utilisant unicode, vous pouvez importer unicode_literals de l'avenir et de réduire l'encodage des chagrins d'amour:
```
#! /usr/bin/python
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
a = {"a": u"çö"}
b = "çö"
assert b == a['a']
assert b == a['a']
assert b.encode('utf-8') != a['a']
assert b.encode('utf-8') == a['a'].encode('utf-8')
```
Si un fichier utilise unicode_literals, toutes les "ficelles" sont maintenant u"unicode" des objets (par le codage du fichier) s'ils ne sont pas b"ajouté" avec un b (pour émuler la chaîne/octets divisé en Python 3.X).

InformationsquelleAutor Jason Scheirer
0

NullUserException est juste que cela doit être correct:
```
b == a['a']
```
Vous êtes encore en train de "Faux" parce que vous êtes le décodage d'un côté comme de l'utf-8 (création d'une chaîne Unicode) tandis que l'autre reste une codé en utf-8 chaîne d'octets.

InformationsquelleAutor chryss

Vous devez vous connecter pour publier un commentaire.

Solutions possibles

Explication