Dangers du sys.setdefaultencoding('utf-8')

Il y a une tendance à décourager la configuration sys.setdefaultencoding('utf-8') en Python 2. Quelqu'un peut-il la liste des exemples concrets de problèmes avec ça? Des Arguments comme it is harmful ou it hides bugs n'est pas très convaincante.

Mise à JOUR: Veuillez noter que cette question n'est que d'environ utf-8, il n'est pas sur la modification de codage par défaut "dans le cas général".

Veuillez donner quelques exemples avec le code si vous le pouvez.

comment voulez-vous l'utiliser? Si vous parlez de la modification de sitecustomize.py ensuite, lorsque le code est exécuté sur d'autres ordinateurs, vous pourriez bien avoir des bugs
Si vous avez une décoder ou encoder erreur c'est probablement pour une raison évidente, je.e s = u'é' str(s) . Vous devez travailler avec un type string ou unicode et de gérer l'encodage explicite.
stackoverflow.com/questions/28642781/..., pas de paramètres globaux - application seule.
peut-être pertinent mail.python.org/pipermail/python-dev/2009-August/091406.html Vous pouvez obtenir des effets bizarres causé par le fait que certains objets string allons maintenant comparer l'égalité ne sont pas nécessairement avoir la même valeur de hachage. Unicode objets et les chaînes de caractères ont la même valeur de hachage pour autant qu'ils sont à la fois ASCII. Avec l'ASCII codage par défaut, un non-ASCII chaîne ne peut pas être comparé à un objet Unicode, donc le problème ne se produit pas.
UTF-8 chaîne n'est pas un objet Unicode encore, et quel que soit le codage de ces objets string ne se comparent égales si elles ont un contenu différent. Sauf si il y a un bug dans Python fonction de hachage,
Parce que vous êtes l'incompréhension comment Python fonctionne avec des encodages si vous pensez que vous en avez besoin. Voici une présentation de comment l'utiliser correctement: farmdev.com/talks/unicode – Que d'un côté, si l'argument “il se cache bugs” ne semble pas convaincant, que peut-être le véritable problème. (Et oui, Unicode Python 2 suce. Mais sys.setdefaultencoding n'est pas la solution.) Et enfin, si vous voulez voir un bug, il provoque, ne cherchez pas plus loin: stackoverflow.com/a/28627705/1968
c'est pourquoi je demande un exemple réel que je peux comprendre.
voici un exemple d'une question lorsqu'un utilisateur a vissé parce que l'Auteur de PyDev pense que c'est une bonne idée de mettre en sys.setdefaultencoding('utf-8'). Voici un blog de quelqu'un d'autre qui a vissé par cette avec quelques détails de plus en plus de liens.
Une belle annonce aujourd'hui sur le sujet: anonbadger.wordpress.com/2015/06/16/...

InformationsquelleAutor anatoly techtonik | 2015-02-22

22

L'affiche originale a demandé de code qui montre que l'interrupteur est dangereux—sauf qu'il "cache" bugs sans rapport avec le commutateur.

Résumé des conclusions

Basé à la fois sur l'expérience et des données que j'ai recueillies, voici les conclusions auxquelles je suis arrivé au.
1. Réglage de la defaultencoding de l'UTF-8 de nos jours est sûr, sauf pour des applications spécialisées, manipulation de fichiers non unicode prêt systèmes.
2. "Officiel" rejet de l'interrupteur est basé sur des raisons qui ne sont plus pertinentes pour une grande majorité d'utilisateurs (pas de bibliothèque fournisseurs), de sorte que nous devrions cesser de décourager les utilisateurs à définir.
3. De travail dans un modèle qui gère l'Unicode correctement par défaut est de loin mieux adapté pour les applications de la inter-systèmes de communications que manuellement travailler avec unicode Api.
Effectivement, la modification de l'encodage par défaut très fréquemment évite un certain nombre de l'utilisateur maux de tête dans la grande majorité des cas d'utilisation. Oui, il existe des situations dans lesquelles les programmes d'encodages multiples silencieusement se conduisent mal, mais depuis ce commutateur peut être activé de façon fragmentaire, c'est pas un problème dans le code de l'utilisateur.

Plus important encore, l'activation de ce drapeau est un réel avantage est des utilisateurs de code, à la fois par la réduction de la surcharge d'avoir à gérer manuellement conversions Unicode, encombrer le code et de le rendre moins lisible, mais aussi en évitant les éventuels bugs lorsque le programmeur ne parvient pas à le faire correctement dans tous les cas.

Étant donné que ces revendications sont à peu près l'exact opposé de Python ligne officielle de la communication, je pense que l'une des explications de ces conclusions est justifiée.

Exemples de succès en utilisant une version modifiée de defaultencoding dans la nature
1. Dave Malcom de Fedora pense que c'est toujours droit. Il a proposé, après avoir enquêté sur les risques, l'évolution de la distribution à l'échelle def.enc.=UTF-8 pour tous les utilisateurs de Fedora.
  
  Dur fait présenté si pourquoi Python serait pause n'est que le hachage de comportement je répertorié, qui n'est jamais repris par tout autre adversaire dans le noyau de la communauté, comme une raison de s'inquiéter ou même par le même personne, lorsque l'on travaille sur de l'utilisateur de billets.
  
  Résumé de Fedora: Certes, le changement lui-même a été décrit comme "follement impopulaire" avec les développeurs, et il a été accusé d'être incompatible avec les versions précédentes.
2. Il y a 3000 de projets à l'openhub de le faire. Ils ont une recherche lente frontend, mais la numérisation sur elle, j'estime à 98% l'utilisation de l'UTF-8. Rien trouvé sur de mauvaises surprises.
3. Il y a 18000(!) github maître branches avec elle changé.
  
  Alors que le changement est "impopulaire" au cœur de la communauté assez populaires dans la base des utilisateurs. Bien que cela puisse être écartée, puisque les utilisateurs sont connus pour utiliser des hacky solutions, je ne pense pas que c'est un argument pertinent en raison de mon prochain point.
4. Il y a seulement 150 bugreports total sur GitHub à cause de cela. À un taux de manière efficace à 100%, le changement semble être positive, et non négative.
  
  Pour résumer les problèmes existants personnes ont courir dans les, j'ai scanné par le biais de toutes ces billets.
  - Chaging def.enc. UTF-8 est généralement introduit mais pas supprimé la question d'un processus de clôture, le plus souvent comme une solution. Certains plus grands excuser comme correctif temporaire, compte tenu de la "mauvaise presse" il a, mais beaucoup plus de bug, les journalistes juste heureux sur le correctif.
  - Un peu (1 à 5?) les projets de modification de leur code à faire les conversions de type manuellement de sorte qu'ils n'ont pas besoin de changer la valeur par défaut plus.
  - Dans les deux cas je vois quelqu'un qui prétend qu'avec def.enc. ensemble de l'UTF-8 conduit à une absence totale de sortie entièrement, sans en expliquer la configuration de test. Je ne pouvais pas vérifier cette affirmation, et j'ai testé un et a trouvé le contraire pour être vrai.
  - Un les réclamations son "système" peut dépendre de ne pas changer, mais nous n'apprenons pas pourquoi.
  - (Et seulement) avait une vraie raison pour l'éviter: ipython utilise soit un 3ème partie module ou le test runner modifié leurs processus de manière incontrôlée (il n'est jamais contesté que le def.enc. le changement est préconisé par son promoteurs seulement à l'interprète de temps d'installation, c'est à dire lorsque les "posséder" le processus).
5. J'ai trouvé l'indication zéro que les différentes valeurs de hachage de 'é' et u é' provoque des problèmes dans le monde réel code.
6. Python n' pas "pause"
  
  Après avoir modifié le réglage de l'UTF-8, pas de fonctionnalité de Python couverts par les tests unitaires est de travailler différemment, sans le commutateur. Le commutateur lui-même, cependant, n'est pas testé du tout.
7. Il est conseillé sur les bugs.python.org aux frustrations des utilisateurs
  
  Exemples ici, ici ou ici
  (souvent en rapport avec la ligne officielle de l'avertissement)
  
  Le premier montre comment établi que l'interrupteur est en Asie (comparer aussi avec le github de l'argumentation).
8. Ian Bicking publié son soutien pour toujours l'activation de ce comportement.
  
  Je peux faire mes systèmes et des communications de façon constante UTF-8, les choses vont juste aller mieux. Je ne vois vraiment pas un inconvénient. Mais pourquoi Python assurez-il SI SACRÉMENT DUR [...] j'ai l'impression que quelqu'un a décidé qu'ils étaient plus intelligents que moi, mais je ne suis pas sûr que je le crois.
9. Martijn Fassen, tout en réfutant Ian, admis que ASCII pourrait avoir été mal dans la première place.
  
  Je crois que si, par exemple, Python 2.5, livré par défaut avec un encodage UTF-8, il ne serait pas casser quoi que ce soit. Mais si je l'ai fait pour mon Python, j'aurais des problèmes dès que j'ai donné mon code à quelqu'un d'autre.
10. En Python3, ils ne sont pas en pratique ce qu'ils prêchent"
  
  Tout en s'opposant à toute définition.enc. changement si durement en raison de l'environnement code dépendant désire, une discussion ici tourne Python3's des problèmes avec ses "unicode sandwich" paradigme et le correspondant tenu des hypothèses implicites.
  
  En outre, ils ont créé des possibilités pour écrire valide Python3-code comme:
```
>>> from 褐褑褒褓褔褕褖褗褘 import *        
>>> def 空手(合氣道): あいき(ど(合氣道))
>>> 空手(う힑힜(' ') + 흾)
```
11. DiveIntoPython le recommande.
12. Dans ce fil, Guido lui-même conseille un professionnel de l'utilisateur final utiliser un processus spécifique environt avec le commutateur à "créer un environnement Python pour chaque projet."
  
  La raison fondamentale pour laquelle les designers de Python 2.x de la bibliothèque standard ne veux pas que vous soyez en mesure de définir l'encodage par défaut de votre application, c'est que la bibliothèque standard est écrit avec l'hypothèse que l'encodage par défaut est fixe, et aucune garantie quant au bon fonctionnement de la bibliothèque standard peut être fait quand vous le changez. Il n'y a pas de tests pour cette situation. Personne ne sait ce qui va échouer lorsque. Et vous (ou pire, de vos utilisateurs) vont venir nous voir avec des plaintes si le standard de la bibliothèque se met soudain à faire des choses que vous n'attendiez pas.
13. Jython propose de le changer à la volée, même dans des modules.
14. PyPy a pas support de rechargement(sys) - mais il ramena sur la demande de l'utilisateur au sein d'un seul jour sans se poser de questions. Comparer avec la "vous le faites mal" attitude de Disponible, revendiquant sans preuve c'est la "racine du mal".
Fin de cette liste, je confirme que l'on pourrait construire un module qui se bloque parce que de changement d'interprète de config, de faire quelque chose comme ceci:
```
def is_clean_ascii(s):
    """ [Stupid] type agnostic checker if only ASCII chars are contained in s"""
    try:
        unicode(str(s))
        # we end here also for NON ascii if the def.enc. was changed
        return True
    except Exception, ex:
        return False    

if is_clean_ascii(mystr):
    <code relying on mystr to be ASCII>
```
Je ne pense pas que ce soit un argument valable, car la personne qui a écrit ce double type d'accepter module était évidemment au courant au sujet de l'ASCII et non des chaînes ASCII et serait au courant de l'encodage et du décodage.

Je pense que cette preuve est plus d'une indication suffisante que la modification de ce paramètre ne conduisent pas à des problèmes dans le monde réel des bases de codes la vaste majorité du temps.
- Ne devrait-ce pas être une entrée de blog par un lien dans un commentaire sur Martijn de réponse?
- merci pour les commentaires, j'ai maintenant un résumé de mes recherches sur le dessus.
- Cette réponse est vraiment beaucoup trop long, et donc inutilement. La plupart de vos arguments à l'appui, ceux qui occupent la majeure partie de votre post, semble être rien de plus qu'un argumentum ad populum au mieux, et un preuve par verbosité au pire. En outre, la totalité de l'article sur la normalisation et l'encodage n'est pas pertinent et qui appartient à un post de blog, pas dans une réponse sur un Débordement de Pile. Votre réponse serait beaucoup mieux si vous avez simplement distillée le des raisons techniques pour votre avis, rien de plus.
- Merci, Alexis, pour la grande édition exécuter.
- Quelques observations particulières: la définition d'un autre défaut, c'est comme l'aide goto. Bien sûr, vous pouvez le faire fonctionner, mais vous aurez un moment plus difficile pour elle que vous développez l'application. Vous obtenez d'être incohérent dans votre gestion de l'Unicode et que va vous mordre. La plupart des gens qui l'utilisent ne pas comprendre Unicode et pense que c'est le chemin le plus facile.
- Les Arguments que beaucoup de GitHub le code utilise ce n'est pas la preuve qu'il est normal d'utilisation, il peut aussi être considérée comme la preuve la plupart des développeurs ne savent pas utiliser Unicode correctement. Vous constatez le même problème avec manque d'expérience des développeurs utilisent super(). Généralement parlant, c'est un de Culte du Cargo, appliquée appliquée sans comprendre comment ça marche ou si elle est nécessaire à tous.
- Vous avez raison, une valeur par défaut doit, de façon très générale, ne jamais être changé, juste parce que les problèmes disparaissent comme par magie et vous ne savez pas pourquoi. Vous doit savoir ce qu'u r faire. Mais SI vous savez ce que c'est le cas alors Python2 est tout simplement préférable de travailler avec. Mieux que Py3 pour moi - mais c'est une autre histoire 😉
- J'ai aussi commencé à comprendre que votre principal problème avec cela semble être le (approuvé) fait que votre code pourrait obtenir incompatible concernant les types de chaînes de voyager à travers, certains unicode certains octet, tandis que sans le passage du crash. Ici aussi, je suis avec vous: On devrait décider avant d'écrire la première Py2 l'.o.c., si sa lib ou processus devrait être de travailler avec unicode OU par des octets de façon cohérente. Nous préférons octets - avec de bonnes raisons.
- arriver à être incohérent dans votre gestion de l'Unicode et que va vous mordre. "Pourriez-vous élaborer sur ce seront les problèmes de mordre nous? Donc setdefaultencoding semble être plutôt un moyen sûr. Si quelque chose allait se briser grand moment, n'aurions nous pas entendu parler de cela maintenant, et ne pas dire chose qui se brise sur l'aide d'un autre encodage par défaut doit être corrigé? Merci pour votre perspicacité. IMO la façon Python 2.x continue de refuser de traiter ASCII > 127 par défaut est plutôt des arcanes (même si je suis entièrement en faveur de Python contraire)...
- Python 2.0 a été la première version de Python pour introduire le support de l'Unicode, en octobre 2000. Il comprenait la décision, puis de désactiver le réglage de l'encodage par défaut. Cela signifie qu'il est maintenant 15 ans de l'héritage de code qui s'appuie sur la capacité d'attraper une exception lorsque vous essayez de concaténer des non-ASCII octets octets qui ne sont pas décodable ASCII, etc. Vous ne pouvez pas corriger si ce code.
- et ce que vous appelez "arcane" est appelé en arrière et en avant la compatibilité, une exigence lors de votre langage est utilisé par des milliards d'ordinateurs dans le monde. Python 3 pourrait changer, car il n'a fait aucune promesse sur la compatibilité.
- > cela signifie Qu'il est maintenant de 15 ans d'héritage de code qui s'appuie sur la capacité d'attraper une exception (...). En fait, les 15 ans d'héritage code s'appuie sur la norme de lib de travailler avec unicode (c'est à dire sometext'.decode('whatever'), et de ne pas soutenir la modification de la defaultenconding à mon humble avis est l'équivalent de dire que nous ne sommes pas sûr de savoir si le support de l'unicode fonctionne réellement [dans la stdlib]. De toute façon je obtenir votre point de vue. Essentiellement, cela signifie commutation defaultencoding n'est pas officiellement pris en charge, cependant, comme cela répond souligne, dans certaines circonstances, il y a des avantages à le faire. Merci pour votre POV.
- Ayant cette connaissance plus tôt nous aurions jamais eu besoin de Python 3, malade de perdre une décennie de Python du temps de la communauté, provoquant un manque d'innovation
- Cela résume assez bien mon post original dans une seule ligne.
InformationsquelleAutor
16

Parce que vous n'avez pas toujours voulez avoir vos chaînes automatiquement décodé en Unicode, ou de votre Unicode objets automatiquement encodée à octets. Puisque vous demandez un exemple concret, voici un:

Prendre un WSGI application web; vous êtes la construction d'une réponse par l'ajout du produit d'un processus externe d'une liste, dans une boucle, et que ce processus externe, vous donne codé en UTF-8 octets:
```
results = []
content_length = 0

for somevar in some_iterable:
    output = some_process_that_produces_utf8(somevar)
    content_length += len(output)
    results.append(output)

headers = {
    'Content-Length': str(content_length),
    'Content-Type': 'text/html; charset=utf8',
}
start_response(200, headers)
return results
```
Qui est grande et fine et travaille. Mais alors, votre co-travailleur de la vient le long, et ajoute une nouvelle fonctionnalité, vous êtes en train de fournir des étiquettes de trop, et ceux-ci sont localisés:
```
results = []
content_length = 0

for somevar in some_iterable:
    label = translations.get_label(somevar)
    output = some_process_that_produces_utf8(somevar)

    content_length += len(label) + len(output) + 1
    results.append(label + '\n')
    results.append(output)

headers = {
    'Content-Length': str(content_length),
    'Content-Type': 'text/html; charset=utf8',
}
start_response(200, headers)
return results
```
- Vous testé cette en anglais et tout fonctionne toujours bien!

Cependant, la translations.get_label() bibliothèque renvoie en fait valeurs Unicode et lorsque vous changez les paramètres régionaux, les étiquettes contiennent des caractères non-ASCII.

Le WSGI bibliothèque de écrit ces résultats à la prise, et toutes les valeurs Unicode obtenir l'auto-encodé pour vous, depuis que vous avez établi setdefaultencoding() en UTF-8, mais la longueur que vous avez calculé est tout à fait tort. Il va être trop court en UTF-8 code de tout à l'extérieur de la plage ASCII avec plus d'un octet.

Tout cela, c'est ignorer la possibilité que vous êtes vraiment en train de travailler avec les données dans un codec différent; vous pourriez être l'écriture latine-1 + Unicode, et maintenant vous avez une mauvaise longueur de l'en-tête et un mélange de données encodages.

Vous avais pas utilisé sys.setdefaultencoding() une exception aurait été soulevées et vous saviez que vous aviez un bug, mais maintenant, vos clients se plaignent de réponses incomplètes; il y a des octets manquants à la fin de la page, et vous ne sais pas trop comment c'est arrivé.

Noter que ce scénario n'est même pas impliquer 3ème partie les bibliothèques qui peut ou peut ne pas dépendre de la valeur par défaut étant toujours ASCII. Le sys.setdefaultencoding() paramètre est mondiale, s'appliquant à la tous l'exécution de code dans l'interpréteur. Comment êtes-vous sûr il n'y a pas de questions dans les bibliothèques impliquant implicite de codage et de décodage?

Que Python 2 encode et décode entre str et unicode types implicitement peuvent être utiles et en sécurité lorsque vous travaillez avec des données ASCII uniquement. Mais vous avez vraiment besoin de savoir lorsque vous mélangez Unicode et une chaîne d'octets de données accidentellement, plutôt que de mettre du plâtre avec un pinceau et de l'espoir pour le meilleur.
- Il y a une erreur dans you don't always want to have your strings automatically decoded to Unicode - les cordes sont décodés en UTF-8, pas en Unicode objets.
- UTF-8 est un codage, de sorte qu'ils allaient être encodé en UTF-8. C'est la question que, vous obtenez de l'Unicode des objets lorsque vous mélangez les deux types; str + unicode vous donne unicode, à condition que le str pourrait être décodé.
- dans mon exemple le translations.get_label() retourne unicode objets. Le WSGI mise en œuvre pourrait aussi choisir de simplement concaténer tous les résultats, à quel point vous obtiendrez un unicode objet de sortie transmis à la prise, ou peut-être à un autre WSGI d'emballage étiquette. Nous ne le savons pas, car nous taire toutes Python exceptions qui, normalement, auraient été jetés.
- Je n'ai pas l'obtenir. Pour moi, c'est comme vous dire qu'avec sys.setdefaultencoding("utf-8") Python va commencer la production de unicode des objets dans des endroits où il a été str précédemment. Est ce que le droit? (Je suis toujours à la lecture par le biais de l'exemple)
- Une table de conversion de type et le contenu de la variable sera certainement aider à obtenir ce droit.
- Python allons essayer de décoder str objets lors de la concaténation avec unicode objets, oui, et qui échoue si ces octets ne sont pas décodable ASCII. Mais dès que vous changez le codec par défaut, puis octets qui sont décodable en UTF-8 sera également converti et vous vous retrouvez avec Unicode objets où vous pensiez que vous avez été la production de valeurs d'octets au lieu de cela.
- Ainsi, le Python ne va pas planter avec des chaînes non ASCII plus avec sys.setdefaultencoding("utf-8"). Je ne vois comment ce comportement est mauvais pour votre exemple. Dans le cas de mon application (Roundup) c'est à proximité de l'accident, je suis en train de fix - stackoverflow.com/questions/28642781/...
- nous allons en rond. Vous ne voyez pas cela comme mauvais, parce que vous ne voyez pas comment implicitement la conversion de types peut être mauvais. Dans une langue où les conversions implicites sont l'exception plutôt que la valeur par défaut, c'est un énorme question, et vous sont en train de changer les règles de conversion au niveau mondial. Si cela a été configuré par module au lieu de cela, vous seriez libre de se tirer dans le pied sans forcer le problème pour une 3ème partie de la bibliothèque que vous utilisez peut-être. Mais ce n'est pas le cas ici, et si vous ne voyez pas un problème avec un tel comportement, je ne sais pas quoi vous dire.
- Je vois que les choses peut être mauvais, mais je ne vois pas qu'il y en est un exemple réel de ce changement de comportement a été désiré comportement. Dans votre exemple, l'application va simplement se bloquer sur le symbole international, qui est arrivé en stackoverflow.com/questions/28642781/... lorsque nous avons ajouté Unicode templating couche de Roundup, et sys.setdefaultencoding("utf-8") est la seule recommandée moyen de corriger ça crash. Ce que j'entends de vous, c'est que le crash est le comportement souhaité. Je ne peux pas d'accord, désolé.
- the length you calculated is entirely wrong est un bon argument. pastebin.ubuntu.com/10791721 donne 3 et 6 de la console. Mais cela ressemble à un bug en Python, qui est incapable de gérer les mutibyte encodages.
- le comportement souhaité serait de fix Roundup. Si il y a un bug dans une 3e partie du produit, et la seule solution est de faire un changement global, alors il ya quelque chose de mal avec ce produit.
- Pourquoi est-ce un bug dans la façon Python gère un encodage multi-octets? La longueur d'une chaîne Unicode devrait être le nombre de codepoints, pas le nombre d'octets dans l'arbitraire d'un codec. La longueur d'une chaîne d'octets doit être le nombre d'octets. La Longueur du Contenu de l'en-tête doit contenir le nombre d'octets, de ne pas le codepoint comte. Je ne vois pas pourquoi c'est un multi-octets vs octet problème de codage.
- dans votre pastie sont l'obtention de la longueur des chaînes d'octets, encodé en UTF-8. Vous obtenez le même résultat sans le sys.setdefaultencoding() appel.
- Ok. Donc, si nous ne sommes pas à l'aide de len() pour la chaîne de traitement, nous sommes fondamentalement enregistrer pour utiliser sys.setdefaultencoding("utf-8") (ce qui semble être le cas avec Roundup de base qui semble ne font que déplacer des chaînes utf-8 contenu de DB de la couche de modèle).
- Le problème avec les libs ne s'affiche que si ils utilisent non-anglais caractères eux-mêmes (badlib), ou d'être nourri utf-8 chaîne de traitement. Qui mène à la question stackoverflow.com/questions/29586776/... - comment tracer que des chaînes utf-8 sont passés à libs externes.
- Le problème avec le Roundup est issues.roundup-tracker.org/issue2550811 - j'aimerais savoir comment avez vous proposer de le réparer.
- à l'aide de Jinja2 révèle ici que le Roundup est de ne pas pratiquer le Unicode sandwich approche; make tous les texte dans l'application unicode au point d'entrée le plus tôt possible, et seulement coder d'octets au point de sortie, le plus tard possible. Dans ce contexte, je vous recommande de lire / voir Ned Batchelder du Pragmatique Unicode présentation.
- Pour être plus précis ", mais le byte longueur calculée est totalement faux". En supposant que le nombre d'octets en une chaîne de caractères est égale au nombre de caractères est généralement une mauvaise idée, mais il était sûr, si str est en ascii. Essaie d'écrire du code dans py2 avec unicode_literals et unicode partout, il semble tel que la modification de l'encodage par défaut serait génial, mais je pense que mon vrai problème, c'est que j'ai introduit un str quelque part. Merci pour l'explication éclairante.
InformationsquelleAutor Martijn Pieters
3

Tout d'abord: de Nombreux adversaires de l'évolution de défaut enc faire valoir que son stupide, parce que son même en changeant ascii comparaisons

Je pense que c'est juste pour faire comprendre que, conformes à la question d'origine, je vois que personne ne préconisent rien d'autre que de s'écartant de l'Ascii vers UTF-8.

La setdefaultencoding('utf-16') exemple semble être toujours mis en avant par ceux qui s'opposent à changer 😉

Avec m = {'a': 1, 'é': 2} et le fichier 'out.py':
```
# coding: utf-8
print u'é' 
```
Alors:
```
+---------------+-----------------------+-----------------+
| DEF.ENC       | OPERATION             | RESULT (printed)|            
+---------------+-----------------------+-----------------+
| ANY           | u'abc' == 'abc'       | True            |     
| (i.e.Ascii    | str(u'abc')           | 'abc'           |
|  or UTF-8)    | '%s %s' % ('a', u'a') | u'a a'          | 
|               | python out.py         | é               |
|               | u'a' in m             | True            |
|               | len(u'a'), len(a)     | (1, 1)          |
|               | len(u'é'), len('é')   | (1, 2) [*]      |
|               | u'é' in m             | False  (!)      |
+---------------+-----------------------+-----------------+
| UTF-8         | u'abé' == 'abé'       | True   [*]      |
|               | str(u'é')             | 'é'             |
|               | '%s %s' % ('é', u'é') | u'é é'          | 
|               | python out.py | more  | 'é'             |
+---------------+-----------------------+-----------------+
| Ascii         | u'abé' == 'abé'       | False, Warning  |
|               | str(u'é')             | Encoding Crash  |
|               | '%s %s' % ('é', u'é') | Decoding Crash  |
|               | python out.py | more  | Encoding Crash  |
+---------------+-----------------------+-----------------+
```
[*]: Résultat suppose la même é. Voir ci-dessous sur ce.

En regardant ces opérations, la modification de l'encodage par défaut dans votre programme ne pourrait pas l'air trop mauvais, vous donnant des résultats "plus proche" d'avoir Ascii uniquement des données.

Concernant le hachage () et len() le comportement que vous obtenez la même chose, alors en Ascii (en savoir plus sur les résultats ci-dessous). Ces opérations montrent également qu'il existe d'importantes différences entre unicode et les chaînes d'octets qui pourrait provoquer des erreurs logiques, s'il est ignoré par vous.

Comme on l'a déjà vu: C'est un processus à l'échelle option si vous avez juste un coup de choisir ce qui est la raison pour laquelle bibliothèque les développeurs devraient vraiment de ne plus jamais le faire, mais obtenir leurs internes afin de sorte qu'ils n'ont pas besoin de compter sur python conversions implicites.
Ils ont également besoin de documenter clairement ce qu'ils attendent et de retour et de refuser l'entrée qu'ils n'ont pas écrit la lib (comme la fonction normaliser, voir ci-dessous).

=> Écrire des programmes avec ce paramètre sur fait-il risqué pour les autres à utiliser les modules de votre programme dans leur code, au moins sans filtrage d'entrée.

Remarque: Certains opposants affirment que le def.enc. c'est même un système à l'échelle de l'option (via sitecustomize.py), mais plus tard dans les moments de logiciels de la conteneurisation (menu fixe) chaque processus peut être commencé dans un environnement idéal w/o frais généraux.

Concernant le hachage et len() comportement:

Il vous dit que même une modification de la def.enc. vous ne pouvez pas toujours être ignorant sur les types de chaînes que vous traitez dans votre programme. u" et " sont différentes séquences d'octets dans la mémoire - pas toujours, mais en général.

Donc lors de l'essai assurez-vous que votre programme fonctionne correctement aussi avec les données Ascii.

Certains disent que le fait que les hachages peut devenir inégale lorsque les données de la modification des valeurs - bien qu'en raison de conversions implicites le '==' activités demeurent égaux - est un argument contre un changement de def.enc.

Personnellement, je ne partage pas que, depuis le hachage le comportement reste le même que w/o de le changer. Encore un exemple convaincant de comportements indésirables en raison de ce paramètre dans un processus de I 'propre'.

Dans l'ensemble, concernant setdefaultencoding("utf-8"): La réponse quant à si le son muet ou pas devrait être plus équilibré.

Il dépend.
Alors que c'est à éviter les collisions par exemple, à la str() opérations dans un journal de l'instruction, le prix est une chance plus élevée pour des résultats inattendus, plus tard, puisque le mauvais types en faire plus dans le code, dont le bon fonctionnement dépend d'un certain type.

En aucun cas, il devrait être l'alternative à l'apprentissage de la différence entre les chaînes d'octets et des chaînes unicode pour votre propre code.

Enfin, le paramètre de codage par défaut, loin de l'Ascii ne permet pas de rendre votre vie plus facile pour la commune de texte opérations comme len(), de tranchage et de comparaisons - devrait-on supposer que (byte)stringyfying le tout avec de l'UTF-8 sur résout les problèmes ici.

Malheureusement il n'a pas - en général.

Le '==' et len() les résultats sont loin problème plus complexe qu'on pourrait le penser - mais même avec la même type sur les deux côtés.

W/o def.enc. changé "==" ne parvient pas toujours à des fins non Ascii, comme indiqué dans le tableau. Avec elle, il fonctionne, parfois:

Unicode ne s'uniformiser autour d'un million de symboles du monde et leur a donné un certain nombre - mais il n'est malheureusement PAS un rapport de 1:1 bijection entre les glyphes affiché à l'utilisateur dans les périphériques de sortie et les symboles qu'ils sont générés à partir de.

Pour vous motiver la recherche de cette: le fait d'Avoir deux fichiers, j1, j2, écrit avec la même programme en utilisant le même encodage, contenant la saisie de l'utilisateur:
```
>>> u1, u2 = open('j1').read(), open('j2').read()
>>> print sys.version.split()[0], u1, u2, u1 == u2
```
Résultat: 2.7.9 José José Faux (!)

À l'aide de l'impression en fonction de Py2 vous voyez la raison: Malheureusement, il y a DEUX façons de coder le même caractère, les caractères accentués 'e':
```
>>> print (sys.version.split()[0], u1, u2, u1 == u2)
('2.7.9', 'Jos\xc3\xa9', 'Jose\xcc\x81', False)
```
Ce qu'un stupide codec direz-vous mais ce n'est pas la faute de la codec. C'est un problème dans unicode en tant que tel.

De sorte que même dans Py3:
```
>>> u1, u2 = open('j1').read(), open('j2').read()
>>> print sys.version.split()[0], u1, u2, u1 == u2
```
Résultat: 3.4.2 José José Faux (!)

=> Indépendant de Py2 et Py3, réellement indépendant de tout langage de calcul que vous utilisez Pour écrire un logiciel de qualité, vous avez probablement de "normaliser" toutes les entrées utilisateur. Le standard unicode ne standardiser la normalisation.
En Python 2 et 3 de la unicodedata.normaliser la fonction est votre ami.
- Vous êtes en supposant que votre code source est codé en UTF-8. Ou que tous vos chaînes d'octets sont codés en UTF-8. Implicite de l'encodage Unicode UTF-8, alors la concaténation des données avec une autre chaîne d'octets à l'aide d'un arbitraire de l'encodage serait un énorme bug, et vous masqués par réglage de l'encodage par défaut.
- Un autre problème est que le code s'appuient sur le codage de la ou des erreurs de décodage de signal type de différences. Qui comprend 3ème partie les bibliothèques. En définissant un encodage par défaut d'autres que l'ASCII, on ne peut plus détecter octets UTF-8 -> Unicode et Unicode -> octets implicite codages où que vous vouliez en fait d'utiliser des codages.
- En tout cas, je ai pas encore rencontré un cas d'utilisation où la définition de l'encodage par défaut est une meilleure idée que la manipulation des codages correctement. C'est comme l'utilisation de variables globales, vous ne les utilisez pas, parce que en pratique, vous pouvez augmenter de manière significative le probabilité de bugs.
- Donc, si les tests s'assure que votre code fonctionne correctement avec des données non-ASCII, pourquoi pas passer à la deuxième étape et de gérer l'encodage et le décodage correctement, et mélangez pas les types arbitrairement? Pourquoi compter sur la setdefaultencoding() béquille à tous?
- Dans l'ensemble, je ne suis pas vraiment sûr où vous allez avec cette réponse; oui, Unicode comparaisons ont leurs problèmes, mais vous n'êtes pas en train de dire quelque chose de clair sur pourquoi sys.setdefaultencoding() doit être évitée.
- thats droit - le but de mon post était de préciser que 1. la réponse à cette question devrait être plus équilibré. 2. def.enc = utf-8 n'a pas de secours, le développeur de la compréhension de l'octet et chaîne unicode différences - pour son propre code 3. la qualité de traitement de texte est beaucoup plus complexe que les novices, il peut penser, même pour les opérations atomiques comme len() et des comparaisons.
- Renoncer catégoriquement 1. est, à mon avis, en négligeant les problèmes que les gens ont surtout avec des tonnes de code legacy - je osé prétendre que beaucoup Py2 code là-bas a été écrit par des gens qui, chassés par la résolution d'un problème spécifique à l'extérieur de traitement de texte - avec des tonnes de str() des opérations à l'intérieur... en Outre, assez à la mode des langues comme l'aller et à la rouille et ces jours-ci de prouver qu'il est possible de travailler dans un 'utf-8 octets de la chaîne de sandwich" et utiliser les fonctions unicode uniquement lorsque cela est nécessaire, de manière temporaire.
- Python est bien sûr pas ou rouille 🙂 je vois qu'il y a des anciens projets, mais cela ne signifie pas que quand ils arrivent à la gestion de l'unicode il faut juste définir une configuration qui peut avoir des conséquences inattendues. Obtenir les bogues subtils cela peut introduire allez prendre autant de travail que de déclenchement de ces articles et juste décoder votre octets unicode objets à ces points. C'est au moins de l'approche Plone est prenant, par exemple.
- À mon humble avis c'est la meilleure réponse dans la mesure où il montre clairement les alternatives et les conséquences, par opposition à la dangerland! arguments. Je vous remercie.
InformationsquelleAutor Red Pill
2

Réel exemple #1

Il ne fonctionne pas dans tests unitaires.

Le test runner (nose, py.test, ...) initialise sys d'abord, et ensuite seulement les découvre et les importations de vos modules. En ce moment c'est trop tard pour changer de codage par défaut.

Par la même vertu, il ne fonctionne pas si quelqu'un exécute votre code dans un module, comme leur initialisation vient en premier.

Et oui, le mélange str et unicode et en s'appuyant sur la conversion implicite seulement la pousse davantage le problème en bas de la ligne.
- unité de module de test des importations module principal qui définit sys.defaultencoding('utf-8'), alors pourquoi ça ne marche pas?
- Aussi, pouvez-vous donner un exemple réel où sys.defaultencoding('utf-8') ne fonctionne pas si quelqu'un s'exécute en tant que module?
- par le temps de tester le module est importé, un tas d'autres modules ont été importés et quelques autres tests peuvent avoir été couru. En outre, stdio a déjà été initialisé avec des vrai système de codage par défaut. On peut soutenir que vous ne devez pas modifier le codage par défaut lors de l'importation à tous, par exemple, pydoc ne fonctionne pas droit. En outre, vous devez réinitialiser le système à l'état initial après vos tests sont effectués. En résumé, si vous ne testez votre code et rien d'autre, et vous n'utilisez que la conversion implicite pour les propres données et non pas par exemple stdio, oui, il peut travailler pour vous. Mais seulement vous.
- "stdio a déjà été initialisé avec des vrai système de codage par défaut" - n'est-il pas toujours ascii?
- il semble que le vrai problème dans votre cas, c'est que tous les tests unitaires sont le partage de la même interprète. Si l'unité de test mess avec l'état global, il doit être isolé et fonctionnent interprète. Mais pour l'application champ d'application tous les tests unitaires sont en tenir à la même sys.defaultencoding('utf-8'). Aussi, sachez que je UTF-8 est essentiel, pour cette question, et il est rétro-compatible avec l'ASCII.
- sys.setdefaultencoding() ne définit pas d'entrée ou de sortie de l'encodage; je pense que vous avez mal compris ce que la fonction t. Il définit le codec utilisé lors de la implicitement encodage unicode à str ou de décodage str à unicode lors du mélange des genres.
- Si cela fonctionne avec les tests unitaires ou pas, c'est alors dépendante sur les mêmes facteurs que le 3ème bibliothèques de tiers; si le code est s'appuyer sur ASCII par défaut ensuite, ces tests peuvent échouer parce que par défaut a été changé, à l'échelle mondiale.
- re: le mélange des modules. D'autres modules sont chargés en premier, ils ont déjà importés sys. Lorsque votre module fonctionne, il est trop tard pour changer l'encodage. Disponible hacks sont sitecustomize.py et reload(sys). La précédente ne fonctionne pas avec les tests unitaires et n'est pas modulable. Le dernier est de la magie noire, vous êtes sur votre propre.
- En effet stdio est initialisé basé sur PYTHONIOENCODING et les paramètres régionaux. Merci, @MartijnPieters.
InformationsquelleAutor Dima Tisnek
1

Une chose que nous devons savoir est

Python 2 utilisez sys.getdefaultencoding() pour décoder/encoder entre str et unicode

donc, si nous changeons de codage par défaut, il y aura toutes sortes de questions incompatibles. par exemple:
```
# coding: utf-8
import sys
print "你好" == u"你好"
# False
reload(sys)
sys.setdefaultencoding("utf-8")
print "你好" == u"你好"
# True
```
Plus d'exemples:
- https://pythonhosted.org/kitchen/unicode-frustrations.html
Cela dit, je me souviens il y a quelques blog ce qui suggère l'utilisation de l'unicode chaque fois que possible, et la seule chaîne de bits lors de l'affaire I/O. je pense que si votre suivi de cette convention, la vie sera beaucoup plus facile. Plusieurs solutions peuvent être trouvées:
- https://pythonhosted.org/kitchen/unicode-frustrations.html#a-few-solutions
- Est-il possible de surcharger == opérateur u-cordes de sorte qu'ils ont toujours sortie avec une erreur lors de la conversion implicite comme cela se produit?
- Non, vous ne pouvez pas. En python il n'y a aucun moyen de modifier la définition de builtin type
- De ce que j'ai observer à partir de ce qui précède, on "doit" utiliser sys.setdefaultencoding("utf-8") tout le temps, afin de faire "你好" == u"你好" comme True ce qui est correct
- Exactement!! Tout comme 3 == 3.0 est également True. Equaliity est une déclaration sur l'information elle-même et non pas sur ce qui type de données, il est enveloppée dans de la.
- 2018 maintenant et je la trouve toujours à proximité de fou, que les mêmes personnes qui, tous les ans, a refusé de permettre à python def.enc utf-8 interrupteur, a refusé de réparer cassé ce type de comportement, car il woud être "dangereux".... >>> print "abc" == u"abc" => True >>> print "你bc" == u"你bc" => False ...sont les mêmes qui, dans leur unicode sandwich idée, d'accepter un silencieux decode('utf-8') dans à peu près TOUTES les I/O lib de Python3.
- Vaut mieux pas. Pour info j'ai mis à jour ma réponse à apporter une solution.
- href="http://utf8everywhere.org/" >utf8everywhere.org - l'unicode sandwich idée, c'est à dire inutilement décoder toutes les valeurs de texte à I/O (et le laisser à l'I/O libs pour faire decode('utf-8') en silence, partout dans le monde) est de la plaine cassé, comparé à l'utilisation de l'unicode comme une api lorsque vous avez besoin de sens sémantique de valeurs pour les humains, ce qui est rarement le cas dans le calcul. Plus loin: En temps de microservices partout, I/O est partout et les systèmes de pipelines de traitement de soins sur le présence de valeurs de texte, de ne pas leur signification sémantique pour l'homme. Le décodage n'a pas de sens et est sujette aux erreurs, dans 99%.
- Lequel avez-vous dire par la solution? Je remarque que la seule solution à l'interface avec Unicode Python 2 est par sys.setdefaultencoding("utf-8")
- href="https://pythonhosted.org/kitchen/unicode-frustrations.html#a-few-solutions" >pythonhosted.org/kitchen/...
- Je suis d'accord avec vous, peut-être que nous pouvons utiliser certaines bibliothèques pour nous aider à traiter cette. pythonhosted.org/kitchen/...
- la cuisine est un bien conçu de la bibliothèque. Encore, beaucoup de "frustrations" adressées en votre lien ne sont tout simplement pas présent avec le defaultencoding de l'utf-8 interrupteur. Le monde a reconnu l'UTF-8 comme omniprésent texte de codage de données entre-temps - et c'est la raison pour laquelle Python3 fonctionne à tous: Vérifiez toutes les I/O lib (redis, httpie, ...) et vous verrez le .decode('utf-8') partout, pour transmettre des valeurs en "unicode sandwhich". Avec Py2 & dflt.l'encodage utf8 tout cela n'est pas nécessaire, monde idéal. On peut utiliser l'unicode comme l'API en cas de besoin et une conversion est effectuée par la langue.
InformationsquelleAutor Jiacai Liu

Vous devez vous connecter pour publier un commentaire.

Résumé des conclusions

Exemples de succès en utilisant une version modifiée de defaultencoding dans la nature