Ce codage ne normal python chaînes utiliser?

je sais que django utilise des chaînes unicode tous les coins du cadre au lieu de la normale python cordes. ce codage est normal python chaînes utiliser ? et pourquoi ne pas utiliser l'unicode?

InformationsquelleAutor Bunny Rabbit | 2010-08-23

encoding python

1

De Python 3.0 sur toutes les chaînes de caractères unicode par défaut, il y a aussi les octets de type de données (La documentation Python).

De sorte que le python développeurs pensent que l'utilisation d'unicode est une bonne idée, qu'il n'est pas utilisé de manière universelle en python 2 est principalement en raison de la compatibilité ascendante. Il a aussi des implications sur les performances.
- Python 2 et Python 3 ont le même niveau exact de la prise en charge unicode et ils ont tous deux des deux types de chaînes ayant la même sémantique que les deux dans l'autre.
- Mais la valeur par défaut a changé de chaînes unicode. C'était la seule chose que je voulais dire, il y a (un peu ambiguë, je l'avoue).
- La syntaxe a changé de sorte que l'unicode des littéraux de ne pas avoir un personnage en face de leurs marques de devis et bytestrings n'a, à droite.
- 3.x bytes n'est pas tout à fait la même sémantique que 2.x str.
- S'il vous plaît pourriez-vous donner un exemple de la façon dont la sémantique est-elle différente?
- choses les plus importantes sont que de parcourir ou de l'indexation Py3 bytes vous donne ints au lieu de la longueur-1 bytes cas, autoconversion est allé (dieu Merci), bytes et str ne partagent plus d'une classe de base.
InformationsquelleAutor Mad Scientist
29

En Python 2: Normal cordes (Python 2.x str) n'ont pas de encoding: ils sont des données brutes.

En Python 3: on les appelle les "octets", qui est une description précise, comme ils sont tout simplement des séquences d'octets, qui peut être du texte encodé en tout encodage (plusieurs sont communes!) ou non des données textuelles complètement.

Pour représenter texte, vous voulez des chaînes unicode, pas de chaînes d'octets. Par "chaînes unicode", je veux dire unicode instances en Python 2 et str instances en Python 3. Des chaînes Unicode sont des séquences d'unicode codepoints représentée de façon abstraite, sans un encodage; il est bien adapté pour la représentation de texte.

Bytestrings sont importants parce que représentent les données pour la transmission sur un réseau ou en écriture à un fichier ou que ce soit, vous ne pouvez pas avoir une représentation abstraite de l'unicode, vous avez besoin d'une représentation concrète d'octets. Même s'ils sont souvent utilisés pour stocker et représenter le texte, c'est au moins un peu coquine.

Toute cette situation est compliquée par le fait que, tandis que vous devrait tour unicode en octets par l'appel de encode et tourner les octets en unicode à l'aide de decode, Python vais essayer de le faire automatiquement pour vous à l'aide d'un mondial de l'encodage, vous pouvez définir qui est par défaut ASCII, qui est le choix le plus sûr. Ne jamais dépendre de votre code et de ne plus jamais le changer pour un plus flexible de codage--explicitement décoder lorsque vous obtenez une bytestring et encoder si vous avez besoin d'envoyer une chaîne de caractères quelque part externes.

InformationsquelleAutor Mike Graham
14

Hey! Je voudrais ajouter quelques trucs pour les autres réponses, malheureusement je n'ai pas assez de rep encore de le faire 🙁

FWIW, Mike Graham post est assez bonne et c'est probablement ce que vous devriez être en première lecture.

Voici quelques commentaires:
1. La nécessité de préfixe unicode littéraux avec "u" dans le 2.x est assez facilement enlevés ces dernières (2.6+) 2.x Pythons. from __future__ import unicode_literals
2. Simialrly, l'ASCII est seulement la source par défaut l'encodage. Python comprend une variété de codage des conseils, y compris l'emacs de style # -*- coding: utf-8 -*-. Pour plus d'informations, voir PEP 0263. Modification de la source de codage affecte la façon dont Unicode littéraux (indépendamment de leur préfixe ou de l'absence de préfixe, comme touchés par le point 1) sont interprétées. Dans Py3k, par défaut le fichier est encodé en UTF-8.
3. Python n'est évidemment utiliser un encodage en interne pour les chaînes Unicode (str dans py3k, unicode en 2.x) parce qu'à un certain point dans le temps des trucs va être écrit à la mémoire. Idéalement, ce ne serait jamais évident pour l'utilisateur final. Malheureusement, rien n'est parfait et vous pouvez parfois rencontrer des problèmes avec ce: en particulier si vous utilisez funky gribouillis à l'extérieur de l'Unicode Plan Multilingue de Base. Depuis Python 2.2, nous avons eu ce qu'on appelle large construit et étroit construit; ces noms se réfèrent au type utilisé en interne pour stocker les points de code Unicode. L'échelle s'appuie l'utilisation de l'UCS-4, qui utilise 4 octets pour stocker un point de code Unicode. (Cela signifie UCS-4 du code de la taille de l'unité est de 4 octets, soit 32 bits.) Étroite s'appuie l'utilisation de l'UCS-2. UCS-2 n'a que 16 bits, et donc ne peut pas coder tous les points de code Unicode avec précision (c'est comme de l'UTF-16, à l'exception sans les paires de substitution). Pour le vérifier, tester la valeur de sys.maxunicode. Si c'est 1114111, vous avez un large construire (ce qui peut représenter correctement l'ensemble de l'Unicode). Si c'est moins, bien, ne vous inquiétez pas trop. Le format BMP (points de code 0x0000 à 0xFFFF) couvre la plupart des besoins de la population. Pour plus d'informations, voir PEP 0261.
- Étroites s'appuie l'utilisation de l'UTF-16 (à noter également que l'UCS-2 et UTF-16 sont considérés comme des synonymes dans wikipédia; j'ai l'habitude de penser qu'ils sont différents, tout comme vous le faites), avec des paires de substitution et de tous. Voir ici: codepad.org/RjuAeWFK . Donc merci de modifier votre réponse.
- Hein? La page de Wikipedia dit qu'ils sont les pas équivalent. En fait, il est expressément précisé que la différence, c'est que c'est de largeur fixe et ne prend pas en charge les paires de substitution (c'est vraiment de dire deux fois la même chose). Cité à partir de là: les plus âgés de L'UCS-2 (2 octets Universal Character Set) est un analogue de codage de caractères qui a été remplacée par UTF-16 dans la version Unicode 2.0, bien qu'il reste encore en usage. UCS-2 est de longueur fixe et toujours code les caractères en un seul code 16 bits à l'unité. Il ne prend pas en charge les paires de substitution et ne peut encoder les caractères dans le BMP gamme de U+0000 à U+FFFF.
- Deuxième commentaire, parce que je ne pouvais pas l'insérer dans un. Bien que l'UCS-2 et UTF-16 est des choses distinctes, il n'est pas entièrement claire de ce que Python utilise en interne sur des compilations. Citation de Thomas Wouters: 01:57 <Yhg1s> eh bien, il est appelé UCS-2, car il ne permet pas de traiter les mères porteuses comme un seul caractère... mais c'est aussi l'UTF-16, car il est substituts 🙂 -- Le comportement que vous voyez est une conséquence de ce dernier.
- Enfin, à partir de la page de Wikipedia: en Raison des similitudes techniques et à la hausse de la compatibilité de l'UCS-2 pour l'encodage UTF-16, les deux sont souvent, à tort, assimilée et utilisée comme interchangeables, de sorte que les chaînes de caractères encodés en UTF-16 sont parfois mal identifiées comme étant codé en UCS-2. - Je pense que c'est clair qu'ils sont tout à fait à l'opposé de "considérés comme des synonymes".
InformationsquelleAutor lvh
2

ce que le codage est normal python
les chaînes utilisent?

En Python 3.x

str est Unicode. Cela peut être soit UTF-16 ou UTF-32 selon que votre interpréteur Python a été construit avec une "étroite" ou "large" des caractères Unicode.

La version Windows de Disponible utilise UTF-16. Sur les systèmes Unix, UTF-32 a tendance à être préférés.

En Python 2.x

str est une chaîne d'octets de type C char. L'encodage n'est pas définie par la langue, mais est-ce que vos paramètres régionaux par défaut de l'encodage. Ou quel que soit le MIME jeu de caractères du document vous obtenu hors de l'Internet. Ou, si vous obtenez une chaîne de caractères à partir d'une fonction comme struct.pack, c'est des données binaires, et n'a pas véritablement avoir un encodage de caractère à tous.

unicode cordes en 2.x sont équivalentes à str en 3.x.

et pourquoi ne pas utiliser l'unicode?

Parce que Python (légèrement) est antérieure à Unicode. Et parce que Guido voulait sauver tous les grands en arrière-incompatible changements pour la 3.0. Les chaînes en 3.x ne utiliser l'Unicode par défaut.
- Quel est le downvote pour?
- -1 "Sur Windows, les chaînes sont toujours UTF-16" est totale codswallop. Tu veux dire quelque chose comme: Windows Disponible binaires sont généralement offerts une "étroite" (16 bits) Unicode mise en œuvre, avec un minimum de soutien via des substituts pour les points de code en dehors de la BMP. On peut compiler un "large" (32-bit) exe si nécessaire. Python 2.6: votre coup de gueule se réfère à str objets et ignore complètement unicode objets.
- Ainsi, les OP ne poser des questions sur "normal" des chaînes.
- les gens de l'écriture à l'échelle internationale-utilisable sur les systèmes de 2.x, unicode est normal
- Techniques mineures pinailler. Étroite s'appuie l'utilisation de l'UCS-2, pas en UTF-16. La différence essentielle est qu'ils peuvent ne pas représenter fidèlement les points de code (c'est à dire que d'un seul point de code) les points de code qui serait codé à l'aide d'une paire de substitution en UTF-16.
InformationsquelleAutor dan04
1

Python 2.x chaînes de caractères sur 8 bits, rien de plus. Le codage peut varier (même si ASCII est supposé). Je suppose que les raisons sont historiques. Quelques langues, notamment les langues qui datent du siècle dernier, l'utilisation de l'unicode immédiatement.

En Python 3, toutes les chaînes de caractères unicode.
- Tout à fait raison: str n'a pas de codage, c'est juste octets qui peut être utilisé pour les données de texte de n'importe quel encodage. (D'ailleurs, si, à la fois Python 2 et 3 ont unicode et les chaînes d'octets. En Python 3, ils sont str et bytes, respectivement, et en Python 2, ils sont unicode et str respectivement.)
- FWIW Tcl utilise unicode en interne pour toutes les chaînes, et l'a fait depuis plus d'une décennie (depuis la version 8.1, circa 1999). Il n'y a pas de type de chaîne unicode et non-type de chaîne unicode, tout est unicode.
- En effet, et la question de l'encodage est poussé hors de canaux. C'est une sorte de bon et, éventuellement, un meilleur design, mais aussi peut-être moins flexibles.
InformationsquelleAutor
-2

Avant de Python 3.0, de codage de la chaîne a été ascii par défaut, mais peut être modifié. Unicode littéraux de chaîne ont été u"...". C'était idiot.
- Peut-être idiot, mais nécessaire comme une étape intermédiaire entre toutes les chaînes ASCII et toutes les chaînes UNICODE.
- Oh, je ne doute pas que c'était la meilleure façon de le faire. Il vient de faire pour l'étrange situation où vous avez eu à u toutes vos chaînes (dont un peu posé la question de ce que furent les non-u-ed ceux?)! =p
- toutes les chaînes ASCII n'est pas correctement décrire la situation Python ne l'a jamais été dans.
- Graham: C'est une drôle de déclaration. Plutôt que de dire quel est le problème, pourriez-vous fournir une correction? L'original str type de données a été officiellement limitée à l'ASCII. C'est ce qu'il dit dans les docs. Que réclamez-vous?
- Le str type de données représente une séquence d'octets. Ces octets ne sont pas limités à 0-127 (les valeurs d'origine de l'ASCII) ou à sémantiquement référant au texte ASCII, et ils n'étaient jamais sur ces deux points.
- Donc, au lieu de l'ASCII, je devrais écrire les mots "de l'ISO/CEI 8859"? Est que ce que votre prétendant? Qu'être "mieux", d'une certaine façon d'introduire cette subtilité?
- Non; ils arbitraire d'octets, qui à sémantiquement carte à une séquence de points de code par le biais de certains de codage, mais qui ne doit pas être le cas. Ils sont juste des octets. Appelant l'ISO/CEI 8859 n'est pas plus correct de les appeler ASCII. Bytestrings peut tout aussi bien contenir des trucs codés en UTF-8, Shift-JIS, ou ils pourraient être la représentation binaire d'un flotteur, un entier... Ils sont juste octets. Ce qui est juste est que la valeur par défaut source encodage pour les 2.x est l'ASCII.
InformationsquelleAutor Katriel

Vous devez vous connecter pour publier un commentaire.