UTF-8: Général? Bin? Unicode?

Je suis à essayer de comprendre ce classement, je devrais être à l'aide de différents types de données. 100% du contenu, je vais être le stockage est soumis par l'utilisateur.

Ma compréhension est que je devrais être en UTF-8 IC (Insensible à la casse) au lieu de UTF-8 en Binaire. Cependant, je ne peux pas trouver une claire distinction entre UTF-8 Général de l'IC et de l'UTF-8 Unicode CI.

Devrais-je être le stockage de contenu soumis par l'utilisateur en UTF-8 ou UTF-8 Unicode CI colonnes?
Quel type de données en UTF-8 Binaire être applicable?

Note de côté, mais au lieu de utf8, utilisez utf8mb4 la place pour plein support UTF-8. Commentant ici parce que les réponses à cette question populaire ne traitent pas de ce. mathiasbynens.être/notes/mysql-utf8mb4
Si vous voulez le cas de pliage, mais l'accent de sensibilité, veuillez déposer une demande à l'adresse bugs.mysql.com .
Ou cliquez sur "Touche-Moi" sur bugs.mysql.com/bug.php?id=58797 et ajouter un commentaire.

InformationsquelleAutor Dolph | 2010-02-26

289

En général, utf8_general_ci est plus rapide que utf8_unicode_ci, mais moins corrects.

Voici la différence:

Pour n'importe quel jeu de caractères Unicode, opérations effectuées à l'aide de la _general_ci classement sont plus rapides que ceux de la _unicode_ci classement. Par exemple, des comparaisons pour l'interclassement utf8_general_ci sont plus rapides, mais légèrement moins corrects, que les comparaisons pour utf8_unicode_ci. La raison pour cela est que utf8_unicode_ci prend en charge les mappages, comme l'expansion; c'est, quand un personnage se compare comme l'égalité des combinaisons des autres personnages. Par exemple, en allemand et en quelques autres langues “ß” est égal à “ss”. utf8_unicode_ci prend également en charge les contractions et ignorable caractères. utf8_general_ci est un héritage de classement ne prend pas en charge les expansions, les contractions, ou ignorable caractères. Il ne peut faire qu'une comparaison directe entre les personnages.

Cité:
http://dev.mysql.com/doc/refman/5.0/en/charset-unicode-sets.html

Pour des explications plus détaillées, veuillez lire le post suivant de MySQL forums:
http://forums.mysql.com/read.php?103,187048,188748

Comme pour utf8_bin:
Les deux utf8_general_ci et utf8_unicode_ci effectuer la comparaison sensible à la casse. En contraste, utf8_bin est sensible à la casse (parmi d'autres différences), parce qu'il compare les valeurs binaires des personnages.
- Je pense que si vous n'avez pas une bonne raison pour utiliser _unicode_ci, puis utilisez _general_ci.
- Ce n'est pas vraiment répondre à la question en profondeur. Quelle est la différence entre ces classements exactement?
- Vous avez raison, la différence exacte n'est pas fourni ici par souci de simplicité. J'ai ajouté un lien vers un post avec le exact différence.
- NB show collation; vous permet de voir le classement par défaut pour chaque jeu de caractères. 5.1 montre utf8_general_ci en tant que par défaut pour utf8.
- Existe-il des ressources qui permettraient d'aller plus en profondeur dans la vitesse réelle différence entre les deux classements? Parlons-nous de 0,1% de baisse de performance ou une baisse de 10%?
- Ne utf8-classement bin signifie binaire exacte match?
InformationsquelleAutor Sagi
87

Vous devriez aussi être conscient du fait, qu'avec utf8_general_ci lors de l'utilisation d'un champ de type varchar comme l'unique ou le principal indice de l'insertion 2 des valeurs comme le 'a' et 'á' donnerait une erreur de clé en double.
- Merci, c'est utile pour éviter ce genre de noms d'utilisateurs (par exemple, si "jose" existe, je ne veux pas que quelqu'un d'autre pour créer un "josé" de l'utilisateur) NB: c'est aussi vrai pour la plupart des utf8 classements (à l'exception de utf8_bin). Le moyen le plus sûr/le plus sûr/le plus complet est utf8_unicode_ci
- J'utilise utf8_bin où je veux jose et josé être distinguées dans l'index. Par exemple, une colonne que les dossiers de la recherche/remplacer des opérations, où l'utilisateur pourrait avoir décidé de recherche pour josé, et de le remplacer avec josé. (Je suis en train d'écrire un programme de feuille de calcul)
InformationsquelleAutor Alex Hepp
26
- utf8_bin compare les bits à l'aveuglette. Aucun cas de pliage, sans accent décapage.
- utf8_general_ci compare un octet avec un octet. Il n'cas de pliage et accent de décapage, mais pas de 2 caractères comparisions: ij n'est pas égal ĳ dans ce classement.
- utf8_*_ci est un ensemble de langage de règles spécifiques, mais sinon, comme unicode_ci. Quelques cas particuliers: Ç, Č, ch, ll
- utf8_unicode_ci suit un ancien standard Unicode pour les comparaisons. ij=ĳ, mais ae != æ
- utf8_unicode_520_ci suit une plus récente de la norme Unicode. ae = æ
Voir classement graphique pour plus de détails sur ce qui est égal à ce qui, dans divers utf8 classements.

utf8, tel que défini par MySQL est limitée à 1 à 3 octets en utf-8 codes. Cette part d'Emoji et certains de Chinois. Donc, vous devriez vraiment passer à utf8mb4 si vous voulez aller bien au-delà de l'Europe.

Les points ci-dessus s'appliquent à utf8mb4, après modification orthographique. À l'avenir, utf8mb4 et utf8mb4_unicode_520_ci sont privilégiées.
- utf16 et utf32 sont des variantes sur utf8; il n'y a pratiquement aucune utilité pour eux.
- ucs2 est plus proche de "Unicode" que "utf8"; il n'y a pratiquement aucune utilité pour elle.
- Re "stay tuned": 8.0 classements, montre comment les différents personnages, diphtongues, etc, de les comparer dans le 8.0 utf8mb4 classements; utf8 est essentiellement le même.
- Et 8.0 classements sont cadencés à être significativement le plus rapide de 5.x.
InformationsquelleAutor Rick James
6

Vraiment, j'ai testé enregistrer les valeurs comme 'é' et 'e' dans la colonne avec unique index et peuvent provoquer l'erreur de doublons sur les deux 'utf8_unicode_ci' et 'utf8_general_ci'. Vous pouvez enregistrer seulement en 'utf8_bin' assemblées colonne.

Et mysql docs (en http://dev.mysql.com/doc/refman/5.7/en/charset-applications.html) suggèrent dans ses exemples set "utf8_general_ci' classement.
```
[mysqld]
character-set-server=utf8
collation-server=utf8_general_ci
```
- J'ai fait un test rapide sur ce point, et il semble être exacte. Les deux classements se comportent de la même quand il s'agit d'une clé unique sur une colonne et les valeurs avec des tildes et la comme.
- OK, je devrais y ajouter cette colonne doit avoir un index unique de l'origine de cette erreur. Il implique dans ma réponse.
InformationsquelleAutor vitalii
2

Accepté réponse est obsolète.

Si vous utilisez MySQL 5.5.3+, utilisez utf8mb4_unicode_ci au lieu de utf8_unicode_ci pour assurer les caractères tapés par vos utilisateurs n'auront pas de vous donner des erreurs.

utf8mb4 prend en charge les émoticônes par exemple, alors que utf8 vous donnera peut-être des centaines de codage des bogues comme:

Incorrect string value: ‘\xF0\x9F\x98\x81…’ for column ‘data’ at row 1

InformationsquelleAutor Marwann

Vous devez vous connecter pour publier un commentaire.