UTF-8 code des points de code, pas de glyphes. Chaque code peut être jusqu'à 4 octets en UTF-8, UTF-16 et UTF-32. CESU-8 codage pouvez utiliser 6 octets pour un seul point de code, mais qui vient seulement de naïf de l'encodage UTF-16 en UTF-8, et n'est pas réellement valable UTF-8. Terminologie et en mathématiques à jour, merci pour la clarification. Intéressant de souligner que chaque tweet n'est pas 140 caractères, et que comme Twitter de l'utilisateur de base devient de plus en plus international (ou ne fait pas), plus les points de code sera utilisé plus (ou moins) souvent. Même si c'est vrai, la question porte sur la taille dans le cadre de déterminer les conditions de stockage, donc, penser à la taille maximale au lieu de la taille moyenne est la plus correcte.
De retour en septembre, un ingénieur à Twitter a fait une présentation que suggéré qu'il est d'environ 200 octets par tweet.
Bien sûr, vous avez encore de compte pour les frais généraux de votre propre métadonnées et de la base de données elle-même, mais de 200 octets/d'enregistrement est probablement un bon endroit pour commencer.
Twitter utilise UTF-8 Unicode -- 140 caractères pas signifie 140 octets, sauf si vous êtes à la restriction de tous les messages possibles de la baisse 127 plage ASCII. href="http://www.mail-archive.com/[email protected]/msg06972.html" >mail-archive.com/[email protected]/... dit que c'est juste un nombre d'octets. Les choses ont-elles changé depuis? leurs API docs dire qu'ils comptent les points de code, mais n'a pas de définir une limite supérieure sur la taille en octets. À en juger par certains de la confusion dans cette liste de diffusion thread, je pense que la doc API est plus récente que la discussion là-bas.
Typiquement, il s'agit de deux octets par caractère si vous êtes le stockage de l'Unicode en UTF-8, ce qui signifierait 280 octets max par tweet.
Les caractères UTF-8 être plus de deux octets en taille. Par exemple, le glyphe de marque est de trois octets de long. Wikipédia suggère la taille maximale est de six (!!!) octets.
Probablement 284 octets dans la mémoire ( 4 octets de préfixe de longueur + longueur*2). À l'intérieur de la DB je ne peux pas dire, mais probablement 280 si la DB est en UTF-8, vous pouvez ajouter quelques octets de surcharge, pour les métadonnées, etc.
Twitter utilise UTF-8 des messages codés.
UTF-8 points de code peuvent être jusqu'à
sixquatre octets de long, faisant de la maximum de taille de message 140 x 4 = 560 octets de 8 bits.C'est, bien sûr, juste pour le raw de messages, à l'exclusion des coûts de stockage, d'indexation et d'autres liées au stockage de rembourrage.
e: Twitter avec succès permettez-moi de poster le message:
Oui, c'est 140 symboles de marque, qui sont trois octets chacun en UTF-8
Terminologie et en mathématiques à jour, merci pour la clarification.
Intéressant de souligner que chaque tweet n'est pas 140 caractères, et que comme Twitter de l'utilisateur de base devient de plus en plus international (ou ne fait pas), plus les points de code sera utilisé plus (ou moins) souvent.
Même si c'est vrai, la question porte sur la taille dans le cadre de déterminer les conditions de stockage, donc, penser à la taille maximale au lieu de la taille moyenne est la plus correcte.
OriginalL'auteur Charles
De retour en septembre, un ingénieur à Twitter a fait une présentation que suggéré qu'il est d'environ 200 octets par tweet.
Bien sûr, vous avez encore de compte pour les frais généraux de votre propre métadonnées et de la base de données elle-même, mais de 200 octets/d'enregistrement est probablement un bon endroit pour commencer.
href="http://www.mail-archive.com/[email protected]/msg06972.html" >mail-archive.com/[email protected]/... dit que c'est juste un nombre d'octets. Les choses ont-elles changé depuis?
leurs API docs dire qu'ils comptent les points de code, mais n'a pas de définir une limite supérieure sur la taille en octets. À en juger par certains de la confusion dans cette liste de diffusion thread, je pense que la doc API est plus récente que la discussion là-bas.
OriginalL'auteur Gabe
Typiquement, il s'agit de deux octets par caractère si vous êtes le stockage de l'Unicode en UTF-8, ce qui signifierait 280 octets max par tweet.
OriginalL'auteur duffymo
Probablement 284 octets dans la mémoire ( 4 octets de préfixe de longueur + longueur*2). À l'intérieur de la DB je ne peux pas dire, mais probablement 280 si la DB est en UTF-8, vous pouvez ajouter quelques octets de surcharge, pour les métadonnées, etc.
OriginalL'auteur Marino Šimić
Potentiellement d'intérêt:
http://mehack.com/map-of-a-twitter-status-object
Anatomie d'un État Twitter Objet
Également plus sur twitter le codage des caractères:
http://dev.twitter.com/pages/counting_characters
OriginalL'auteur ack
Techniquement, il est stocké en tant que UTF-8, et dans la réalité, la série de diapositives à partir d'un tweeter de gars ici http://www.slideshare.net/raffikrikorian/twitter-by-the-numbers donne la vraie stat:
OriginalL'auteur Simon Mourier