Combien d'octets de mémoire est un tweet?

140 caractères. De combien de mémoire serait-elle prendre ?

Je suis en train de calculer combien de tweets ma EC2 Grande instance de Mongo DB.

OriginalL'auteur TIMEX | 2011-05-14

memory string

9

Twitter utilise UTF-8 des messages codés.

UTF-8 points de code peuvent être jusqu'à ~~six~~ quatre octets de long, faisant de la maximum de taille de message 140 x 4 = 560 octets de 8 bits.

C'est, bien sûr, juste pour le raw de messages, à l'exclusion des coûts de stockage, d'indexation et d'autres liées au stockage de rembourrage.

e: Twitter avec succès permettez-moi de poster le message:

™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™

Oui, c'est 140 symboles de marque, qui sont trois octets chacun en UTF-8

UTF-8 code des points de code, pas de glyphes. Chaque code peut être jusqu'à 4 octets en UTF-8, UTF-16 et UTF-32. CESU-8 codage pouvez utiliser 6 octets pour un seul point de code, mais qui vient seulement de naïf de l'encodage UTF-16 en UTF-8, et n'est pas réellement valable UTF-8.
Terminologie et en mathématiques à jour, merci pour la clarification.
Intéressant de souligner que chaque tweet n'est pas 140 caractères, et que comme Twitter de l'utilisateur de base devient de plus en plus international (ou ne fait pas), plus les points de code sera utilisé plus (ou moins) souvent.
Même si c'est vrai, la question porte sur la taille dans le cadre de déterminer les conditions de stockage, donc, penser à la taille maximale au lieu de la taille moyenne est la plus correcte.

OriginalL'auteur Charles
2

De retour en septembre, un ingénieur à Twitter a fait une présentation que suggéré qu'il est d'environ 200 octets par tweet.

Bien sûr, vous avez encore de compte pour les frais généraux de votre propre métadonnées et de la base de données elle-même, mais de 200 octets/d'enregistrement est probablement un bon endroit pour commencer.

Twitter utilise UTF-8 Unicode -- 140 caractères pas signifie 140 octets, sauf si vous êtes à la restriction de tous les messages possibles de la baisse 127 plage ASCII.
href="http://www.mail-archive.com/[email protected]/msg06972.html" >mail-archive.com/[email protected]/... dit que c'est juste un nombre d'octets. Les choses ont-elles changé depuis?
leurs API docs dire qu'ils comptent les points de code, mais n'a pas de définir une limite supérieure sur la taille en octets. À en juger par certains de la confusion dans cette liste de diffusion thread, je pense que la doc API est plus récente que la discussion là-bas.

OriginalL'auteur Gabe
0

Typiquement, il s'agit de deux octets par caractère si vous êtes le stockage de l'Unicode en UTF-8, ce qui signifierait 280 octets max par tweet.

Les caractères UTF-8 être plus de deux octets en taille. Par exemple, le glyphe de marque est de trois octets de long. Wikipédia suggère la taille maximale est de six (!!!) octets.

OriginalL'auteur duffymo
0

Probablement 284 octets dans la mémoire ( 4 octets de préfixe de longueur + longueur*2). À l'intérieur de la DB je ne peux pas dire, mais probablement 280 si la DB est en UTF-8, vous pouvez ajouter quelques octets de surcharge, pour les métadonnées, etc.

OriginalL'auteur Marino Šimić
0

Potentiellement d'intérêt:

http://mehack.com/map-of-a-twitter-status-object

Anatomie d'un État Twitter Objet

Également plus sur twitter le codage des caractères:

http://dev.twitter.com/pages/counting_characters

OriginalL'auteur ack
0

Techniquement, il est stocké en tant que UTF-8, et dans la réalité, la série de diapositives à partir d'un tweeter de gars ici http://www.slideshare.net/raffikrikorian/twitter-by-the-numbers donne la vraie stat:

140 caractères, ~200 octets

OriginalL'auteur Simon Mourier

Vous devez vous connecter pour publier un commentaire.