Peu d'emballage de tableau d'entiers

J'ai un tableau d'entiers, permet de supposer qu'ils sont de type int64_t. Maintenant, je sais que seul chaque premier n bits de l'entier sont significatifs (qui est, je sais qu'ils sont limités par certaines limites).

Quel est le moyen le plus efficace pour convertir le tableau de la manière que toutes inutiles espace est supprimé (c'est à dire que j'ai le premier entier à a[0], le second à a[0] + n bits et ainsi de suite) ?

Je voudrais qu'il soit général, autant que possible, parce que n varient de temps à autre, mais je suppose qu'il pourrait être intelligent optimisations spécifiques n comme des puissances de 2 ou qqch.

Bien sûr, je sais que je peux juste itération de la valeur sur la valeur, je veux juste vous demander StackOverflowers si vous pouvez penser de certains plus intelligente.

Edit:

Cette question n'est pas à propos de la compression de la matrice de prendre le moins d'espace possible. J'ai juste besoin de "couper" n bits de chaque entier et compte tenu de l'éventail, je sais exactement n de bits je peux couper.

par curiosité, qu'avez-vous utilisé à la fin?
Rien de vraiment, le projet était le but est mort:). Mais à partir des réponses ici et mes besoins, je finirais probablement à l'aide de quelques masques et de calcul des compensations par la main. Peut-être à l'aide de certains modèles intelligents ainsi.
3 ans après que vous avez demandé, j'ai enfin répondu à votre question en mettant en place un accès aléatoire conteneur dans lequel les éléments sont emballés hermétiquement. Voir ma réponse: stackoverflow.com/a/18038506/216063

InformationsquelleAutor pajton | 2010-03-07

bit-packing c c++optimization

6

Je suis d'accord avec keraba que vous avez besoin d'utiliser quelque chose comme le codage de Huffman ou peut-être la Lempel-Ziv-Welch algorithme. Le problème avec peu d'emballage de la façon dont vous parlez, c'est que vous avez deux options:
- Choisir une constante n tel que le plus grand entier peut être représenté.
- Permettre n varier en fonction de la valeur.
La première option est relativement facile à mettre en œuvre, mais qui va vraiment faire perdre beaucoup d'espace, à moins que tous les entiers sont plutôt petits.

La deuxième option présente l'inconvénient majeur que vous avez à transmettre des changements dans la n d'une certaine manière dans la sortie bitstream. Par exemple, chaque valeur devra avoir une longueur associée. Cela signifie que vous êtes le stockage de deux entiers (quoique plus petit des entiers) pour chaque valeur d'entrée. Il ya une bonne chance que vous allez augmenter la taille du fichier avec cette méthode.

L'avantage de Huffman ou LZW est qu'ils créent des codes de telle façon que la longueur des codes peuvent être dérivées à partir de la sortie bitstream sans réellement le stockage de la longueur. Ces techniques permettent d'obtenir de très près à la limite de Shannon.

J'ai décidé de donner à votre idée de départ (constante n, supprimer les bits non utilisés et pack) a essayer pour le plaisir et voici l'implémentation naïve que je suis venu avec:
```
#include <sys/types.h>
#include <stdio.h>
int pack(int64_t* input, int nin, void* output, int n)
{
int64_t inmask = 0;
unsigned char* pout = (unsigned char*)output;
int obit = 0;
int nout = 0;
*pout = 0;
for(int i=0; i<nin; i++)
{
inmask = (int64_t)1 << (n-1);
for(int k=0; k<n; k++)
{
if(obit>7)
{
obit = 0;
pout++;
*pout = 0;
}
*pout |= (((input[i] & inmask) >> (n-k-1)) << (7-obit));
inmask >>= 1;
obit++;
nout++;
}
}
return nout;
}
int unpack(void* input, int nbitsin, int64_t* output, int n)
{
unsigned char* pin = (unsigned char*)input;
int64_t* pout = output;
int nbits = nbitsin;
unsigned char inmask = 0x80;
int inbit = 0;
int nout = 0;
while(nbits > 0)
{
*pout = 0;
for(int i=0; i<n; i++)
{
if(inbit > 7)
{
pin++;
inbit = 0;
}
*pout |= ((int64_t)((*pin & (inmask >> inbit)) >> (7-inbit))) << (n-i-1);
inbit++;
}
pout++;
nbits -= n;
nout++;
}
return nout;
}
int main()
{
int64_t input[] = {0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20};
int64_t output[21];
unsigned char compressed[21*8];
int n = 5;
int nbits = pack(input, 21, compressed, n);
int nout = unpack(compressed, nbits, output, n);
for(int i=0; i<=20; i++)
printf("input: %lld   output: %lld\n", input[i], output[i]);
}
```
C'est très inefficace parce que c'est pas un peu à la fois, mais c'était la façon la plus simple à mettre en œuvre, sans aborder les questions de la endianess. Je n'ai pas testé ce soit avec un large éventail de valeurs, celles de l'essai. Aussi, il n'y a pas de vérification des limites et il est présumé que les tampons de sortie sont assez long. Donc, ce que je veux dire, c'est que ce code est probablement seulement bon pour des fins pédagogiques pour vous aider à démarrer.

InformationsquelleAutor Jason B

Aujourd'hui j'ai sorti: PackedArray: L'Emballage Des Entiers Non Signés Étroitement (projet github).

Il met en œuvre un accès aléatoire conteneur, où les articles sont emballés au niveau des bits. En d'autres termes, il agit comme si vous étiez en mesure de manipuler un par exemple uint9_t ou uint17_t tableau:

PackedArray principle:
. compact storage of <= 32 bits items
. items are tightly packed into a buffer of uint32_t integers
PackedArray requirements:
. you must know in advance how many bits are needed to hold a single item
. you must know in advance how many items you want to store
. when packing, behavior is undefined if items have more than bitsPerItem bits
PackedArray general in memory representation:
|-------------------------------------------------- - - -
|       b0       |       b1       |       b2       |
|-------------------------------------------------- - - -
| i0 | i1 | i2 | i3 | i4 | i5 | i6 | i7 | i8 | i9 |
|-------------------------------------------------- - - -
. items are tightly packed together
. several items end up inside the same buffer cell, e.g. i0, i1, i2
. some items span two buffer cells, e.g. i3, i6

J'ai aussi donné des détails dans ce thread reddit: redd.il/1jqnr4

InformationsquelleAutor Gregory Pakosz

5

La plupart de tout algorithme de compression obtiendrez proche du minimum d'entropie nécessaire pour coder les entiers, par exemple, le codage de Huffman, mais accéder à un tableau sera non négligeable.
- Le point est que je voudrais écrire plus tard dans un fichier, j'ai donc besoin de bitpack d'abord pour économiser de l'espace disque.
- Si vous voulez minimiser l'utilisation du disque, vous devriez regarder pour une bibliothèque de compression au lieu de rouler votre propre.
- Eh bien, je me suis fait rouler mes propres, d'où la question:).
InformationsquelleAutor keraba
2

Je sais que cela peut sembler la chose la plus évidente à dire que je suis sûr qu'il ya effectivement une solution, mais pourquoi ne pas utiliser un type plus petit, comme uint8_t (max 255)? ou uint16_t (max 65535)?. Je suis sûr que vous pourriez bits-manipuler sur un int64_t à l'aide de la définition des valeurs et de la ou des opérations similaires, mais, mis à part un exercice académique, pourquoi?

Et sur la note de vue académique, Peu Se Tourner Les Hacks est une bonne lecture.
- +1 pour refroidir lien. Eh bien, cela peut parfois être int64_t avec, disons, 49 bits utiles. Donc l'utilisation de plus petits tapez pas une option.
InformationsquelleAutor
1

Si vous avez de taille fixe, par exemple, vous savez que votre numéro est 38bit plutôt que de 64, vous pouvez construire des structures à l'aide de bits spécifications. Amusant vous avez également des éléments plus petits pour tenir dans l'espace restant.
```
struct example {
/* 64bit number cut into 3 different sized sections */
uint64_t big_num:38;
uint64_t small_num:16;
uint64_t itty_num:10;
/* 8 bit number cut in two */
uint8_t  nibble_A:4;
uint8_t  nibble_B:4;
};
```
Ce n'est pas big/little endian sûr sans cerceau de saut, ne peut donc être utilisé à l'intérieur d'un programme plutôt que dans les données exportées au format. C'est assez souvent utilisé pour stocker des valeurs booléennes simples bits sans définir des décalages et des masques.
- Mais ces structures permettrait d'utiliser plus d'espace que le mon int[]! Le but est d'économiser de l'espace en déplaçant des bits (peut-être) en place.
InformationsquelleAutor

Départ de Jason B de la mise en œuvre, finalement, j'ai écrit ma propre version qui traite de bits des blocs au lieu d'une seule bits. Une différence est que c'est lsb: Elle commence à partir de la plus faible en sortie des bits d'aller plus haut. Cela ne le rend plus difficile à lire, avec vidage binaire, comme Linux xxd -b. Comme un détail, int* peut être trivialement changé à int64_t*, et qu'il devrait même être mieux unsigned. J'ai déjà testé cette version avec quelques millions de tableaux et il semble solide, je partage donc le reste:

int pack2(int *input, int nin, unsigned char* output, int n)
{
int obit = 0;
int ibit = 0;
int ibite = 0;
int nout = 0;
if(nin>0) output[0] = 0;
for(int i=0; i<nin; i++)
{
ibit = 0;
while(ibit < n) {
ibite = std::min(n, ibit + 8 - obit);
output[nout] |= (input[i] & (((1 << ibite)-1) ^ ((1 << ibit)-1))) >> ibit << obit;
obit += ibite - ibit;
nout += obit >> 3;
if(obit & 8) output[nout] = 0;
obit &= 7;
ibit = ibite;
}
}
return nout;
}
int unpack2(int *oinput, int nin, unsigned char* ioutput, int n)
{
int obit = 0;
int ibit = 0;
int ibite = 0;
int nout = 0;
for(int i=0; i<nin; i++)
{
oinput[i] = 0;
ibit = 0;
while(ibit < n) {
ibite = std::min(n, ibit + 8 - obit);
oinput[i] |= (ioutput[nout] & (((1 << (ibite-ibit+obit))-1) ^ ((1 << obit)-1))) >> obit << ibit;
obit += ibite - ibit;
nout += obit >> 3;
obit &= 7;
ibit = ibite;
}
}
return nout;
}

InformationsquelleAutor tkiwi

0

Je ne pense pas que vous pouvez éviter une itération à travers les éléments.
Autant que je sache, le codage Huffman exige que les fréquences de "symboles", qui, sauf si vous savez les statistiques du "processus de génération de nombres entiers, vous aurez à calculer (par itération à travers chaque élément).
- À moins de travailler avec un huffman statique de l'arbre (par exemple prédéfini)
- Lorsque l'arbre de huffman est pré-défini, cela signifie que vous connaissez déjà les "statistiques" du processus de production (comme je l'ai écrit). Désolé si mon explication n'était pas claire sur ce point.
InformationsquelleAutor S.C. Madsen

Vous devez vous connecter pour publier un commentaire.