Trouver bit de poids fort (le plus à gauche) qui est définie dans un tableau de bits

J'ai un tableau de bits de mise en œuvre où l'0e indice est le bit de poids fort du premier octet dans un tableau, la 8e édition de l'indice de l'ESM de la deuxième octet, etc...

Ce qui est un moyen rapide pour trouver le premier bit est définie dans ce tableau de bits? Toutes les solutions que j'ai regardé jusqu'à trouver le premier bit le moins significatif, mais j'ai besoin de le premier plus importante. Donc, étant donné 0x00A1, je veux 8 (puisque c'est le 9ème bit en partant de la gauche).

N'est-ce pas le bit 7 le bit le plus significatif dans 0x00a1 (en supposant que le lsb est le bit 0)?
Est votre tableau de bits de longueur arbitraire, ou s'inscrit-il dans une machine à mot?
J'ai été en comptant à partir de la gauche. En binaire, j'obtiens un "0000/0000/1010/0001", c'est le 9ème bit, avec un indice de 8. j'ai fait une erreur, bien que, il devrait être de 8, pas 9.
De l'interface, vous avez à votre tableau de bits? Quelles sont les opérations que vous pouvez effectuer sur elle?
c'est un C tableau de caractères
Il y a une autre page avec des détails déjà... stackoverflow.com/questions/671815/...
Trouver le plus significatif bit est équivalent à l'entier logarithme binaire

InformationsquelleAutor Claudiu | 2010-04-06

39

GCC a __builtin_clozapine qui se traduit par BSR sur x86/x64, la CLOZAPINE sur les BRAS, etc. et émule l'instruction si le matériel ne prend pas la mettre en œuvre.

Visual C++ 2005 et jusqu'a _BitScanReverse.
- Regardez pour un comportement indéfini lorsque l'argument est de 0.
- Oui. Et dans ce cas, "un comportement non défini" les moyens "les retours un nondeterministically nombre aléatoire."
- Ou il peut entrer dans une boucle infinie, la numérisation de l'inexistant 1. Rien n'empêche le compilateur de faire quoi que ce soit quand ses spec/manuel dit "un comportement non défini".
- avec une entrée de 0 à pas C/C++ "Comportement Indéfini". La documentation dit "le résultat n'est pas défini", et non pas le comportement. Savoir comment CCAG travaux, et le x86 pourquoi cette mise en garde est présent, je suis sûr de ne pas dire UB. Spécifiquement sur x86, c'est ce que la valeur est dans le registre de destination avant de l'instruction a couru. (L'asm instruction des feuilles de la destination non modifiée pour l'entrée=0. Intel documents comme une valeur non définie.) voir: VS: inattendu optimisation du comportement avec _BitScanReverse64 intrinsèque pour plus de détails.
- Comme vous pouvez le voir dans mon exemple ci-dessous, __builtin_clozapine(0) renvoie 0x9ab07060 sur ma machine. Ce qui signifie que toute utilisation pratique de l' __builtin_clozapine(0) exige une comparaison par rapport à 0 comme un test de cohérence sur les entrées. Cela signifie que toute utilisation pratique de l' __builtin_clozapine ne peut pas être dépourvu de branches.
InformationsquelleAutor Andras Vass
21

tl:dr; Pour 32 bits, utilisez de Bruijn multiplication.

C'est le "le plus rapide" portable algorithme. Il est beaucoup plus rapide et plus correcte que toutes les autres portable 32 bits MSB algorithmes dans ce fil.

La de Bruijn algorithme renvoie également à un résultat correct lorsque l'entrée est égale à zéro. L' __builtin_clozapine et _BitScanReverse instructions retourner des résultats incorrects lorsque l'entrée est égale à zéro.

Sur Windows x86-64, de Bruijn multiplication s'exécute à une vitesse comparable à l'équivalent (imparfait) fonction de Windows, avec une différence de performance de seulement 3%.

Voici le code.
```
u32 msbDeBruijn32( u32 v )
{
    static const int MultiplyDeBruijnBitPosition[32] =
    {
        0, 9, 1, 10, 13, 21, 2, 29, 11, 14, 16, 18, 22, 25, 3, 30,
        8, 12, 20, 28, 15, 17, 24, 7, 19, 27, 23, 6, 26, 5, 4, 31
    };

    v |= v >> 1; //first round down to one less than a power of 2
    v |= v >> 2;
    v |= v >> 4;
    v |= v >> 8;
    v |= v >> 16;

    return MultiplyDeBruijnBitPosition[( u32 )( v * 0x07C4ACDDU ) >> 27];
}
```
Toutes les autres réponses dans ce thread, soit courir beaucoup plus de mal que leurs auteurs suggèrent, ou de ne pas calculer correctement les résultats, ou les deux. Nous allons comparer tous et de vérifier qu'ils font ce qu'ils prétendent faire.

Ici est un simple C++11 harnais pour tester toutes ces implémentations. Il compile propre sur Visual Studio, mais devrait fonctionner sur tous les compilateurs modernes. Il vous permet d'exécuter le test en mode de performance (bVerifyResults = false) et dans le mode de vérification (bVerifyResults = true).

Voici les résultats en mode de vérification:
```
Verification failed for msbNative64: input was 0; output was 818af060; expected 0
Verification failed for msbFfs: input was 22df; output was 0; expected d
Verification failed for msbPerformanceJunkie32: input was 0; output was ffffffff; expected 0
Verification failed for msbNative32: input was 0; output was 9ab07060; expected 0
```
La performance "junkie" et Microsoft native implémentations de faire des choses différentes lorsque l'entrée est égale à zéro. msbPerformanceJunkie32 produit de -1, et Microsoft _BitScanReverse produit un nombre aléatoire, compatible avec le matériel sous-jacent de l'instruction. Aussi la msbPerformanceJunkie32 mise en œuvre produit un résultat qui est désactivée par celui de toutes les autres réponses.

Voici les résultats en mode performance, en cours d'exécution sur mon i7-4600 portables, compilé en mode release:
```
msbLoop64 took 2.56751 seconds               
msbNative64 took 0.222197 seconds            

msbLoop32 took 1.43456 seconds               
msbFfs took 0.525097 seconds                 
msbPerformanceJunkie32 took 1.07939 seconds  
msbDeBruijn32 took 0.224947 seconds          
msbNative32 took 0.218275 seconds            
```
La de Bruijn version beats les autres implémentations profondément parce qu'il est dépourvu de branches, et par conséquent, il fonctionne bien contre les entrées qui produisent une répartie uniformément ensemble de sorties. Toutes les autres versions sont plus lents contre l'arbitraire des intrants en raison des pénalités de la branche, les erreurs de prédiction sur les Processeurs modernes. Le smbFfs fonction produit des résultats incorrects de sorte qu'il peut être ignoré.

Certaines implémentations de travail sur 32 bits entrées, et un peu de travail sur 64 bits entrées. Un modèle va nous aider à comparer des pommes avec des pommes, quelle que soit la taille de saisie.

Voici le code. Téléchargez et exécutez les points de repère vous-même si vous le souhaitez.
```
#include <iostream>
#include <chrono>
#include <random>
#include <cassert>
#include <string>
#include <limits>
#ifdef _MSC_VER
#define MICROSOFT_COMPILER 1
#include <intrin.h>
#endif //_MSC_VER
const int iterations = 100000000;
bool bVerifyResults = false;
std::random_device rd;
std::default_random_engine re(rd());
typedef unsigned int u32;
typedef unsigned long long u64;
class Timer
{
public:
Timer() : beg_(clock_::now()) {}
void reset() {
beg_ = clock_::now();
}
double elapsed() const {
return std::chrono::duration_cast<second_>
(clock_::now() - beg_).count();
}
private:
typedef std::chrono::high_resolution_clock clock_;
typedef std::chrono::duration<double, std::ratio<1> > second_;
std::chrono::time_point<clock_> beg_;
};
unsigned int msbPerformanceJunkie32(u32 x)
{
static const unsigned int bval[] =
{ 0,1,2,2,3,3,3,3,4,4,4,4,4,4,4,4 };
unsigned int r = 0;
if (x & 0xFFFF0000) {
r += 16 / 1;
x >>= 16 / 1;
}
if (x & 0x0000FF00) {
r += 16 / 2;
x >>= 16 / 2;
}
if (x & 0x000000F0) {
r += 16 / 4;
x >>= 16 / 4;
}
return r + bval[x];
}
#define FFS(t)  \
{ \
register int n = 0; \
if (!(0xffff & t)) \
n += 16; \
if (!((0xff << n) & t)) \
n += 8; \
if (!((0xf << n) & t)) \
n += 4; \
if (!((0x3 << n) & t)) \
n += 2; \
if (!((0x1 << n) & t)) \
n += 1; \
return n; \
}
unsigned int msbFfs32(u32 x)
{
FFS(x);
}
unsigned int msbLoop32(u32 x)
{
int r = 0;
if (x < 1) return 0;
while (x >>= 1) r++;
return r;
}
unsigned int msbLoop64(u64 x)
{
int r = 0;
if (x < 1) return 0;
while (x >>= 1) r++;
return r;
}
u32 msbDeBruijn32(u32 v)
{
static const int MultiplyDeBruijnBitPosition[32] =
{
0, 9, 1, 10, 13, 21, 2, 29, 11, 14, 16, 18, 22, 25, 3, 30,
8, 12, 20, 28, 15, 17, 24, 7, 19, 27, 23, 6, 26, 5, 4, 31
};
v |= v >> 1; //first round down to one less than a power of 2
v |= v >> 2;
v |= v >> 4;
v |= v >> 8;
v |= v >> 16;
return MultiplyDeBruijnBitPosition[(u32)(v * 0x07C4ACDDU) >> 27];
}
#ifdef MICROSOFT_COMPILER
u32 msbNative32(u32 val)
{
unsigned long result;
_BitScanReverse(&result, val);
return result;
}
u32 msbNative64(u64 val)
{
unsigned long result;
_BitScanReverse64(&result, val);
return result;
}
#endif //MICROSOFT_COMPILER
template <typename InputType>
void test(unsigned int msbFunc(InputType),
const std::string &name,
const std::vector< InputType > &inputs,
std::vector< unsigned int > &results,
bool bIsReference = false
)
{
if (bIsReference)
{
int i = 0;
for (int i = 0; i < iterations; i++)
results[i] = msbFunc(inputs[i]);
}
InputType result;
if (bVerifyResults)
{
bool bNotified = false;
for (int i = 0; i < iterations; i++)
{
result = msbFunc(inputs[i]);
if ((result != results[i]) && !bNotified)
{
std::cout << "Verification failed for " << name << ": "
<< "input was " << std::hex << inputs[i]
<< "; output was " << result
<< "; expected " << results[i]
<< std::endl;
bNotified = true;
}
}
}
else
{
Timer t;
for (int i = 0; i < iterations; i++)
{
result = msbFunc(inputs[i]);
}
double elapsed = t.elapsed();
if ( !bIsReference )
std::cout << name << " took " << elapsed << " seconds" << std::endl;
if (result == -1.0f)
std::cout << "this comparison only exists to keep the compiler from " <<
"optimizing out the benchmark; this branch will never be called";
}
}
void main()
{
std::uniform_int_distribution <u64> dist64(0,
std::numeric_limits< u64 >::max());
std::uniform_int_distribution <u32> shift64(0, 63);
std::vector< u64 > inputs64;
for (int i = 0; i < iterations; i++)
{
inputs64.push_back(dist64(re) >> shift64(re));
}
std::vector< u32 > results64;
results64.resize(iterations);
test< u64 >(msbLoop64, "msbLoop64", inputs64, results64, true);
test< u64 >(msbLoop64, "msbLoop64", inputs64, results64, false);
#ifdef MICROSOFT_COMPILER
test< u64 >(msbNative64, "msbNative64", inputs64, results64, false);
#endif //MICROSOFT_COMPILER
std::cout << std::endl;
std::uniform_int_distribution <u32> dist32(0,
std::numeric_limits< u32 >::max());
std::uniform_int_distribution <u32> shift32(0, 31);
std::vector< u32 > inputs32;
for (int i = 0; i < iterations; i++)
inputs32.push_back(dist32(re) >> shift32(re));
std::vector< u32 > results32;
results32.resize(iterations);
test< u32 >(msbLoop32, "msbLoop32", inputs32, results32, true);
test< u32 >(msbLoop32, "msbLoop32", inputs32, results32, false);
test< u32 >(msbFfs32, "msbFfs", inputs32, results32, false);
test< u32 >(msbPerformanceJunkie32, "msbPerformanceJunkie32",
inputs32, results32, false);
test< u32 >(msbDeBruijn32, "msbDeBruijn32", inputs32, results32, false);
#ifdef MICROSOFT_COMPILER
test< u32 >(msbNative32, "msbNative32", inputs32, results32, false);
#endif //MICROSOFT_COMPILER
}
```
- Beau travail, mais vous êtes actuellement, y compris l'initialisation du travail effectué par msbLoop32 dans son calendrier, le sens qu'il apparaît deux fois plus lent qu'il ne l'est réellement.
- Je suis aussi intéressé de savoir comment vous pouvez vous en sortir avec la multiplication par un v qui est moins une puissance de 2. Le PDF liées à seulement explique pourquoi la multiplication correspond à un changement quand il est une puissance de 2, donc j'aurais pensé à l'ajout de 1 serait nécessaire.
- Ce que l'initialisation de travail, vous percevez msbLoop32 faire?
- Le test() instanciation pour msbLoop32 (et aussi pour msbLoop64, je remarque maintenant) sont appelés chacun avec bIsReference ensemble de true, et Timer t est défini avant cette étape d'initialisation (qui commence avec if (bIsReference), de sorte qu'il comprend ce initialisation dans la durée des mesures.
- Merci pour ces commentaires. J'ai changé le code de référence des comparaisons sont plus calées, et le timer est démarré et arrêté plus correctement. Les critères de référence a changé de façon triviale, mais les résultats restent les mêmes; mise à jour des repères sont ci-dessus. N'hésitez pas à améliorer la réponse plus loin.
- Merci. Je suis toujours intéressé à savoir comment vous vous êtes loin avec l'aide de l'un de moins qu'une puissance de 2 dans la multiplication avec la magie constante!
- stackoverflow.com/questions/7365562/...
- Il peut aider à penser de tous ces changements que "remplir tous les bits de plus faible que le bit le plus significatif avec les autres."
- Merci pour le lien! Le haut-voté réponse il n'y a tout simplement la recherche exhaustive pour trouver le "modifié de Bruijn" constante; cela peut prendre des siècles pour, par exemple, les entiers 64 bits. En revanche, "l'ordinaire de Bruijn" constantes peuvent être trouvés en millisecondes par la recherche d'un cycle Eulérien dans le graphe de de Bruijn de dimension n-1. (J'ai laissé un commentaire sur la réponse.) Donc, il reste un mystère de savoir si l'auteur original de la "modifié de Bruijn" code présenté ici utilisé de recherche exhaustive pour trouver la constante, ou astucieux aperçu...
- J'ai supposé que c'était une attaque par force brute. Cela expliquerait pourquoi il n'est pas comparable parfait de Bruijn nombre pour un entier de 64 bits MSB (recherche de cette écriture). J'ai postuler sans avoir la preuve que c'est peut-être possible de trouver quelques 8, 9, ou 10 bits de Bruijn tables qui devrait faire le travail pour le 64 bits MSB cas.
- Ce test ne passe pas le test de l'odorat: il ne semble pas étrange que 11 changements de + OU opérations, une multiplication et une table de recherche est presque exactement à la même vitesse (à l'intérieur de l'erreur de mesure, à peu près) comme "indigènes", des solutions de compiler le bas à une seule bsr ou lzcnt de l'enseignement? Ce qui se passe est que, tant que la routine éprouvée est "assez vite" l'indice de référence seulement des tests de la performance d'un réseau dense de boucle indirects/appel de la branche. Si vous corrigez l'indice de référence, vous trouverez que le natif solutions sont, dans leur forme brute, de 3 à 10 fois plus rapide que la deBruijn solutions.
- Oui, le natif de solutions peut donner de mauvaises réponses à un zéro, mais si cela est possible dans votre cas d'utilisation, vous pouvez le fixer avec un contrôle supplémentaire ou un peu de maths, qui laisse tout de même beaucoup plus rapide. Le problème avec les "zéros" entrée a été sur la base de x86 bsr et bsf instructions, qui ont un résultat indéfini de zéro, mais des Processeurs récents ont tzcnt et lzcnt instructions de résoudre ce (bien que pour lzcnt le sens de la réponse est inversé de sorte qu'il n'est pas un simple remplacement). Il peut être gênant pour l'obtenir, le compilateur de les émettre, cependant.
- C'est super, merci! J'ai remarqué (après quelques mois d'utilisation le code!) que le commentaire qui dit "aller vers le bas à un de moins que d'une puissance de 2" devrait dire "aller jusqu'à un moins d'une puissance de 2": il se trouve sur les bits (par joint torique) de sorte que la valeur augmente.
- BeeOnRope: beaucoup trop de fauteuil de benchmarking dans ce fil. Montre-nous ton code.
InformationsquelleAutor johnwbyrd
19

Comme une performance junkie j'ai essayé des tonnes de variations pour le MSB ensemble, ce qui suit est le plus rapide que j'ai rencontré,
```
unsigned int msb32(unsigned int x)
{
static const unsigned int bval[] =
{0,1,2,2,3,3,3,3,4,4,4,4,4,4,4,4};
unsigned int r = 0;
if (x & 0xFFFF0000) { r += 16/1; x >>= 16/1; }
if (x & 0x0000FF00) { r += 16/2; x >>= 16/2; }
if (x & 0x000000F0) { r += 16/4; x >>= 16/4; }
return r + bval[x];
}
```
- Ce code est environ quatre fois plus lent que de Bruijn multiplication, à travers distribués de façon aléatoire des entrées. En outre, ce code génère un résultat qui est désactivée par l'un de l'autre des réponses; à savoir, msb( 1 ) == 1, contrairement à d'autres définitions, pour qui msb( 1 ) == 0.
- c'est une réponse horrible, qui upvoted cela?
- C'est un des défauts de StackOverflow et d'autres plus "populaires réponse gagne" type de sites. Le haut réponse est toujours la réponse que monsieur tout le monde pense est juste. Mais monsieur tout le monde n'est pas toujours droit. Foule la sagesse n'est pas un substitut pour l'analyse comparative.
InformationsquelleAutor Sir Slick
12

Il y a plusieurs façons de le faire, et de la performance relative des différentes implémentations est un peu dépendant de la machine (il m'arrive d'avoir comparé cela à une certaine mesure, pour un but similaire). Sur certaines machines, il y a même un construit-dans l'instruction de ce type (utilisez une si disponible et la portabilité peut être traitée).

Vérifier certaines implémentations ici (sous “entier logarithme de base 2”). Si vous utilisez GCC, découvrez les fonctions __builtin_clz et __builtin_clzl (qui ne ce pour les non-zéro entiers non signés et non signés longs, respectivement). Le “clozapine” signifie “compter les zéros non significatifs”, qui est encore une autre façon de décrire le même problème.

Bien sûr, si votre tableau de bits ne rentre pas dans une machine adaptée mot, vous avez besoin pour itérer sur les mots dans le tableau pour trouver le premier non nul mot et ensuite effectuer ce calcul uniquement sur ce mot.
- +1 pour préciser que __builtin_clz et __builtin_clzl sont pas définies pour les 0 entrées (comme sauvegardés par la GCC documentation).
InformationsquelleAutor Arkku
5

Chercher le BSR (Bit de balayage inverse) asm x86 instruction pour le moyen le plus rapide pour ce faire. À partir d'Intel doc:
Searches the source operand (second operand) for the most significant set bit (1 bit). If a most significant 1 bit is found, its bit index is stored in the destination operand (first operand).
- Ou, sur le PowerPC, cntlwi
InformationsquelleAutor ggiroux
3

http://graphics.stanford.edu/~seander/bithacks.html#IntegerLogObvious
- Heh, j'ai exactement la même URL, #IntegerLogObvious inclus, dans ma réponse.
InformationsquelleAutor Martin Beckett
2

Si vous utilisez x86, vous pouvez battre pratiquement n'importe quel octet-par-octet ou mot-à-mot la solution à l'aide de la SSE2 opérations, combiné avec la première bits instructions, qui, dans le gcc monde) sont prononcées "ffs" pour le bit de poids faible et "fls" pour le bit le plus élevé.
Pardonnez-moi d'avoir mal (!@#$%^) mise en forme "C" code de réponse; découvrez:
http://mischasan.wordpress.com/2011/11/03/sse2-bit-trick-ffsfls-for-xmm-registers/

InformationsquelleAutor Mischa
2

J'ai travaillé avec un certain nombre de fonctions pour obtenir le bit le plus significatif, mais des problèmes se posent généralement se déplacer entre 32 bits et 64 bits des nombres ou en se déplaçant entre x86_64 et x86 boîtes. Les fonctions __builtin_clz, __builtin_clzl et __builtin_clzll fonctionnent bien pour les architectures 32 et 64 bits des nombres et à travers x86_64 et des machines x86. Cependant, trois fonctions sont nécessaires. J'ai trouvé un simple MSB, qui s'appuie sur le bouton droit de la maj qui va gérer tous les cas pour les nombres positifs. Au moins pour l'utilisation que j'allais en faire, il a réussi là où d'autres ont échoué:
```
int
getmsb (unsigned long long x)
{
int r = 0;
if (x < 1) return 0;
while (x >>= 1) r++;
return r;
}
```
Par la désignation d'entrée comme unsigned long long il peut gérer tout le nombre de classes à partir de unsigned char à unsigned long long et compte tenu de la définition de la norme, il est compatible pour x86_64 et x86 construit. Le cas pour 0 est défini pour revenir 0, mais peut être modifiée si besoin. Un simple test et de sortie sont:
```
int
main (int argc, char *argv[]) {
unsigned char c0 = 0;
unsigned char c = 216;
unsigned short s = 1021;
unsigned int ui = 32768;
unsigned long ul = 3297381253;
unsigned long long ull = 323543844043;
int i = 32767;
printf ("  %16u  MSB : %d\n", c0, getmsb (c0));
printf ("  %16u  MSB : %d\n", c, getmsb (c));
printf ("  %16u  MSB : %d\n", s, getmsb (s));
printf ("  %16u  MSB : %d\n", i, getmsb (i));
printf ("  %16u  MSB : %d\n", ui, getmsb (ui));
printf ("  %16lu  MSB : %d\n", ul, getmsb (ul));
printf ("  %16llu  MSB : %d\n", ull, getmsb (ull));
return 0;
}
```
De sortie:
```
             0  MSB : 0
216  MSB : 7
1021  MSB : 9
32767  MSB : 14
32768  MSB : 15
3297381253  MSB : 31
323543844043  MSB : 38
```
REMARQUE: pour des considérations relatives à la vitesse, à l'aide d'une seule fonction de faire la même chose centrée autour de __builtin_clzll est encore plus rapide d'un facteur de 6.

InformationsquelleAutor David C. Rankin
1

Deux meilleures façons que je sais faire cela dans le plus pur C:

Première linéaire de recherche de l'octet/mot de tableau pour trouver le premier octet/mot qui est différente de zéro, faire un déroulé de binaires de recherche de l'octet/mot que vous trouverez.
```
if (b>=0x10)
if (b>=0x40)
if (b>=0x80) return 0;
else return 1;
else
if (b>=0x20) return 2;
else return 3;
else
if (b>=0x4)
if (b>=0x8) return 4;
else return 5;
else
if (b>=0x2) return 6;
else return 7;
```
3 (BTW c'est log2(8)), à la condition sauts pour obtenir la réponse. Sur moderne des machines x86 le dernier sera optimisé à une condition mov.

Vous pouvez également utiliser une table de recherche à la carte de l'octet à l'index du premier bit défini.

Un sujet connexe, vous voudrez peut-être regarder est entier log2 fonctions. Si je me souviens bien, ffmpeg a une belle mise en œuvre.

Edit: Vous pouvez réellement faire de la ci-dessus de recherche binaire dans un dépourvu de branches de recherche binaire, mais je ne sais pas si il serait plus efficace dans ce cas...

InformationsquelleAutor R..

Pas le plus rapide, mais il fonctionne...

////C program
#include <math.h>
#define POS_OF_HIGHESTBIT(a) /* 0th position is the Least-Signif-Bit */    \
((unsigned) log2(a))         /* thus: do not use if a <= 0 */  
#define NUM_OF_HIGHESTBIT(a) ((!(a))          \
? 0 /* no msb set*/                   \
: (1 << POS_OF_HIGHESTBIT(a) ))
//could be changed and optimized, if it is known that the following NEVER holds: a <= 0
int main()
{
unsigned a = 5; //0b101
unsigned b = NUM_OF_HIGHESTBIT(a); //4 since 4 = 0b100
return 0; 
}

InformationsquelleAutor Jeff

Voici un extrait de code expliquant __builtin_clozapine()

//////go.c ////////
#include <stdio.h>
unsigned NUM_BITS_U = ((sizeof(unsigned) << 3) - 1);
#define POS_OF_HIGHESTBITclz(a) (NUM_BITS_U - __builtin_clz(a)) /* only works for a != 0 */
#define NUM_OF_HIGHESTBITclz(a) ((a)                                \
? (1U << POS_OF_HIGHESTBITclz(a))      \
: 0)
int main()
{
unsigned ui;
for (ui = 0U; ui < 18U; ++ui)
printf("%i \t %i\n", ui, NUM_OF_HIGHESTBITclz(ui));
return 0;
}

InformationsquelleAutor George

1

Je vais en ajouter un!
```
typedef unsigned long long u64;
typedef unsigned int       u32;
typedef unsigned char      u8;
u8 findMostSignificantBit (u64 u64Val)
{
u8 u8Shift;
u8 u8Bit = 0;
assert (u64Val != 0ULL);
for (u8Shift = 32 ; u8Shift != 0 ; u8Shift >>= 1)
{
u64 u64Temp = u64Val >> u8Shift;
if (u64Temp)
{
u8Bit |= u8Shift; //notice not using +=
u64Val = u64Temp;
}
}
return u8Bit;
}
```
Bien sûr, c'est de travailler sur une version 64 bits (unsigned long long), et non pas un tableau. En outre, beaucoup de gens ont souligné intégré g++ fonctions que je n'étais pas au courant. Comment intéressant.

De toute façon, ce trouve le bit le plus significatif en 6 itérations et donne une assertion si vous êtes passés à 0 à la fonction. Pas la meilleure fonction à utiliser si vous avez accès à une instruction du chipset.

Moi aussi, je suis aussi à l'aide de |= au lieu de += car ce sont toujours des puissances de deux, et OU est (classique) plus rapide que l'addition. Depuis que je suis seulement en ajoutant des pouvoirs uniques de 2 ensemble, je n'ai jamais rouler.

C'est un binaire de recherche, ce qui signifie qu'il trouve toujours le résultat en 6 itérations.

Encore une fois, c'est mieux:
```
u8 findMostSignificantBit2 (u64 u64Val)
{
assert (u64Val != 0ULL);
return (u8) (__builtin_ctzll(u64Val));
}
```
InformationsquelleAutor Richard wicks

x86 a un BSR instruction qui renvoie un peu de l'index (plutôt que le nombre de zéros ci-dessus il).

Mais malheureusement il n'y a pas de portable intrinsèque que efficacement il expose pour tous les compilateurs. GNU C fournit __builtin_clz, mais unsigned bitidx = 31 - __builtin_clz(x); n'a pas d'optimiser le retour à juste BSR avec courant de GCC et de la CPI. (Il le fait avec clang, ce qui prouve que l'expression est l'équivalent de sorte qu'il pourrait).

Celui-ci définit BSR32() et BSR64() des macros ou des fonctions que compiler efficacement à juste un bsr d'instructions x86. (La production d'un des ordures résultat si l'entrée était de zéro. Il n'y a pas moyen avec intrinsèques pour prendre avantage de l'asm instruction du comportement de quitter la destination pas été modifiée depuis l'entrée=0.)

La portabilité de non-x86 serait supplémentaires #ifdef par exemple, pour tomber à 31-__builtin_clz. La plupart des non-x86 Isa, si ils ont un avant-zéro bitscan à tous, le comte de zéros au lieu de vous donner le peu d'indice. C'est pourquoi GNU C définit __builtin_clz que le portable intégré. (Si il n'y a pas de prise en charge de MATÉRIEL sur le système cible, le groupe builtin de compiler des logiciels d'émulation, généralement de l'appel d'une libgcc fonction d'assistance.)

#include <stdint.h>
//define BSR32() and BSR64()
#if defined(_MSC_VER) || defined(__INTEL_COMPILER)
#ifdef __INTEL_COMPILER
typedef unsigned int bsr_idx_t;
#else
#include <intrin.h>   //MSVC
typedef unsigned long bsr_idx_t;
#endif
static inline
unsigned BSR32(unsigned long x){
bsr_idx_t idx;
_BitScanReverse(&idx, x); //ignore bool retval
return idx;
}
static inline
unsigned BSR64(uint64_t x) {
bsr_idx_t idx;
_BitScanReverse64(&idx, x); //ignore bool retval
return idx;
}
#elif defined(__GNUC__)
#ifdef __clang__
static inline unsigned BSR64(uint64_t x) {
return 63-__builtin_clzll(x);
//gcc/ICC can't optimize this back to just BSR, but clang can and doesn't provide alternate intrinsics
}
#else
#define BSR64 __builtin_ia32_bsrdi
#endif
#include <x86intrin.h>
#define BSR32(x) _bit_scan_reverse(x)
#endif

bsf n'a probablement pas besoin d'autant d'aide pour les compilateurs, parce que le groupe builtin les matchs de l'asm instruction du comportement de retour de la bit-indice de la LSB, c'est à dire le nombre de zéros à droite.

Un test en appelant unsigned test32(unsigned x) { return BSR32(x); } inlines à 1 instruction sur toutes les grandes x86 compilateurs, sur le Godbolt compilateur explorer. BSR64 inlines de la même manière, à une version 64 bits de l'opérande de taille la version. Voir aussi Est-il un x86/x86_64 instruction qui zéros tous les bits ci-dessous le Bit le Plus Significatif? par exemple des cas d'utilisation.

;; x64 MSVC 19.16 -O2
unsigned int test32(unsigned int) PROC                                    ; test32, COMDAT
bsr     eax, ecx
ret     0
unsigned int test32(unsigned int) ENDP                                    ; test32

# clang -O3 -march=haswell   is too "smart?" for its own good:
test32(unsigned int):
lzcnt   eax, edi
xor     eax, 31
ret

# gcc8.2 -O3 -march=haswell
test32(unsigned int):
bsr     eax, edi
ret

# ICC19 -O3 -march=haswell
test32(unsigned int):
bsr       eax, edi                                      #15.9
ret                                                     #41.12

Le point de ce est pour éviter de ralentir code du portable (pour les non-MSVC) version:

#ifdef __GNUC__
unsigned badgcc(uint64_t x) {
return 63 - __builtin_clzll(x);
}
#endif

Sans -march=haswell nous a juste la BSR de bruit, mais:

# gcc8.2 -O3
badgcc(unsigned long):
bsr     rdi, rdi
mov     eax, 63
xor     rdi, 63
sub     eax, edi
ret

# ICC19.0.1 -O3
badgcc(unsigned long):
mov       rax, -1                                       #46.17
bsr       rdx, rdi                                      #46.17
cmove     rdx, rax                                      #46.17
neg       rdx                                           #46.17
add       rdx, 63                                       #46.17
neg       edx                                           #46.17
add       edx, 63                                       #46.17
mov       eax, edx                                      #46.17
ret                                                     #46.17

C'est juste méchant. (Intéressant de voir que la CPI est en train de faire un CMOV pour produire -1 si l'entrée est égale à zéro. BSR ensembles ZF selon ses entrée, contrairement à la plupart des instructions de définir des indicateurs selon le résultat.)

Avec -march=haswell (ou autre permettant l'utilisation de BMI1 instructions), il n'est pas aussi mauvais, mais toujours pas aussi bon que juste BSR. Modulo sortie de dépendances, qui compilateurs travaillent la plupart du temps à éviter pour lzcnt mais, curieusement, pas pour BSR. (D'où la sortie de la dépendance est un vrai de dépendance, en raison de l'entrée=0 comportement.) Pourquoi la rupture de la "sortie de la dépendance" de LZCNT question?

InformationsquelleAutor Peter Cordes

Ici est un simple, la force brute de l'algorithme de l'arbitraire d'un tableau de taille d'octets:

int msb( unsigned char x);  //prototype for function that returns 
// most significant bit set
unsigned char* p;
for (p = arr + num_elements; p != arr;) {
--p;
if (*p != 0) break;
}
//p is with pointing to the last byte that has a bit set, or
// it's pointing to the first byte in the array
if (*p) {
return ((p - arr) * 8) + msb( *p);
}
//what do you want to return if no bits are set?
return -1;

Je vais le laisser comme un exercice pour le lecteur de se donner un msb() de la fonction ainsi que l'optimisation de travailler sur int ou long long de la taille des interstices de données.

InformationsquelleAutor Michael Burr

0

De messagerie unifiée, votre balise indique 32bit mais il semble que les valeurs que vous utilisez sont de 16 bits. Si vous n'moyenne de 32 bits, alors je pense que la réponse à la 0x00a1 devrait être de 24 et pas 8.

En supposant que vous êtes à la recherche pour le MSB bit index de la main gauche côté et vous savez que vous ne serez en traitant avec uint32_t, voici ce qui est évident, simple d'esprit algorithme:
```
#include <stdlib.h>
#include <stdio.h>
#include <stdint.h>
int main()
{
uint32_t test_value = 0x00a1;
int i;
for (i=0; i<32; ++i)
{
if (test_value & (0x80000000 >> i))
{
printf("i = %d\n", i);
exit(0);
}
}
return 0;
}
```
- oui mais il est trop lent =(
InformationsquelleAutor tikiboy

Pour java j'utilise ceci:

static public final int msb(int n) {
n |= n >>> 1;  
n |= n >>> 2; 
n |= n >>> 4; 
n |= n >>> 8; 
n |= n >>> 16; 
n >>>= 1;
n += 1; 
return n;
}

Et:

static public final int msb_index(int n) {
final int[] multiply_de_bruijn_bit_position = {
0, 1, 28, 2, 29, 14, 24, 3, 30, 22, 20, 15, 25, 17, 4, 8, 
31, 27, 13, 23, 21, 19, 16, 7, 26, 12, 18, 6, 11, 5, 10, 9
};
return multiply_de_bruijn_bit_position[(msb(n) * 0x077CB531) >>> 27];
}

InformationsquelleAutor clankill3r

-3
```
#define FFS(t)  \
({ \
register int n = 0; \
\ 
if (!(0xffff & t)) \
n += 16; \
\
if (!((0xff << n) & t)) \
n += 8; \
\
if (!((0xf << n) & t)) \
n += 4; \
\
if (!((0x3 << n) & t)) \
n += 2; \
\
if (!((0x1 << n) & t)) \
n += 1; \
\
n; \
})
```
- Que diriez-vous un peu d'explication sur ce morceau de code?
- t devrait probablement être entre parenthèses ici, si c'est une macro. ou encore mieux de le mettre dans une variable locale également, ainsi il n'est pas toujours calculé.
- il utilise juste binaire de recherche, je suis d'accord avec vos commentaires Claudiu, mais je pense qu'il devrait être un moyen plus efficace pour obtenir le résultat, et sans utilisation de la clozapine bsr des instructions
- C'est un générateur de nombre aléatoire, pas d'une recherche binaire.
InformationsquelleAutor Leslie Li

Vous devez vous connecter pour publier un commentaire.