Vous cherchez un efficace entier racine carrée de l'algorithme pour les BRAS Thumb2

Je suis à la recherche d'un moyen rapide, entier uniquement algorithme pour trouver la racine carrée (partie entière de celui-ci) d'un entier non signé.
Le code doit avoir d'excellentes performances sur les BRAS de Pouce de 2 processeurs. Il pourrait être de langage d'assemblage ou de code C.

Tous les conseils de bienvenue.

InformationsquelleAutor Ber | 2009-07-08

Entier Des Racines Carrées par Jack W. Crenshaw pourrait être utile comme une autre référence.

La C Extraits De L'Archive a aussi un entier racine carrée de la mise en œuvre. Celui-ci va au-delà de tout juste le résultat sous forme d'entier, et calcule supplémentaire fractionnaire (point fixe) bits de la réponse. (Mise à jour: malheureusement, le C des extraits d'archives est désormais obsolète. Le lien pointe vers un site web des archives de la page.) Voici le code à partir de la C des Extraits de l'Archive:

#define BITSPERLONG 32
#define TOP2BITS(x) ((x & (3L << (BITSPERLONG-2))) >> (BITSPERLONG-2))

struct int_sqrt {
    unsigned sqrt, frac;
};

/* usqrt:
    ENTRY x: unsigned long
    EXIT  returns floor(sqrt(x) * pow(2, BITSPERLONG/2))

    Since the square root never uses more than half the bits
    of the input, we use the other half of the bits to contain
    extra bits of precision after the binary point.

    EXAMPLE
        suppose BITSPERLONG = 32
        then    usqrt(144) = 786432 = 12 * 65536
                usqrt(32) = 370727 = 5.66 * 65536

    NOTES
        (1) change BITSPERLONG to BITSPERLONG/2 if you do not want
            the answer scaled.  Indeed, if you want n bits of
            precision after the binary point, use BITSPERLONG/2+n.
            The code assumes that BITSPERLONG is even.
        (2) This is really better off being written in assembly.
            The line marked below is really a "arithmetic shift left"
            on the double-long value with r in the upper half
            and x in the lower half.  This operation is typically
            expressible in only one or two assembly instructions.
        (3) Unrolling this loop is probably not a bad idea.

    ALGORITHM
        The calculations are the base-two analogue of the square
        root algorithm we all learned in grammar school.  Since we're
        in base 2, there is only one nontrivial trial multiplier.

        Notice that absolutely no multiplications or divisions are performed.
        This means it'll be fast on a wide range of processors.
*/

void usqrt(unsigned long x, struct int_sqrt *q)
{
      unsigned long a = 0L;                   /* accumulator      */
      unsigned long r = 0L;                   /* remainder        */
      unsigned long e = 0L;                   /* trial product    */

      int i;

      for (i = 0; i < BITSPERLONG; i++)   /* NOTE 1 */
      {
            r = (r << 2) + TOP2BITS(x); x <<= 2; /* NOTE 2 */
            a <<= 1;
            e = (a << 1) + 1;
            if (r >= e)
            {
                  r -= e;
                  a++;
            }
      }
      memcpy(q, &a, sizeof(long));
}

Que j'ai réglé sur le code suivant. C'est essentiellement à partir de la Article de Wikipedia sur la racine carrée méthodes de calcul. Mais il a été changé à utiliser stdint.h types uint32_t etc. Strictement parlant, le type de retour peut être changée pour uint16_t.

/**
 * \brief    Fast Square root algorithm
 *
 * Fractional parts of the answer are discarded. That is:
 *      - SquareRoot(3) --> 1
 *      - SquareRoot(4) --> 2
 *      - SquareRoot(5) --> 2
 *      - SquareRoot(8) --> 2
 *      - SquareRoot(9) --> 3
 *
 * \param[in] a_nInput - unsigned integer for which to find the square root
 *
 * \return Integer square root of the input value.
 */
uint32_t SquareRoot(uint32_t a_nInput)
{
    uint32_t op  = a_nInput;
    uint32_t res = 0;
    uint32_t one = 1uL << 30; //The second-to-top bit is set: use 1u << 14 for uint16_t type; use 1uL<<30 for uint32_t type


    //"one" starts at the highest power of four <= than the argument.
    while (one > op)
    {
        one >>= 2;
    }

    while (one != 0)
    {
        if (op >= res + one)
        {
            op = op - (res + one);
            res = res +  2 * one;
        }
        res >>= 1;
        one >>= 2;
    }
    return res;
}

La bonne chose, j'ai découvert, est assez simple modification peut retourner le "arrondi" réponse. J'ai trouvé ce utile dans une certaine demande pour plus de précision. Notez que dans ce cas, le type de retour doit être uint32_t car l'arrondi de la racine carrée de 2³² - 1 2¹⁶.

/**
 * \brief    Fast Square root algorithm, with rounding
 *
 * This does arithmetic rounding of the result. That is, if the real answer
 * would have a fractional part of 0.5 or greater, the result is rounded up to
 * the next integer.
 *      - SquareRootRounded(2) --> 1
 *      - SquareRootRounded(3) --> 2
 *      - SquareRootRounded(4) --> 2
 *      - SquareRootRounded(6) --> 2
 *      - SquareRootRounded(7) --> 3
 *      - SquareRootRounded(8) --> 3
 *      - SquareRootRounded(9) --> 3
 *
 * \param[in] a_nInput - unsigned integer for which to find the square root
 *
 * \return Integer square root of the input value.
 */
uint32_t SquareRootRounded(uint32_t a_nInput)
{
    uint32_t op  = a_nInput;
    uint32_t res = 0;
    uint32_t one = 1uL << 30; //The second-to-top bit is set: use 1u << 14 for uint16_t type; use 1uL<<30 for uint32_t type


    //"one" starts at the highest power of four <= than the argument.
    while (one > op)
    {
        one >>= 2;
    }

    while (one != 0)
    {
        if (op >= res + one)
        {
            op = op - (res + one);
            res = res +  2 * one;
        }
        res >>= 1;
        one >>= 2;
    }

    /* Do arithmetic rounding to nearest integer */
    if (op > res)
    {
        res++;
    }

    return res;
}

Par curiosité, j'ai comparé la version 64 bits de conversion de ce contre la static_casting la bibliothèque C fonction sqrt pour obtenir un résultat sous forme d'entier, j'ai trouvé ceci pour être 8.2 x plus lent. YMMV. Plus de données à onemanmmo.com/?sqrt
Il est bon que vous avez mesuré. Ce genre de chose est très spécifique à un matériel donné; dans votre cas (sur un processeur à virgule flottante), il a été certainement la peine de faire une comparaison. J'espère que ces integer racine carrée algorithmes serait plus utile pour les systèmes embarqués sans virgule flottante.
IEEE virgule flottante en double précision peut exactement représenter des nombres entiers jusqu'à ~53 bits (la taille de la mantisse), mais au-delà, les résultats sont inexactes. Un avantage de l'entier sqrt est qu'il donne toujours des réponses exactes.
Pour Cortex M3 et frères, la première boucle peut être substitué par un zéro comte et le masque de l'opération: l'un >>= la clozapine(op) & ~0 x 3; Lops une bonne ~30 cycles.

InformationsquelleAutor Craig McQueen

16

Si exacte précision n'est pas nécessaire, j'ai une rapide approximation pour vous, qui utilise 260bytes de ram (que vous pouvez réduire de moitié, mais ne le font pas).
```
int ftbl[33]={0,1,1,2,2,4,5,8,11,16,22,32,45,64,90,128,181,256,362,512,724,1024,1448,2048,2896,4096,5792,8192,11585,16384,23170,32768,46340};
int ftbl2[32]={ 32768,33276,33776,34269,34755,35235,35708,36174,36635,37090,37540,37984,38423,38858,39287,39712,40132,40548,40960,41367,41771,42170,42566,42959,43347,43733,44115,44493,44869,45241,45611,45977};

int fisqrt(int val)
{
    int cnt=0;
    int t=val;
    while (t) {cnt++;t>>=1;}
    if (6>=cnt)    t=(val<<(6-cnt));
    else           t=(val>>(cnt-6));

    return (ftbl[cnt]*ftbl2[t&31])>>15;
}
```
Voici le code pour générer les tables:
```
ftbl[0]=0;
for (int i=0;i<32;i++) ftbl[i+1]=sqrt(pow(2.0,i));
printf("int ftbl[33]={0");
for (int i=0;i<32;i++) printf(",%d",ftbl[i+1]);
printf("};\n");

for (int i=0;i<32;i++) ftbl2[i]=sqrt(1.0+i/32.0)*32768;
printf("int ftbl2[32]={");
for (int i=0;i<32;i++) printf("%c%d",(i)?',':' ',ftbl2[i]);
printf("};\n");
```
Dans la gamme 1->2^20, l'erreur maximale est de 11, et dans la gamme 1->2^30, c'est sur 256. Vous pouvez utiliser des tables plus grandes et le minimiser. Il est important de mentionner que l'erreur sera toujours négatif - c'est à dire quand c'est faux, la valeur sera inférieure à la valeur correcte.

Vous pourriez bien faire pour suivre cela avec un raffinage.

L'idée est assez simple: (ab)^0.5 = a^0.b * b^0.5.

Donc, nous prenons l'entrée X = A*B où A=2^N et 1<=B<2
Ensuite, nous avons un lookuptable pour sqrt(2^N), et un lookuptable pour sqrt(1<=B<2).
Nous stockons les lookuptable pour sqrt(2^N) as integer, qui pourrait être une erreur (les tests montrent pas d'effets néfastes), et nous stockons les lookuptable pour sqrt(1<=B<2) à 15bits de point fixe.

Nous savons que 1<=sqrt(2^N)<65536, de sorte que c'est 16bit, et nous savons que nous pouvons vraiment que multiplier 16bitx15bit sur un BRAS, sans crainte de représailles, de sorte que c'est ce que nous faisons.

En termes de mise en œuvre, le temps(t) {cnt++;t>>=1;} est effectivement un comte de pointe-bits de l'instruction (CLB), donc si votre version du chipset est que, vous êtes gagnants! Aussi, le passage d'instruction serait facile à mettre en œuvre avec un levier de vitesse bidirectionnel, si vous en avez un?
Il y a un Lg[N] de l'algorithme de comptage de la plus haute bit ici.

En termes de numéros de magie, pour modifier les dimensions de la table, LE nombre magique pour ftbl2 est de 32, mais notez qu' 6 (Lg[32]+1) est utilisé pour le déplacement.
- FWIW, mais je n'ai pas vraiment recommander ce, vous pouvez trimestre de l'ensemble de votre erreur, avec une certaine pondération, à savoir: int v1=fisqrt(val); v1+=fisqrt(val-v1*v1)/16; 16 est la puissance de deux qui fonctionne le mieux, dans la gamme 1->2^24.
InformationsquelleAutor Dave Gamble
9

Une approche commune est non-bloquante.
```
hi = number
lo = 0
mid = ( hi + lo ) /2
mid2 = mid*mid
while( lo < hi-1 and mid2 != number ) {
    if( mid2 < number ) {
        lo = mid
    else
        hi = mid
    mid = ( hi + lo ) /2
    mid2 = mid*mid
```
Quelque chose comme ça devrait fonctionner raisonnablement bien. Il fait log2(nombre), les tests, faire
log2(nombre) se multiplie et divise. Depuis la division est une division par 2, vous pouvez le remplacer par un >>.

La condition d'arrêt peut ne pas être exactement les mêmes, alors assurez-vous de tester une variété de nombres entiers pour être sûr que la division par 2 n'a pas tort osciller entre deux valeurs; ils s'en distinguent par plus de 1.

InformationsquelleAutor S.Lott

Il n'est pas rapide, mais il est petit et simple:

int isqrt(int n)
{
  int b = 0;

  while(n >= 0)
  {
    n = n - b;
    b = b + 1;
    n = n - b;
  }

  return b - 1;
}

Est-ce à l'utilisation de dépassement d'entier?

InformationsquelleAutor

7

Je trouve que la plupart des algorithmes sont basés sur des idées simples, mais sont mis en œuvre de manière plus compliqué que nécessaire. J'ai pris l'idée à partir d'ici: http://ww1.microchip.com/downloads/en/AppNotes/91040a.pdf (par Ross M. Fosler) et en a fait un très bref C-fonction:
```
uint16_t int_sqrt32(uint32_t x)
{
    uint16_t res=0;
    uint16_t add= 0x8000;   
    int i;
    for(i=0;i<16;i++)
    {
        uint16_t temp=res | add;
        uint32_t g2=temp*temp;      
        if (x>=g2)
        {
            res=temp;           
        }
        add>>=1;
    }
    return res;
}
```
Cette compile à 5 cycles/bits sur mon blackfin. Je crois que votre code compilé sera en général plus rapide si vous utilisez des boucles au lieu de boucles while, et vous obtenez l'avantage supplémentaire de la déterministe du temps (bien que dans une certaine mesure dépend de la façon dont votre compilateur optimise l'instruction if.)
- Désolé, ce doit être de 5 cycles/bits de la sortie, qui est la moitié du nombre de bits que l'entrée. Donc 2,5 cycles/bits de l'entrée.
- Il y a un petit bug ici. Dans l'expression "temp*temp" vous avez besoin de jeter de l'une des opérandes à uint32_t assurez-vous que la multiplication se fait en 32 bits arithmétique 16 bits. Le code est-à-ne fonctionne pas sur AVR à cause de cela (mais il semble que sur les plates-formes où l'int de 32 bits, en raison de défaut de promotion, mais il peut encore provoquer de débordement d'entier-il).
- Une autre chose: "uint16_t ajouter= 0x8000;" devrait être changé en "uint16_t ajouter= UINT16_C(0x8000);".
InformationsquelleAutor Gutskalk
7

Il repose sur l'utilisation de la fonction sqrt. J'utilise souvent certains env de prendre rapidement des versions. Par exemple, quand j'ai besoin de calculer le module du vecteur :
```
Module = SQRT( x^2 + y^2)
```
J'utilise :
```
Module = MAX( x,y) + Min(x,y)/2
```
Qui peut être codée dans 3 ou 4 instructions:
```
If (x > y )
  Module  = x + y >> 1;
Else
   Module  = y + x >> 1;
```
- Il convient de noter que c'est l'alpha max plus bêta min algorithme, en utilisant l'alpha = 1 et bêta = 1/2. en.wikipedia.org/wiki/Alpha_max_plus_beta_min_algorithm
InformationsquelleAutor Yazou
3

J'ai réglé quelque chose de similaire à la binary digit par digit de l'algorithme décrit dans cet article de Wikipédia.

InformationsquelleAutor Ber
2

Voici une solution en Java qui combine entier log_2 et de la méthode de Newton pour créer une boucle de l'algorithme. Comme un inconvénient, il a besoin de la division. Les lignes commentées sont nécessaires pour convertir à une version 64 bits de l'algorithme.
```
private static final int debruijn= 0x07C4ACDD;
//private static final long debruijn= ( ~0x0218A392CD3D5DBFL)>>>6;

static
{
  for(int x= 0; x<32; ++x)
  {
    final long v= ~( -2L<<(x));
    DeBruijnArray[(int)((v*debruijn)>>>27)]= x; //>>>58
  }
  for(int x= 0; x<32; ++x)
    SQRT[x]= (int) (Math.sqrt((1L<<DeBruijnArray[x])*Math.sqrt(2)));
}

public static int sqrt(final int num)
{
  int y;
  if(num==0)
    return num;
  {
    int v= num;
    v|= v>>>1; //first round up to one less than a power of 2 
    v|= v>>>2;
    v|= v>>>4;
    v|= v>>>8;
    v|= v>>>16;
    //v|= v>>>32;
    y= SQRT[(v*debruijn)>>>27]; //>>>58
  }
  //y= (y+num/y)>>>1;
  y= (y+num/y)>>>1;
  y= (y+num/y)>>>1;
  y= (y+num/y)>>>1;
  return y*y>num?y-1:y;
}
```
Comment cela fonctionne: La première partie produit une racine carrée exacte à propos de trois bits. La ligne [y= (y+num/y)>>1;] double la précision en bits. La dernière ligne élimine le toit des racines qui peuvent être générés.
- J'ai essayé 3 autres implémentations sur cette page, c'est la manière la plus rapide quand j'ai implémenté en C#. Dave Pari de la mise en œuvre est arrivée deuxième à environ 25% plus lente que celle-ci. Je crois que la plupart de la boucle de base sont juste lent...
- Yep, c'est probablement la manière la plus rapide que vous pouvez faire sur un CPU avec la division, mais sans FPU ou prolongée de manipulation de bits instructions. Il est intéressant de noter que la version 64 bits de l'algorithme peut obtenir une meilleure précision pour un grand nombre de IEEE 754 double sur certains ordinateurs.
- Je n'ai pas été en mesure de faire ce travail (en supposant que SQRT et DeBruijnArray sont à la fois int[32], et l'ajout d'un nécessaire de lancer pour int pour faire de la compilation). Il semble écrire en dehors des limites lors de la première initialisation de la boucle.
- Le code est testé. La question est de savoir si j'ai copié correctement. L'un de ceux qui est un int[64] dans la version 64 bits.
InformationsquelleAutor warren

J'ai récemment rencontré la même tâche sur le processeur ARM Cortex-M3 (STM32F103CBT6) et après des recherches sur Internet est venu avec la solution suivante. Ce n'est pas le plus rapide en comparaison avec les solutions proposées ici, mais il a une bonne précision (de l'erreur maximale est de 1, c'est à dire LSB sur l'ensemble de la UI32 d'entrée de gamme) et de relativement bonne vitesse (environ 1,3 M racines carrées par seconde sur une de 72 MHz ARM Cortex-M3, soit environ 55 cycles par racine unique, y compris l'appel de la fonction).

//FastIntSqrt is based on Wikipedia article:
//https://en.wikipedia.org/wiki/Methods_of_computing_square_roots
//Which involves Newton's method which gives the following iterative formula:
//
//X(n+1) = (X(n) + S/X(n))/2
//
//Thanks to ARM CLZ instruction (which counts how many bits in a number are
//zeros starting from the most significant one) we can very successfully
//choose the starting value, so just three iterations are enough to achieve
//maximum possible error of 1. The algorithm uses division, but fortunately
//it is fast enough here, so square root computation takes only about 50-55
//cycles with maximum compiler optimization.
uint32_t FastIntSqrt (uint32_t value)
{
    if (!value)
        return 0;

    uint32_t xn = 1 << ((32 - __CLZ (value))/2);
    xn = (xn + value/xn)/2;
    xn = (xn + value/xn)/2;
    xn = (xn + value/xn)/2;
    return xn;
}

Je suis en utilisant IAR et elle produit les suivants du code assembleur:

        SECTION `.text`:CODE:NOROOT(1)
        THUMB
_Z11FastIntSqrtj:
        MOVS     R1,R0
        BNE.N    ??FastIntSqrt_0
        MOVS     R0,#+0
        BX       LR
??FastIntSqrt_0:
        CLZ      R0,R1
        RSB      R0,R0,#+32
        MOVS     R2,#+1
        LSRS     R0,R0,#+1
        LSL      R0,R2,R0
        UDIV     R3,R1,R0
        ADDS     R0,R3,R0
        LSRS     R0,R0,#+1
        UDIV     R2,R1,R0
        ADDS     R0,R2,R0
        LSRS     R0,R0,#+1
        UDIV     R1,R1,R0
        ADDS     R0,R1,R0
        LSRS     R0,R0,#+1
        BX       LR               ;; return

InformationsquelleAutor Kde

0

Cette méthode est similaire à la division longue: vous construisez une supposition pour le prochain chiffre de la racine, faire une soustraction, et entrez les chiffres si la différence répond à certains critères. Avec la version binaire, votre seul choix pour le prochain chiffre est 0 ou 1, ce qui vous permet de deviner 1, faire la soustraction, et entrez un 1, sauf si la différence est négative.

http://www.realitypixels.com/turk/opensource/index.html#FractSqrt

InformationsquelleAutor Ken Turkowski

J'ai mis en place Warren de la suggestion et de la méthode de Newton en C# pour les entiers 64 bits. Isqrt utilise la méthode de Newton, tandis que Isqrt utilise Warren méthode. Voici le code source:

using System;

namespace Cluster
{
    public static class IntegerMath
    {


        ///<summary>
        ///Compute the integer square root, the largest whole number less than or equal to the true square root of N.
        ///
        ///This uses the integer version of Newton's method.
        ///</summary>
        public static long Isqrt(this long n)
        {
            if (n < 0) throw new ArgumentOutOfRangeException("n", "Square root of negative numbers is not defined.");
            if (n <= 1) return n;

            var xPrev2 = -2L;
            var xPrev1 = -1L;
            var x = 2L;
            //From Wikipedia: if N + 1 is a perfect square, then the algorithm enters a two-value cycle, so we have to compare 
            //to two previous values to test for convergence.
            while (x != xPrev2 && x != xPrev1)
            {
                xPrev2 = xPrev1;
                xPrev1 = x;
                x = (x + n/x)/2;
            }
            //The two values x and xPrev1 will be above and below the true square root. Choose the lower one.
            return x < xPrev1 ? x : xPrev1;
        }

        #region Sqrt using Bit-shifting and magic numbers.

        //From http://stackoverflow.com/questions/1100090/looking-for-an-efficient-integer-square-root-algorithm-for-arm-thumb2
        //Converted to C#.
        private static readonly ulong debruijn= ( ~0x0218A392CD3D5DBFUL)>>6;
        private static readonly ulong[] SQRT = new ulong[64];
        private static readonly int[] DeBruijnArray = new int[64];

        static IntegerMath()
        {
          for(int x= 0; x<64; ++x)
          {
            ulong v= (ulong) ~( -2L<<(x));
            DeBruijnArray[(v*debruijn)>>58]= x;
          }
          for(int x= 0; x<64; ++x)
            SQRT[x]= (ulong) (Math.Sqrt((1L<<DeBruijnArray[x])*Math.Sqrt(2)));
        }

        public static long Isqrt2(this long n)
        {
          ulong num = (ulong) n; 
          ulong y;
          if(num==0)
            return (long)num;
          {
            ulong v= num;
            v|= v>>1; //first round up to one less than a power of 2 
            v|= v>>2;
            v|= v>>4;
            v|= v>>8;
            v|= v>>16;
            v|= v>>32;
            y= SQRT[(v*debruijn)>>58];
          }
          y= (y+num/y)>>1;
          y= (y+num/y)>>1;
          y= (y+num/y)>>1;
          y= (y+num/y)>>1;
          //Make sure that our answer is rounded down, not up.
          return (long) (y*y>num?y-1:y);
        }

        #endregion

    }
}

J'ai utilisé les méthodes suivantes pour référence le code:

using System;
using System.Diagnostics;
using Cluster;
using Microsoft.VisualStudio.TestTools.UnitTesting;

namespace ClusterTests
{
    [TestClass]
    public class IntegerMathTests
    {
        [TestMethod]
        public void Isqrt_Accuracy()
        {
            for (var n = 0L; n <= 100000L; n++)
            {
                var expectedRoot = (long) Math.Sqrt(n);
                var actualRoot = n.Isqrt();
                Assert.AreEqual(expectedRoot, actualRoot, String.Format("Square root is wrong for N = {0}.", n));
            }
        }

        [TestMethod]
        public void Isqrt2_Accuracy()
        {
            for (var n = 0L; n <= 100000L; n++)
            {
                var expectedRoot = (long)Math.Sqrt(n);
                var actualRoot = n.Isqrt2();
                Assert.AreEqual(expectedRoot, actualRoot, String.Format("Square root is wrong for N = {0}.", n));
            }
        }

        [TestMethod]
        public void Isqrt_Speed()
        {
            var integerTimer = new Stopwatch();
            var libraryTimer = new Stopwatch();

            integerTimer.Start();
            var total = 0L;
            for (var n = 0L; n <= 300000L; n++)
            {
                var root = n.Isqrt();
                total += root;
            }
            integerTimer.Stop();

            libraryTimer.Start();
            total = 0L;
            for (var n = 0L; n <= 300000L; n++)
            {
                var root = (long)Math.Sqrt(n);
                total += root;
            }
            libraryTimer.Stop();

            var isqrtMilliseconds = integerTimer.ElapsedMilliseconds;
            var libraryMilliseconds = libraryTimer.ElapsedMilliseconds;
            var msg = String.Format("Isqrt: {0} ms versus library: {1} ms", isqrtMilliseconds, libraryMilliseconds);
            Debug.WriteLine(msg);
            Assert.IsTrue(libraryMilliseconds > isqrtMilliseconds, "Isqrt2 should be faster than Math.Sqrt! " + msg);
        }

        [TestMethod]
        public void Isqrt2_Speed()
        {
            var integerTimer = new Stopwatch();
            var libraryTimer = new Stopwatch();

            var warmup = (10L).Isqrt2();

            integerTimer.Start();
            var total = 0L;
            for (var n = 0L; n <= 300000L; n++)
            {
                var root = n.Isqrt2();
                total += root;
            }
            integerTimer.Stop();

            libraryTimer.Start();
            total = 0L;
            for (var n = 0L; n <= 300000L; n++)
            {
                var root = (long)Math.Sqrt(n);
                total += root;
            }
            libraryTimer.Stop();

            var isqrtMilliseconds = integerTimer.ElapsedMilliseconds;
            var libraryMilliseconds = libraryTimer.ElapsedMilliseconds;
            var msg = String.Format("isqrt2: {0} ms versus library: {1} ms", isqrtMilliseconds, libraryMilliseconds);
            Debug.WriteLine(msg);
            Assert.IsTrue(libraryMilliseconds > isqrtMilliseconds, "Isqrt2 should be faster than Math.Sqrt! " + msg);
        }

    }
}

Mes résultats sur un Dell Latitude E6540 en mode Release, Visual Studio 2012 ont été
que l'appel de la Bibliothèque de Mathématiques.Sqrt est plus rapide.

59 ms - Newton (Isqrt)
12 ms - décalage de Bits (Isqrt2)
5 ms - Math.Sqrt

Je ne suis pas à l'aise avec les directives du compilateur, de sorte qu'il peut être possible de régler le compilateur pour obtenir le nombre entier maths plus vite. Clairement, le décalage de bits approche est très proche de la bibliothèque. Sur un système sans coprocesseur mathématique, il serait très rapide.

InformationsquelleAutor Paul Chernoch

Vous devez vous connecter pour publier un commentaire.