Est la multiplication et la division à l'aide d'opérateurs de décalage dans C vraiment le plus rapide?

De Multiplication et de division peut être réalisé en utilisant des bits les opérateurs, par exemple

i*2 = i<<1
i*3 = (i<<1) + i;
i*10 = (i<<3) + (i<<1)

et ainsi de suite.

Est-il réellement plus rapide d'utiliser le dire (i<<3)+(i<<1) à multiplier par 10 que l'utilisation de i*10 directement? Est-il une sorte d'entrée qui ne peut pas être multiplié ou divisé de cette manière?

En fait, bon marché division par une constante d'autre qu'une puissance de deux est possible, mais difficile de sujet auquel vous n'êtes pas de faire la justice avec "/Division ... /divisé" dans votre question. Voir par exemple hackersdelight.org/divcMore.pdf (ou obtenir le livre "Hacker s delight" si vous le pouvez).
Ça sonne comme quelque chose qui pourrait facilement être testé.
Comme d'habitude, ça dépend. Une fois, j'ai essayé ce en assembleur sur un processeur Intel 8088 (IBM PC/XT) où une multiplication pris un bazillion horloges. Changements et ajoute exécuté beaucoup plus rapide, de sorte qu'il semblait être une bonne idée. Cependant, tout en multipliant l'unité de bus est libre de remplir l'instruction de la file d'attente et la prochaine instruction a pu alors commencer immédiatement. Après une série de changements et ajoute l'instruction file d'attente est vide et le CPU aurait à attendre la prochaine instruction à être récupérées à partir de la mémoire (un octet à la fois!). Mesurez, mesurez, mesurez!
il était donc plus de difficultés à la mise en œuvre de la nouvelle version alors il valait la peine ou vous êtes-vous l'utiliser?
Aussi, méfiez-vous que le droit-le déplacement est uniquement définie pour les entiers non signés. Si vous avez un entier signé, il n'est pas défini si 0 ou le bit le plus élevé sont complétées à partir de la gauche. (Et n'oubliez pas le temps qu'il faut pour quelqu'un d'autre (même vous) pour lire le code d'un an plus tard!)
Non, j'ai fini à l'aide de la multiplier, parce que c'était la manière la plus rapide pour l'ensemble de la routine. Le 8088 a été limitée par le bus 8 bits, de sorte que la taille du code est souvent plus important que le nombre d'horloges pour chaque instruction.
En fait, un bon compilateur optimisant la volonté de mettre en œuvre la multiplication et de la division avec les changements quand ils sont plus rapides.
G. Dans le [s|b]ad vieux jours avant une bonne optimisation des compilateurs et des processeurs rapides, j'ai utilisé mon propre "10 fois" de routine (maj une fois & enregistrer, puis sur maj deux fois plus et ajouter à la valeur enregistrée). Aujourd'hui, il ne vaut pas la peine de déranger, mais à l'époque, il fait la différence entre les utilisateurs d'obtenir un rapport immédiatement, ou aller pour une pause café pendant qu'ils attendaient.
Il convient de mentionner que l'optimisation est appelée réduction de la résistance.
Il n'y a pas une telle chose comme "mieux". Sur un 8 broches du microcontrôleur, vous pouvez optimiser pour moins d'instructions. Si le processeur est un vecteur de processeur que vous craignent peut-être que vous pouvez faire 16 multiplications dans l'enseignement et la nécessité d'incorporer votre algorithme sur un grand vecteur de moteur. Comme tout le monde le dit, de rendre votre code dire quoi faire, pas comment le faire. Si vous connaissez un code spécifique chemin prend 90% de votre temps CPU, puis le bas niveau de stuff SI les mesures dire que ça aide. Autre chose serait une perte de temps qui pourrait être consacré en fait de l'optimisation de choses.
Je ne suis pas sûr que j'ai jamais vu un compilateur où divisant signé un nombre par une puissance de 2 n'a pas été plus lent que de faire une maj de droite. On pourrait dire que si les dividendes ne seront jamais négatifs que l'on jette de la non signé et de faire la division, mais qui peuvent causer des bizarreries de son propre.
Je suis un peu en retard à cette discussion, mais un récent test de la curiosité a montré que int64 division était d'environ 8 fois plus lent que bitshifting mais int64 de multiplication a été le même. Il est intéressant de noter, int32 division produit les mêmes résultats que int32 bitshifting. J'ai couru ce test très impromptu en mode de débogage, de sorte que ces résultats pourraient ne pas être représentatifs de l'objet dans l'application.

InformationsquelleAutor eku | 2011-06-15

bit-shift c c++division multiplication

456

Réponse courte: Pas probable.

Réponse longue:
Votre compilateur a un optimiseur qui sait se multiplient aussi vite que votre cible de l'architecture du processeur est capable. Votre meilleur pari est de dire au compilateur de votre intention clairement (c'est à dire i*2 plutôt que i << 1) et le laisser décider de ce que la manière la plus rapide de montage/code machine de la séquence. Il est même possible que le processeur lui-même a mis en œuvre les multiplier instruction comme une séquence de changements & ajoute dans microcode.

Ligne de fond-ne pas passer beaucoup de temps à se préoccuper de cela. Si vous voulez dire à la maj, maj. Si vous voulez dire à se multiplier, à se multiplier. Faire ce qui est sémantiquement plus clair--vos collègues vous en seront reconnaissantes. Ou, plus probablement, vous maudissent, plus tard, si vous faites le contraire.
- +1 pour le "vos collègues vous en seront reconnaissants plus tard."
- Yep, comme l'a dit les gains possibles pour presque toutes les applications seront totalement l'emportent sur l'obscurité qui l'introduit. Ne vous inquiétez pas à propos de ce genre d'optimisation prématurément. La construction de ce qui est sematically clair, identifier les goulots d'étranglement et d'optimiser, à partir de là...
- D'accord, l'optimisation de la lisibilité et la maintenabilité sera probablement le net vous de passer plus de temps en fait de l'optimisation de choses que le profiler dit sont chauds, les chemins de code.
- Ces commentaires le faire sonner comme vous êtes donnant sur le potentiel de performance de dire au compilateur comment faire son travail. C'est pas le cas. Vous obtenez en fait mieux code de gcc -O3 sur x86 avec return i*10 que depuis le changement de version. Comme quelqu'un qui a l'air à la sortie du compilateur beaucoup (voir plusieurs de mes asm / optimisation des réponses), je ne suis pas surpris. Il y a des moments où il peut aider à main-tenir le compilateur sur une façon de faire les choses, mais ce n'est pas l'un d'eux. gcc est bon en math entier, parce que c'est important.
- Il suffit de télécharger un sketch arduino qui a millis() >> 2; il Aurait été trop demander à juste diviser?
- Processeurs embarqués sont très différents de x86 compatibles. MSP430 a ni division, ni la multiplication de l'instruction. Certains d'entre eux ont séparé la multiplication de périphérique qui n'est pas aussi rapide que l'éclair, 4 cycles de 2 à 16 bits, les valeurs et le résultat est divisé en 4 registres de 8 bits. Lorsque vous travaillez à 16MHz et n'ont pas de fantaisie pipeline optimisations ou prédictive de l'exécution, ce genre de chose commence à la matière. Oui, vous pouvez laisser le compilateur mais encore une fois, vous êtes à deux ordres de grandeur plus lent que ce qui est discuté ici.
- Pour être juste, la lisibilité argument est subjective. Il est parfaitement logique quand la cible est des novices, mais pour une personne très expérimentée avec l'arithmétique binaire, il peut être plus lisible pour être de cette façon. Un exemple pourrait être un projet qui utilise déjà beaucoup de l'arithmétique binaire afin qu'il tienne mieux dans ce cas - et, partant, deviennent plus lisibles, pour avoir quelques impairs divisions ou des multiplications à être à peu arithmétique trop.
InformationsquelleAutor Drew Hall
90

Juste un béton de point de mesure: il y a plusieurs années, j'ai comparé les deux
versions de mon algorithme de hachage:
```
unsigned
hash( char const* s )
{
    unsigned h = 0;
    while ( *s != 'unsigned
hash( char const* s )
{
unsigned h = 0;
while ( *s != '\0' ) {
h = 127 * h + (unsigned char)*s;
++ s;
}
return h;
}
' ) {
        h = 127 * h + (unsigned char)*s;
        ++ s;
    }
    return h;
}
```
et
```
unsigned
hash( char const* s )
{
    unsigned h = 0;
    while ( *s != 'unsigned
hash( char const* s )
{
unsigned h = 0;
while ( *s != '\0' ) {
h = (h << 7) - h + (unsigned char)*s;
++ s;
}
return h;
}
' ) {
        h = (h << 7) - h + (unsigned char)*s;
        ++ s;
    }
    return h;
}
```
Sur chaque machine je comparés sur, le premier a été au moins aussi vite que
la deuxième. Curieusement, il est parfois plus rapide (par exemple sur un
Sun Sparc). Lorsque le matériel ne prend pas en charge rapide de multiplication (et
la plupart n'avait pas à l'époque), le compilateur serait de convertir la multiplication
dans les combinaisons appropriées de changements et add/sub. Et parce qu'il
savait l'objectif final, il peut parfois le faire en moins d'instructions que
lorsque vous avez explicitement écrit, les modifications et l'ajout/subs.

Noter que c'était quelque chose comme il y a 15 ans. Heureusement, les compilateurs
ont ne cesse de s'améliorer depuis, alors vous pouvez très bien compter sur l'
compilateur de faire la bonne chose, probablement mieux que vous pourrait. (Aussi,
la raison pour laquelle le code a l'air tellement C new'ish est parce qu'il a plus de 15 ans.
J'avais évidemment utiliser std::string et itérateurs d'aujourd'hui).
- Vous pouvez être intéressé par la suite de blog, dans lequel l'auteur note que les modernes l'optimisation des compilateurs semblent à la rétro-ingénierie des modèles communs que les programmeurs peuvent utiliser la réflexion plus efficaces dans leurs formes mathématiques afin de vraiment générer le plus efficace séquence d'instruction pour eux. shape-of-code.coding-guidelines.com/2009/06/30/...
- Rien de vraiment nouveau à ce sujet. J'ai découvert à peu près la même chose pour Sun CC près de 20 ans.
InformationsquelleAutor James Kanze
63

En plus de toutes les autres bonnes réponses ici, permettez-moi de souligner une autre raison de ne pas utiliser la touche maj enfoncée lorsque vous signifie diviser ou multiplier. Je n'ai jamais vu une fois à quelqu'un de présenter un bug par l'oubli de la priorité relative de multiplication et d'addition. J'ai vu les bugs introduits lors de l'entretien les programmeurs ont oublié que le "multiplier" via une maj est logiquement une multiplication, mais pas syntaxiquement de la même priorité que la multiplication. x * 2 + z et x << 1 + z sont très différents!

Si vous travaillez sur numéros de puis utiliser des opérateurs arithmétiques comme + - * /%. Si vous travaillez sur des tableaux de bits, utilisez peu tourner les opérateurs comme & ^ | >> . Ne pas les mélanger; une expression qui est à la fois peu tripoter et de l'arithmétique est un bug en attente de se produire.
- Évitable avec une simple parenthèse?
- Assurez-vous. Si vous vous souvenez que vous en avez besoin. de Mon point est qu'il est facile d'oublier que vous faites. Les gens qui obtiennent dans l'habitude mentale de la lecture "x<<1" comme s'il s'agissait de "x*2" dans l'habitude mentale de penser que << est le même ordre de priorité que la multiplication, ce qui ne l'est pas.
- Eh bien, je trouve l'expression "(hi << 8) + lo" plus l'intention de révéler que "salut*256 + lo". C'est probablement une question de goût, mais parfois, il est plus clair d'écrire des bits de se tourner. Dans la plupart des cas, même si je suis totalement d'accord avec votre point de vue.
- Et "(hi << 8) | lo" est encore plus clair. Réglage de la les bits de poids faible d'un tableau de bits est pas plus d'entiers. C'est paramètre bits, afin d'écrire le code qui définit les bits.
- Wow. Ne pense pas de cette façon auparavant. Merci.
- Quelles seraient, selon vous les plus idiomatiques façon, par exemple, de diviser un signé nombre (ce qui n'est pas près de Int32.MaxValue) par 256 avec l'arrondi? (X+128)>>8 est rapide et assez clair par rapport à tout ce que je peux la figure à l'aide de l'opérateur"/". Connaissez-vous des formulations à l'aide de "/", qui ne sont pas deux rend la lecture plus difficile et plus lent à s'exécuter?
- Plus lent à exécuter n'est pas pertinent. Exagérément lent est pertinente, et c'est une question qui ne peut être répondu par savoir ce acceptable vitesse. Si la technique a vitesse acceptable ensuite choisir celui qui est plus facile à lire; si aucune n'est acceptable alors le choix le plus difficile à lire, on ne résout pas le problème. Le milieu de terrain, où le dur à lire l'un est acceptable, mais la facile-à-lisez l'un ne l'est pas, est rare; si vous êtes dans cette situation rare alors le code est extraordinairement perf sensibles et doivent être bien commenté.
- Même juste en se concentrant sur la facilité de lecture, connaissez-vous une belle façon de calculer un arrondi de la division par 256 autres que par l'utilisation de maj? Quelque chose comme x >= 0 ? (x + 128)/256 : (x-127)/256 semble laid, même si elle a fonctionné aussi bien que (x+128)>>8.
- Je dois avouer que l'opération "diviser un nombre entier signé par 256 avec l'arrondi" je n'ai pas une fois eu à faire dans ma carrière, j'ai donc passé pas le temps de réfléchir à la façon de l'optimiser pour des raisons de lisibilité ou de vitesse.
- Juste assez. De telles choses surviennent assez souvent dans le sous-systèmes dans le monde (des choses comme des thermomètres numériques, etc.) où en virgule flottante est cher, et il sert également à être très commune dans les graphiques de la programmation (même si la virgule flottante est désormais un peu omniprésent). Si vous pensez que 256 est une valeur inhabituelle, choisir n'importe quel autre. Par exemple, à l'aide de math entier, est-il plus agréable que (a+b+c+d+2)>>2 pour calculer une valeur de 0,5 pour la moyenne de la valeur? Qui semble assez normal chose à faire.
InformationsquelleAutor Eric Lippert
48

Cela dépend du processeur et le compilateur. Certains compilateurs déjà d'optimiser le code de cette façon, d'autres ne le font pas.
Si vous avez besoin de vérifier à chaque fois que votre code doit être optimisé de cette façon.

Sauf si vous avez désespérément besoin pour optimiser, je ne voudrais pas brouiller mon code source juste pour enregistrer des instructions de montage ou du processeur.
- Juste pour ajouter une estimation approximative: Sur un typique de 16 Bits processeur (80C166) l'ajout de deux ints vient à 1-2 cycles, une multiplication à 10 cycles de division à 20 cycles. En Plus de certaines de déplacer des opérations si vous optimisez i*10 en de multiples ops (chaque mov un autre +1 cycle). Le plus commun des compilateurs (Keil/Tâche) ne pas optimiser sauf pour les multiplications/divisions par une puissance de 2.
- Et en général, le compilateur optimise le code mieux que vous.
- Je suis d'accord que lors de la multiplication des "quantités", l'opérateur de multiplication est généralement mieux, mais lors de la division des valeurs signées par des puissances de 2, la >> opérateur est plus rapide que / et, si l'signé valeurs peuvent être négatives, il est souvent sémantiquement supérieure ainsi. Si on a besoin de la valeur qui x>>4 serait de produire, c'est beaucoup plus clair que x < 0 ? -((-1-x)/16)-1 : x/16;, et je ne peux pas imaginer comment un compilateur peut optimiser cette dernière expression à quelque chose d'agréable.
InformationsquelleAutor Jens
36

Est-il réellement plus rapide à utiliser-dire (i<<3)+(i<<1) à multiplier par 10 que l'utilisation de i*10 directement?

Il pourrait ou ne pourrait pas être sur votre ordinateur - si vous vous souciez, la mesure dans votre usage du monde réel.

Une étude de cas - à partir de 486 core i7

L'analyse comparative est très difficile de le faire de façon significative, mais nous pouvons regarder un peu les faits. De http://www.penguin.cz/~literakl/intel/s.html#SAL et http://www.penguin.cz/~literakl/intel/je.html#IMUL nous avons une idée de x86 cycles d'horloge nécessaires pour le décalage et la multiplication. Dis nous en tenir à "486" (la dernière de la liste), 32 bits des registres et immédiates, IMUL prend 13-42 cycles et IDIV 44. Chaque SAL prend 2, et en ajoutant 1, de sorte que même avec un peu de ceux-ensemble décalage superficiellement ressemble à un gagnant.

Ces jours-ci, avec le core i7:

(à partir de http://software.intel.com/en-us/forums/showthread.php?t=61481)

Le temps de latence est 1 cycle pour un entier plus et 3 cycles pour un entier multiplication. Vous pouvez trouver des latences et des thoughput à l'Annexe C de la "Intel® 64 et IA-32 Optimisation des Architectures Manuel", qui est situé sur http://www.intel.com/products/processor/manuals/.

(de certains Intel blurb)

À l'aide de l'ESS, le Core i7 peut émission simultanée d'ajouter et multiplier les instructions, résultant en un taux maximal de 8 opérations à virgule flottante (le FLOP) par cycle d'horloge,

Qui vous donne une idée de la façon dont beaucoup choses ont. L'optimisation de trivia - comme le décalage de bits contre * - qui a été pris au sérieux, même dans les années 90 est juste aujourd'hui obsolète. De décalage de bits est encore plus rapide, mais pour les non-puissance de deux mul/div par le temps de vous faire tous vos déplacements et ajouter les résultats, il est encore plus lent. Alors, plus d'instructions signifie plus de défauts de cache, plus les problèmes potentiels dans le pipelining, plus d'utilisation de ces registres peut signifier plus de sauvegarde et restauration du contenu du registre à partir de la pile... ça devient vite trop compliqué de quantifier tous les impacts définitivement, mais ils sont essentiellement négatifs.

fonctionnalité dans le code source vs la mise en œuvre

Plus généralement, votre question est balisé le C et le C++. En tant que 3e génération langues, s'ils sont spécifiquement conçus pour cacher les détails de la sous-jacentes du PROCESSEUR à jeu d'instructions. Pour satisfaire leur langue les Normes, ils doivent soutenir la multiplication et le déplacement des opérations (et beaucoup d'autres) même si le matériel sous-jacent n'est pas. Dans de tels cas, ils doivent synthétiser le résultat requis à l'aide de beaucoup d'autres instructions. De même, ils doivent fournir le logiciel de soutien pour les opérations à virgule flottante si le CPU n'en a pas et il n'y a pas de FPU. Les Processeurs modernes supportent tous * et <<, donc cela peut sembler absurde théoriques et historiques, mais l'importance c'est que la liberté de choisir la mise en œuvre va dans les deux sens: même si le CPU a une instruction qui met en œuvre l'opération demandée dans le code source dans le cas général, le compilateur est libre de choisir quelque chose d'autre qu'il préfère parce que c'est mieux pour la spécifiques cas, le compilateur est confronté à.

Exemples (avec un hypothétique langage d'assemblage)
```
source           literal approach         optimised approach
#define N 0
int x;           .word x                xor registerA, registerA
x *= N;          move x -> registerA
                 move x -> registerB
                 A = B * immediate(0)
                 store registerA -> x
  ...............do something more with x...............
```
Instructions ou-exclusif (xor) n'ont aucun rapport avec le code source, mais xor-ing quoi que ce soit avec lui-même efface tous les bits, de sorte qu'il peut être utilisé pour définir quelque chose à 0. Le code Source qui implique des adresses de mémoire ne peut aboutir à être utilisé.

Ce genre de hacks ont été utilisés aussi longtemps que les ordinateurs ont été autour. Dans les premiers jours de 3GLs, pour sécuriser le développeur de l'absorption de la sortie du compilateur a dû satisfaire de l'existant hardcore de la main-optimisation de la langue de l'assembly dev. de la communauté que le code produit n'est pas plus lent, plus détaillé ou sinon pire. Les compilateurs ont rapidement adopté beaucoup d'optimisations - ils devenu un meilleur centralisée magasin de il de toute assemblée de la langue programmeur pourrait éventuellement être, mais il y a toujours la chance qu'ils manquent un précis d'optimisation qui se trouve être essentiel dans un cas particulier - les humains peuvent, parfois, de noix et de tâtonner pour quelque chose de mieux alors que les compilateurs il suffit de faire comme ils ont dit jusqu'à ce que quelqu'un se nourrit que de l'expérience en retour.

Donc, même si le décalage et l'ajout est encore plus rapide sur certains matériels, alors le compilateur de l'écrivain susceptibles d'avoir travaillé exactement quand il est à la fois bénéfiques et sans danger.

Maintenabilité

Si vos modifications sur le matériel, vous pouvez recompiler et il va chercher à le PROCESSEUR cible et de faire un autre choix, alors que vous avez peu de chances de jamais vouloir revoir votre "optimisations" ou à la liste qui compilation environnements doivent utiliser la multiplication et de la qui devrait passer. Pensez à tous les non-puissance de deux bits décalés "optimisations" écrite de 10 ans qui sont maintenant en train de ralentir le code qu'ils sont en mesure de l'exécution sur les processeurs modernes...!

Heureusement, de bons compilateurs comme GCC peut généralement remplacer une série de bitshifts et de l'arithmétique avec un direct de multiplication lorsque aucune optimisation est activée (c'est à dire ...main(...) { return (argc << 4) + (argc << 2) + argc; } -> imull $21, 8(%ebp), %eax) donc une recompilation peut aider, même sans en fixer le code, mais ce n'est pas garanti.

Étrange bitshifting d'application du code de la multiplication ou de la division est beaucoup moins expressif de ce que vous étiez sur le plan conceptuel essaie de l'atteindre, de sorte que les autres développeurs seront confus par ce, et un confus programmeur est plus susceptible d'introduire des bogues ou de supprimer quelque chose d'essentiel dans un effort pour restaurer semblant de santé mentale. Si vous ne le faites non évidente des choses quand ils sont vraiment, de façon tangible, bénéfique, et document bien (mais ne faites pas de document d'autres trucs qui sont de toute façon intuitive), tout le monde sera plus heureux.

Solutions générales rapport à des solutions partielles

Si vous avez quelques connaissances supplémentaires, tels que votre int ne sera véritablement en stockant les valeurs x, y et z, alors vous pourriez être en mesure de travailler des instructions de travail pour ces valeurs et vous obtenez votre résultat plus rapidement que lorsque le compilateur n'a pas cette idée et a besoin d'une mise en œuvre qui fonctionne pour tous les int valeurs. Par exemple, pensez à votre question:

De Multiplication et de division peut être réalisé en utilisant des bits les opérateurs...

Vous illustrer la multiplication, mais combien de division?
```
int x;
x >> 1;   //divide by 2?
```
Selon la Norme C++ 5.8:

-3 - La valeur de E1 >> E2 E1 décalés vers la droite E2 positions de bits. Si E1 est un type non signé ou si E1 a un type signé et un non négatif, la valeur du résultat est la partie entière du quotient de E1, divisée par la quantité 2 élevé à la puissance de l'E2. Si E1 a signé un type et une valeur négative, la valeur résultante de la mise en œuvre est définie.

Donc, votre de décalage de bits a une mise en œuvre définies résultat lorsque x est négatif: il ne peut pas travailler de la même façon sur des machines différentes. Mais, / fonctionne beaucoup plus prévisible. (Il ne peut pas être parfaitement cohérente, car les différentes machines peuvent avoir différentes représentations des nombres négatifs, et donc les différentes gammes, même quand il y a le même nombre de bits qui composent la représentation.)

Vous pouvez dire "je n'aime pas... que int est le stockage de l'âge de l'employé, il ne peut jamais être négatif". Si vous avez ce genre de perspicacité particulière, alors oui, votre >> sûr d'optimisation peut être passé par le compilateur, sauf si vous explicitement le faire dans votre code. Mais, c'est risqué et rarement utile car la plupart du temps vous n'aurez pas ce genre d'information, et d'autres programmeurs travaillant sur le même code ne saurez pas que vous avez pari de la maison à certaines des attentes des données vous serez manipulation... ce qui semble totalement sûr pour le changement pourrait se retourner contre à cause de votre "optimisation".

Est-il une sorte d'entrée qui ne peut pas être multiplié ou divisé de cette manière?

Oui... comme mentionné ci-dessus, les nombres négatifs ont définie par l'implémentation du comportement lors de l' "divisé" par décalage de bits.
- Très belle réponse. Core i7 vs 486 comparaison est éclairante!
InformationsquelleAutor Tony Delroy
32

Juste essayé sur ma machine de la compilation :
```
int a = ...;
int b = a * 10;
```
Lors du démontage, il produit de sortie :
```
MOV EAX,DWORD PTR SS:[ESP+1C] ; Move a into EAX
LEA EAX,DWORD PTR DS:[EAX+EAX*4] ; Multiply by 5 without shift !
SHL EAX, 1 ; Multiply by 2 using shift
```
Cette version est plus rapide que votre main-code optimisé avec de la pure déplacement et plus.

- Vous vraiment jamais savoir ce que le compilateur va venir avec, il est donc préférable d'écrire tout simplement un normal de multiplication et de lui laisser optimiser la façon dont il veut, sauf dans des cas bien précis où vous savoir le compilateur ne peut pas optimiser.
- Vous avez obtenu un grand upvote pour cela si vous aviez sauté la partie sur le vecteur. Si le compilateur peut fixer les multiplier, il peut également voir que le vecteur ne change pas.
- Comment un compilateur d'un vecteur de taille ne changera pas sans faire des vraiment dangereux hypothèses? Ou avez-vous jamais entendu parler de simultanéité...
- Ok, si vous en boucle sur un vecteur global avec pas de verrou? Et je boucle sur un vecteur qui l'adresse n'a pas été prises, et de n'appeler que des fonctions membres const. Au moins, mon compilateur se rend compte que la taille de vecteur ne change pas. (et bientôt quelqu'un va probablement drapeau us pour le chat :-).
- Enfin, après tout ce temps, j'ai enlevé ma déclaration sur le compilateur ne pas être en mesure d'optimiser loin vector<T>::size(). Mon compilateur est très ancienne! 🙂
InformationsquelleAutor user703016
21

Le déplacement est généralement beaucoup plus rapide que de multiplier au niveau de l'instruction mais vous pouvez très bien être en train de perdre votre temps à faire prématurée des optimisations. Le compilateur peut très bien réaliser ces optimisations au compile-time. Le faire vous-même permettra d'affecter la lisibilité et peut avoir aucun effet sur les performances. C'est probablement la peine de faire des choses comme ça si vous avez le profil trouvé ceci pour être un goulot d'étranglement.

En fait la division truc, connu comme "la magie de la division" peut effectivement générer d'énormes profits. Nouveau profil pour voir si c'est nécessaire. Mais si vous ne l'utilisez il y a des programmes utiles autour de vous pour vous aider à comprendre ce besoin d'instructions pour la même division de la sémantique. Voici un exemple : http://www.masm32.com/board/index.php?topic=12421.0

Un exemple que j'ai soulevé le cas des OP fil sur MASM32:
```
include ConstDiv.inc
...
mov eax,9999999
; divide eax by 100000
cdiv 100000
; edx = quotient
```
Générerait:
```
mov eax,9999999
mov edx,0A7C5AC47h
add eax,1
.if !CARRY?
    mul edx
.endif
shr edx,16
```
- Le lien semble être aléatoire fil de discussion du forum sur aime les mathématiques.
- De la merde. Posté mauvais. Corrigés.
- pour une raison quelconque, votre commentaire m'a fait rire et renverser mon café. merci.
- Il y a pas de hasard discussions sur le forum à propos de aime les mathématiques. N'importe qui qui aime les maths sait combien il est difficile de générer un véritable "aléatoire" fil de discussion du forum.
- C'est probablement la peine de faire des choses comme ça si vous avez le profil trouvé ceci pour être un goulot d'étranglement et mis en œuvre les solutions de rechange et de profil à nouveau et obtenir au moins 10 fois avantage de performance.
- +1 pour que le thread sur aime les mathématiques est ÉPIQUE!
InformationsquelleAutor Mike Kwan
11

Maj entier et les instructions de multiplication ont des performances similaires sur la plupart des Processeurs modernes entier instructions de multiplication ont été relativement lente dans les années 1980, mais en général ce n'est plus vrai. Entier instructions de multiplication peut être plus élevé, latence, donc il peut encore y avoir des cas où un changement est préférable. Idem pour les cas où vous pouvez garder plus des unités d'exécution occupé (même si cela peut réduire à la fois les moyens).

Division entière est encore relativement faible, cependant, de sorte que l'aide d'un déplacement au lieu de la division par une puissance de 2 est encore une victoire, et la plupart des compilateurs de mettre en œuvre la présente comme une optimisation. Note cependant que, pour ce type d'optimisation pour être valide, le dividende doit être signé ou doivent être connus pour être positif. Pour un négatif de dividendes de la maj et fracture ne sont pas équivalentes!
```
#include <stdio.h>

int main(void)
{
    int i;

    for (i = 5; i >= -5; --i)
    {
        printf("%d /2 = %d, %d >> 1 = %d\n", i, i / 2, i, i >> 1);
    }
    return 0;
}
```
De sortie:
```
5 / 2 = 2, 5 >> 1 = 2
4 / 2 = 2, 4 >> 1 = 2
3 / 2 = 1, 3 >> 1 = 1
2 / 2 = 1, 2 >> 1 = 1
1 / 2 = 0, 1 >> 1 = 0
0 / 2 = 0, 0 >> 1 = 0
-1 / 2 = 0, -1 >> 1 = -1
-2 / 2 = -1, -2 >> 1 = -1
-3 / 2 = -1, -3 >> 1 = -2
-4 / 2 = -2, -4 >> 1 = -2
-5 / 2 = -2, -5 >> 1 = -3
```
Donc, si vous voulez aider le compilateur, alors assurez-vous que la variable ou l'expression que dans le dividende est explicitement non signé.
- Entier multiplie sont microcoded par exemple sur PlayStation 3 du PPU, et de décrochage de l'ensemble du pipeline. Il est recommandé d'éviter entier se multiplie sur certaines plates-formes encore 🙂
- De nombreux unsigned divisions sont - en supposant que le compilateur sait - mis en œuvre à l'aide de multiplications non signées. Un ou deux multiplie @ quelques cycles d'horloge chacun peut faire le même travail qu'une division @ 40 cycles de chaque et.
- vrai, mais seulement valide pour la division par une constante de compilation de cours
InformationsquelleAutor Paul R
3

Il dépend entièrement sur le périphérique cible, la langue, objet, etc.

Pixel croquant dans un pilote de carte vidéo? Très probablement, oui!

.NET business application pour votre département? Absolument aucune raison même de le regarder.

Pour une haute performance de jeu pour un appareil mobile, il pourrait être utile dans la recherche, mais seulement après que plus facile optimisations ont été effectuées.

InformationsquelleAutor Brady Moritz
2

Ne pas faire, sauf si vous avez absolument besoin et votre code intention exige de déplacement plutôt que la multiplication ou la division.

En journée typique - vous pourrait potentiellement sauver quelques cycles machine (ou en vrac, depuis compilateur sait le mieux ce qui à optimiser), mais le coût n'est pas la peine - vous passer du temps sur des détails mineurs, plutôt que de véritables emplois, de maintenir le code devient plus difficile et vos collègues vont vous maudire.

Vous pourriez avoir besoin de le faire pour la haute charge des calculs, où chaque enregistré cycle de minutes de temps d'exécution. Mais, vous devez optimiser un lieu à un moment et de faire des tests de performances à chaque fois pour voir si vous avez vraiment fait plus rapide ou cassé compilateurs logique.

InformationsquelleAutor Kromster
1

Autant que je sais que dans certaines machines de multiplication peuvent avoir besoin de jusqu'à 16 à 32 cycle de la machine. Donc Oui, selon le type de machine, bitshift opérateurs sont plus rapides que la multiplication ou la division.

Cependant, certaines machines ont leurs mathématiques processeur, qui contient des instructions pour la multiplication ou la division.
- Les gens de l'écriture de compilateurs pour ces machines ont probablement également lire les Pirates de Plaisir et d'optimiser en conséquence.
InformationsquelleAutor iammilind
1

Je suis d'accord avec la réponse par Drew Hall. La réponse pourrait utiliser quelques notes supplémentaires si.

Pour la grande majorité des développeurs de logiciels le processeur et le compilateur ne sont plus pertinentes à la question. La plupart d'entre nous sont bien au-delà de la 8088 et MS-DOS. C'est peut-être seulement pour ceux qui sont encore en développement pour processeurs embarqués...

À ma société de logiciels de Mathématiques (add/sub/mul/div) doit être utilisé pour toutes les mathématiques.
Tout Changement doit être utilisé lors de la conversion entre les types de données, par exemple. ushort d'octets que le n>>8 et pas n/256.
- Je suis d'accord avec vous, trop. J'ai suivi la même ligne directrice, inconsciemment, bien que je n'ai pas eu une exigence formelle de le faire.
InformationsquelleAutor deegee
0

Dans le cas des entiers signés et décalage à droite vs division, il peut faire une différence. Pour les nombres négatifs, le changement des tours de tours vers l'infini négatif alors que les cycles de division vers zéro. Bien sûr, le compilateur va changer la division de quelque chose de moins cher, mais il sera généralement le changer pour quelque chose qui a le même comportement d'arrondissage de division, parce qu'il est incapable de prouver que la variable ne sera pas négatif ou il n'a tout simplement pas de soins.
Donc, si vous pouvez prouver qu'un certain nombre ne sera pas négatif, ou si vous n'aimez pas la façon de les arrondir, vous pouvez faire de l'optimisation d'une manière qui est plus susceptible de faire une différence.
- ou le vote, du nombre de unsigned
- Êtes-vous sûr que l'évolution des comportements est normalisé? J'étais sous l'impression que le décalage vers la droite sur le négatif ints la mise en œuvre est définie.
- Alors que vous devriez peut-être mentionner que le code qui s'appuie sur aucun comportement particulier pour le droit de décalage de nombres négatifs doivent documenter cette exigence, le parti de droite, le décalage est énorme dans les cas où il naturellement les rendements de la juste valeur et l'opérateur de division serait de générer du code pour perdre du temps de calcul indésirables valeur le code de l'utilisateur aurait alors à déchets supplémentaires de temps à s'adapter à un rendement de ce que le changement aurait donné en premier lieu. En fait, si j'avais tenait qu'à moi, les compilateurs aurait une option pour affichez à la tente d'effectuer signé division, depuis...
- ...code qui connaît les opérandes sont positifs pourraient améliorer l'optimisation si elle fonte non signé avant la division (éventuellement casting de retour signé par la suite), et le code qui sait que les opérandes peuvent être négatifs doivent généralement faire face à ce cas explicitement de toute façon (dans ce cas, on peut tout aussi bien supposer eux pour être positif).
InformationsquelleAutor harold

Python test de l'exécution même de la multiplication de 100 millions de fois contre le même nombres aléatoires.

>>> from timeit import timeit
>>> setup_str = 'import scipy; from scipy import random; scipy.random.seed(0)'
>>> N = 10*1000*1000
>>> timeit('x=random.randint(65536);', setup=setup_str, number=N)
1.894096851348877 # Time from generating the random #s and no opperati

>>> timeit('x=random.randint(65536); x*2', setup=setup_str, number=N)
2.2799630165100098
>>> timeit('x=random.randint(65536); x << 1', setup=setup_str, number=N)
2.2616429328918457

>>> timeit('x=random.randint(65536); x*10', setup=setup_str, number=N)
2.2799630165100098
>>> timeit('x=random.randint(65536); (x << 3) + (x<<1)', setup=setup_str, number=N)
2.9485139846801758

>>> timeit('x=random.randint(65536); x //2', setup=setup_str, number=N)
2.490908145904541
>>> timeit('x=random.randint(65536); x /2', setup=setup_str, number=N)
2.4757170677185059
>>> timeit('x=random.randint(65536); x >> 1', setup=setup_str, number=N)
2.2316000461578369

Donc en faisant une maj plutôt que la multiplication ou la division par une puissance de deux en python, il y a une légère amélioration (~10% pour la division; ~1% pour la multiplication). Si c'est un non-puissance de deux, il y a probablement un ralentissement considérable.

De nouveau ces #s va changer en fonction de votre processeur, votre compilateur (ou d'un interprète -- n'en python pour des raisons de simplicité).

Comme tout le monde, ne pas prématurément optimiser. Écriture très lisible le code, profil si ce n'est pas assez rapide, et ensuite d'essayer d'optimiser les parties lentes. Rappelez-vous, votre compilateur est beaucoup mieux à l'optimisation que vous êtes.

InformationsquelleAutor dr jimbob

Il y a des optimisations du compilateur ne peut pas le faire parce qu'ils ne fonctionnent que pour un ensemble réduit de données.

Ci-dessous, il est en c++ exemple de code qui peut faire plus rapide de la division de faire un 64bits "Multiplication par l'inverse". Le numérateur et le dénominateur doivent être en dessous d'un certain seuil. Notez qu'il doit être compilé en 64 bits instructions pour être effectivement plus rapide que la normale de la division.

#include <stdio.h>
#include <chrono>
static const unsigned s_bc = 32;
static const unsigned long long s_p = 1ULL << s_bc;
static const unsigned long long s_hp = s_p / 2;
static unsigned long long s_f;
static unsigned long long s_fr;
static void fastDivInitialize(const unsigned d)
{
s_f = s_p / d;
s_fr = s_f * (s_p - (s_f * d));
}
static unsigned fastDiv(const unsigned n)
{
return (s_f * n + ((s_fr * n + s_hp) >> s_bc)) >> s_bc;
}
static bool fastDivCheck(const unsigned n, const unsigned d)
{
//32 to 64 cycles latency on modern cpus
const unsigned expected = n / d;
//At least 10 cycles latency on modern cpus
const unsigned result = fastDiv(n);
if (result != expected)
{
printf("Failed for: %u/%u != %u\n", n, d, expected);
return false;
}
return true;
}
int main()
{
unsigned result = 0;
//Make sure to verify it works for your expected set of inputs
const unsigned MAX_N = 65535;
const unsigned MAX_D = 40000;
const double ONE_SECOND_COUNT = 1000000000.0;
auto t0 = std::chrono::steady_clock::now();
unsigned count = 0;
printf("Verifying...\n");
for (unsigned d = 1; d <= MAX_D; ++d)
{
fastDivInitialize(d);
for (unsigned n = 0; n <= MAX_N; ++n)
{
count += !fastDivCheck(n, d);
}
}
auto t1 = std::chrono::steady_clock::now();
printf("Errors: %u /%u (%.4fs)\n", count, MAX_D * (MAX_N + 1), (t1 - t0).count() / ONE_SECOND_COUNT);
t0 = t1;
for (unsigned d = 1; d <= MAX_D; ++d)
{
fastDivInitialize(d);
for (unsigned n = 0; n <= MAX_N; ++n)
{
result += fastDiv(n);
}
}
t1 = std::chrono::steady_clock::now();
printf("Fast division time: %.4fs\n", (t1 - t0).count() / ONE_SECOND_COUNT);
t0 = t1;
count = 0;
for (unsigned d = 1; d <= MAX_D; ++d)
{
for (unsigned n = 0; n <= MAX_N; ++n)
{
result += n / d;
}
}
t1 = std::chrono::steady_clock::now();
printf("Normal division time: %.4fs\n", (t1 - t0).count() / ONE_SECOND_COUNT);
getchar();
return result;
}

InformationsquelleAutor user2044859

0

Je pense que dans le seul cas que vous voulez de multiplier ou de diviser par une puissance de deux, vous ne pouvez pas vous tromper avec l'aide de bitshift opérateurs, même si le compilateur convertit à une MUL/DIV, parce que certains processeurs microcode (vraiment, une macro) de toute façon, donc, pour ces cas, vous allez obtenir une amélioration, surtout si le décalage est supérieur à 1. Ou plus explicitement, si le CPU n'a pas de bitshift opérateurs, il sera un MUL/DIV de toute façon, mais si le CPU a bitshift opérateurs, vous éviter un microcode de la branche et c'est quelques instructions de moins.

Je suis en train d'écrire un peu de code à droite maintenant, qui nécessite beaucoup de doubler/réduction de moitié des opérations, car il fonctionne sur un réseau dense d'arbres binaires, et il y a encore une opération qui, je le soupçonne peut-être plus optimale qu'une plus - gauche (puissance de deux qui se multiplient) maj avec un ajout. Ce peut être remplacé par un virage à gauche et un xor si le décalage est plus large que le nombre de bits que vous souhaitez ajouter, exemple facile est (i<<1)^1, ce qui ajoute un à un doublé de valeur. Cela ne veut évidemment pas s'appliquer à un décalage à droite (puissance de deux fracture), car seule une gauche (little endian) maj comble le vide avec des zéros.

Dans mon code, ces multiplier/diviser par deux et les puissances de deux opérations sont très utilisées de manière intensive et parce que les formules sont assez court déjà, chaque instruction peut être éliminé peut être un gain substantiel. Si le processeur ne prend pas en charge ces bitshift opérateurs, aucun gain va se passer, mais il n'y aura une perte.

Aussi, dans les algorithmes que j'écris, ils représentent visuellement les mouvements qui se produisent dans ce sens, ils sont en fait de plus en plus clair. Le côté gauche d'un arbre binaire est plus grand, et le droit est plus petit. Ainsi que, dans mon code, étrange et même les nombres ont une signification particulière, et tous de gauche des enfants dans l'arbre sont curieux et tout à droite, de la main des enfants, et la racine sont même. Dans certains cas, que je n'ai pas rencontré encore, mais, oh, en fait, je n'ai même pas penser à cela, x&1 est peut-être plus un fonctionnement optimal par rapport à x%2. x&1 sur un même numéro de produire zéro, mais produira 1 pour un nombre impair.

Pour aller un peu plus loin que juste au pair/impair d'identification, si je suis nulle pour x&3 je sais que 4 est un facteur de notre nombre, et de même pour x%7 pour 8, et ainsi de suite. Je sais que ces cas ont probablement eu une utilité limitée, mais il est bon de savoir que vous pouvez éviter un module le fonctionnement et l'utilisation d'un bit à bit de la logique de fonctionnement au lieu de cela, parce que les opérations bit à bit sont presque toujours le plus rapide, et moins susceptibles d'être ambigu pour le compilateur.

Je suis à peu près d'inventer le domaine de l'dense des arbres binaires, donc je pense que les gens ne peuvent pas saisir la valeur de ce commentaire, que très rarement, les gens veulent seulement effectuer des factorisations uniquement sur les puissances de deux, ou seulement multiplier/diviser des puissances de deux.

InformationsquelleAutor Louki Sumirniy

Vous devez vous connecter pour publier un commentaire.

Une étude de cas - à partir de 486 core i7

fonctionnalité dans le code source vs la mise en œuvre

Maintenabilité

Solutions générales rapport à des solutions partielles