Est-il un compilateur astuce pour GCC pour forcer la direction de la prévision pour aller toujours une certaine façon?

Pour les architectures Intel, est-il un moyen de demander le compilateur GCC de générer du code qui a toujours des forces direction de la prévision d'une manière particulière dans mon code? L'Intel matériel de soutien, même cela? Quels sont les autres compilateurs ou matériels?

Je voudrais utiliser ce code C++ que je sais être le cas, je souhaite courir vite et ne se soucient pas le ralentir lorsque l'autre branche doivent être prises, même lorsqu'il a pris récemment la direction.

for (;;) {
  if (normal) { //How to tell compiler to always branch predict true value?
    doSomethingNormal();
  } else {
    exceptionalCase();
  }
}

Comme suite à la question de Evdzhan Mustafa, l'astuce il suffit de spécifier un indice pour la première fois le processeur rencontre l'instruction, tous les branchements, fonctionne normalement?

pourrait aussi lever une exception si quelque chose devient anormale (ce qui est le compilateur indépendant)
Étroitement liés: probable()/peu probable() les macros dans le noyau Linux - comment fonctionnent-ils? Quel est leur intérêt?

InformationsquelleAutor WilliamKF | 2015-05-08

branch-prediction c++gcc intel pragma

21

La bonne façon de définir probable/peu probable macros en C++11 est le suivant:
```
#define LIKELY(condition) __builtin_expect(static_cast<bool>(condition), 1)
#define UNLIKELY(condition) __builtin_expect(static_cast<bool>(condition), 0)
```
Lorsque ces macros définies de cette façon:
```
#define LIKELY(condition) __builtin_expect(!!(condition), 1)
```
Qui peuvent changer le sens de if états et de briser le code. Considérons le code suivant:
```
#include <iostream>

struct A
{
    explicit operator bool() const { return true; }
    operator int() const { return 0; }
};

#define LIKELY(condition) __builtin_expect((condition), 1)

int main() {
    A a;
    if(a)
        std::cout << "if(a) is true\n";
    if(LIKELY(a))
        std::cout << "if(LIKELY(a)) is true\n";
    else
        std::cout << "if(LIKELY(a)) is false\n";
}
```
Et sa sortie:
```
if(a) is true
if(LIKELY(a)) is false
```
Comme vous pouvez le voir, la définition de la probabilité à l'aide de !! comme une troupe de bool sauts de la sémantique de if.

Le point ici n'est pas que operator int() et operator bool() devraient être liés. Ce qui est une bonne pratique.

Plutôt que l'utilisation de !!(x) au lieu de static_cast<bool>(x) perd le contexte de C++11 contextuelle conversions.
- Remarque contextuelle conversions sont venus à l'aide d'un défaut dans 2012 et même à la fin de 2014, il y a encore de la mise en œuvre de divergence. En fait, il semble comme c'est le cas je lien ne fonctionne toujours pas pour gcc.
- C'est une observation intéressante en ce qui concerne le contexte de la conversion impliqués dans switch, merci. Le contexte de la conversion en cause ici est partucluar de type bool et les cinq contextes spécifiques qui y sont énumérés, qui ne comprennent pas switch contexte.
- Cela ne concerne que le C++, non? Donc il n'y a pas de raison d'y aller et à modifier les projets C pour utiliser (_Bool)(condition), parce que le C n'a pas la surcharge d'opérateur.
- Dans votre exemple, vous avez utilisé seulement (condition), pas !!(condition). Les deux sont true après le changement de cette (testé avec g++ 7.1). Pouvez-vous construire un exemple qui fait illustre le problème que vous parlez quand vous utilisez !! à booleanize?
- Il s'applique à C++, vous avez raison. On peut fournir à la fois operator!() et explicit operator bool() qui reviennent tous les deux la même valeur, de sorte que !! serait de retour à l'opposé de la conversion explicite de type bool. Un tel code serait probablement pas passer un examen du code, cependant, car il ne respecte pas le principe de moindre surprise.
- Ah oui, la surcharge operator! serait-il le faire 😛
- Comme Peter Cordes souligné, vous vous dites, "Lors de ces macros [sont] définie de cette manière:" et de montrer ensuite une macro à l'aide de '!!', "peut changer le sens de si déclarations et de briser le code. Considérons le code suivant:" ... et puis vous montrer le code qui n'utilise pas '!!' à tous - qui a connu pour être cassé avant même de C++11. S'il vous plaît changer la réponse de montrer un exemple où la macro (à l'aide !!) va mal.
InformationsquelleAutor Maxim Egorushkin
79

GCC prend en charge la fonction __builtin_expect(long exp, long c) à fournir ce type de fonctionnalité. Vous pouvez consulter la documentation ici.

Où exp est la condition utilisée et c est la valeur attendue. Par exemple dans votre cas, vous voulez
```
if (__builtin_expect(normal, 1))
```
En raison de l'ennui, de la syntaxe ceci est habituellement utilisé par la définition des deux macros personnalisées comme
```
#define likely(x)    __builtin_expect (!!(x), 1)
#define unlikely(x)  __builtin_expect (!!(x), 0)
```
juste pour faciliter la tâche.

L'esprit que:
1. c'est non standard
2. un compilateur/cpu branche prédicteur sont susceptibles de plus qualifié que vous pour décider de telles choses, alors cela pourrait être un prématuré de la micro-optimisation
- Est-il une raison que vous montrer une macro et pas un constexpr fonction?
- Je ne pense pas qu'un constexpr la fonction peut remplacer cette macro. Il doit être dans le if déclaration directement je crois. Même raison assert ne pourrait jamais être un constexpr fonction.
- Je suis d'accord, bien qu'il existe plus de raisons pour affirmer.
- Avez-vous essayé? Parce que la dernière fois que je l'ai fait il a bien fonctionné comme statique de la fonction en ligne, affectant l'assembly généré dans la manière prévue (no pun intended).
- Pour opaque des prédicats ou des valeurs le compilateur n'a aucune idée de la façon dont la direction s'en va tourner.
- l'une des raisons pour utiliser une macro serait parce que c'est l'un des rares endroits en C ou C++ lorsqu'une macro est plus sémantiquement correct qu'une fonction. La fonction n'apparaît que de travailler en raison de l'optimisation (est l'optimisation: constexpr ne parle que de la valeur de la sémantique, pas l'inlining de mise en œuvre spécifique de l'assemblée); l'interprétation directe (pas de inline) du code est dénuée de sens. Il n'y a aucune raison d'utiliser une fonction pour cela.
- Il semble que la compilation avec simplement -O1 ou plus, produit par GCC équivalent de l'assemblée pour le constexpr fonction et intrinsèques. En va de même avec Clang. Et, vraiment, il n'y a pas de point dans la fourniture de ramification de l'information quand votre niveau d'optimisation est de moins de 1.
- Considérer que __builtin_expect lui-même est un indicateur d'optimisation, afin de faire valoir qu'une méthode de simplification de son utilisation dépend de l'optimisation... n'est pas convaincante. Aussi, je n'ai pas ajouter le constexpr rédacteur de devis pour le faire fonctionner dans la première place, mais pour le faire fonctionner dans des expressions constantes. Et oui, il y a des raisons de l'utilisation d'une fonction. Par exemple, je ne voudrais pas polluer mon espace de noms avec un joli petit nom comme likely. J'aurais à utiliser, par exemple, LIKELY souligner que c'est une macro et éviter les collisions, mais c'est tout simplement laid.
- Comme Columbo dit (indirectement), de mettre ce gadget dans un utilitaire de l'espace de noms est une excellente raison pour en faire une fonction.
- Vous voyez ces macros tout sur le noyau Linux, où sans doute les développeurs du noyau ne en savoir mieux que le compilateur, ce qui est probable ou peu probable.
- Absent PGO, le compilateur assez bien a très peu d'informations au sujet de la probabilité d'une branche, puisqu'il n'a presque pas d'informations contextuelles. Il y a différentes heuristiques utilisées, comme une "branche qui retourne une constante n'est pas susceptible d'être pris parce que c'est une erreur courante-schéma de gestion", mais leur utilisation est limitée et peut être tout à fait tort. D'autre part, la dynamique de la branche prédicteur dans la CPU est beaucoup plus susceptibles de faire les choses, mais c'est plus ou moins pertinent étant donné que le code a été généré à ce point. La source des relents de ne pas interférer avec le prédicteur.
InformationsquelleAutor Jack
42

gcc a long __builtin_attendent (longue exp, longtemps c) (accent mine):
Vous pouvez utiliser __builtin_s'attendre à fournir le compilateur de la direction
la prédiction de l'information. En général, vous devriez préférer l'utilisation réelle
profil de retour pour ce (-fprofile-arcs), que les programmeurs sont
notoirement mauvais pour prédire la façon dont leurs programmes effectuent.
Cependant, il existe des applications dans lesquelles ces données sont difficiles à recueillir.

La valeur de retour est la valeur de exp, ce qui devrait être une partie intégrante
de l'expression. La sémantique de l'élément sont qu'il est prévu que
exp == c. Par exemple:
```
if (__builtin_expect (x, 0))
   foo ();
```
indique que nous ne nous attendons pas à appeler foo, puisque nous nous attendons à x d'être
zéro. Depuis que vous êtes limité à partie intégrante des expressions pour l'exp, vous
devrait utiliser des constructions telles que les
```
if (__builtin_expect (ptr != NULL, 1))
   foo (*ptr);
```
lors de l'essai de pointeur ou de valeurs à virgule flottante.
Que les notes de documentation vous devez vous préférez utiliser le profil réel de la rétroaction et cet article montre un exemple pratique de cette et comment, dans leur cas, au moins, finit par être une amélioration à l'aide __builtin_expect. Voir aussi Comment utiliser le profil guidée des optimisations dans g++?.

On peut aussi trouver une Le noyau Linux débutants article sur le kernel macros probable() et rare() qui utilisent cette fonctionnalité:
```
#define likely(x)       __builtin_expect(!!(x), 1)
#define unlikely(x)     __builtin_expect(!!(x), 0)
```
Note le !! utilisé dans la macro on peut trouver l'explication de ce phénomène dans Pourquoi utiliser !!(condition) au lieu de (condition)?.

Tout simplement parce que cette technique est utilisée dans le noyau Linux ne veut pas dire qu'il fait toujours sens pour l'utiliser. Nous pouvons voir à partir de cette question que j'ai récemment répondu à différence entre les performances de la fonction lors du passage de paramètre en tant que moment de la compilation constante ou variable que beaucoup roulé à la main optimisations techniques ne fonctionnent pas dans le cas général. Nous avons besoin de code de profil attentivement afin de comprendre si une technique est efficace. De nombreuses techniques anciennes peuvent ne pas être pertinents moderne, avec des optimisations du compilateur.

Remarque, bien que les objets internes ne sont pas portables clang prend également en charge __builtin_attendent.

Également sur certains architectures il ne peut faire une différence.
- Ce qui est assez bon pour le noyau Linux ne suffit pas de C++11.
- remarque, je n'ai pas vraiment de recommander son utilisation, en fait, la gcc de la documentation, je cite, qui est ma première citation n'a même pas utiliser cette technique. Je dirais que le principal objectif de ma réponse est à envisager des solutions de rechange soigneusement avant de descendre cette route.
InformationsquelleAutor Shafik Yaghmour
38

Non, il ne l'est pas. (Au moins sur les processeurs x86 modernes.)

__builtin_expect mentionné dans d'autres réponses influence la façon dont les gcc organise le code assembleur. Il n'a pas directement influence de la CPU branche prédicteur. Bien sûr, il y aura des effets indirects de la branche de prédiction causée par la réorganisation du code. Mais sur les processeurs x86 modernes il n'y a pas d'instruction qui indique au PROCESSEUR "assumer cette direction est/n'est pas prise".

Voir cette question pour plus de détails: Intel x86 0x2E/0x3E Préfixe Direction de la Prévision effectivement utilisés?

Pour être clair, __builtin_expect et/ou de l'utilisation de -fprofile-arcs peut améliorer les performances de votre code, à la fois en donnant des conseils à la direction de la prédicteur par le biais de la disposition du code (voir Optimisation des performances de x86-64 de l'assemblée - l'Alignement et la direction de la prévision), et aussi l'amélioration du cache de comportement en gardant "peu probable" le code de "probable" du code.
- Ceci est incorrect. Sur toutes les versions modernes de x86, la valeur par défaut de prédiction de l'algorithme est de prédire que les branches ne sont pas prises et que l'arrière branches (voir software.intel.com/en-us/articles/...). Donc, en réorganisant votre code vous peut effectivement donner un indice de la CPU. C'est exactement ce que GCC n'lorsque vous utilisez __builtin_expect.
- as-tu lire au-delà de la première phrase de ma réponse? Tout ce que vous avez dit est couvert par ma réponse ou dans les liens donnés. La question posée si vous pouvez "forcer direction de la prévision pour aller toujours d'une certaine manière", pour laquelle la réponse est "non", et je n'ai pas d'autres réponses ont été assez claire à ce sujet.
- OK, j'aurais du lire plus attentivement. Il me semble que la réponse est techniquement correct, mais un peu inutile, car l'interlocuteur est évidemment à la recherche pour __builtin_expect. Ce qui devrait être juste un commentaire. Mais il n'est pas faux, donc j'ai enlevé mon downvote.
InformationsquelleAutor Artelius
15

Que les autres réponses ont suffisamment suggéré, vous pouvez utiliser __builtin_expect pour donner le compilateur un indice sur la façon d'organiser le code assembleur. Comme les docs officielles, dans la plupart des cas, l'assembleur intégré dans votre cerveau ne sera pas aussi bon que celui conçu par l'équipe de GCC. C'est toujours mieux d'utiliser le profil réel de données afin d'optimiser votre code, plutôt que de deviner.

Le long des lignes similaires, mais pas encore mentionné, est un GCC-de manière spécifique pour forcer le compilateur à générer du code sur un "froid" chemin d'accès. Cela implique l'utilisation de la noinline et cold des attributs, qui font exactement ce que ils semblent comme ils le font. Ces attributs ne peuvent être appliquées à des fonctions, mais avec le C++11, vous pouvez déclarer inline lambda fonctions et ces deux attributs peuvent également être appliqué à des fonctions lambda.

Bien que cela tombe toujours dans la catégorie générale d'un micro-optimisation, et ainsi, la norme s'applique—test ne suppose—j'ai l'impression que c'est plus utile que __builtin_expect. À peine toutes les générations de la x86 processeur de l'utilisation de la branche de prédiction des indices (référence), de sorte que la seule chose que vous allez être en mesure d'affecter de toute façon, est de l'ordre de l'assemblée le code. Puisque vous savez ce qui est de l'erreur de manipulation ou de "cas limite" de code, vous pouvez utiliser cette annotation pour s'assurer que le compilateur ne pourra jamais prédire une branche et il se lier à l'écart de la "hot" dans le code lors de l'optimisation de la taille.

Exemple d'utilisation:
```
void FooTheBar(void* pFoo)
{
    if (pFoo == nullptr)
    {
        //Oh no! A null pointer is an error, but maybe this is a public-facing
        //function, so we have to be prepared for anything. Yet, we don't want
        //the error-handling code to fill up the instruction cache, so we will
        //force it out-of-line and onto a "cold" path.
        [&]() __attribute__((noinline,cold)) {
            HandleError(...);
        }();
    }

    //Do normal stuff
    ⋮
}
```
Encore mieux, GCC mettra automatiquement ignorer cela en faveur de profil de commentaires quand il est disponible (par exemple, lors de la compilation avec -fprofile-use).

Voir la documentation officielle ici: https://gcc.gnu.org/onlinedocs/gcc/Common-Function-Attributes.html#Common-Function-Attributes
- La direction de la prévision de l'indice des préfixes sont ignorés parce qu'ils ne sont pas nécessaires; vous pouvez obtenir exactement le même effet par la réorganisation de votre code. (La valeur par défaut de la branche de prédiction de l'algorithme est de deviner que vers l'arrière, les branches sont prises et de l'avant des branches ne sont pas.) Ainsi, vous pouvez, en effet, donner le CPU un indice, et c'est ce que __builtin_expect n'. Il n'est pas inutile. Vous avez raison, la cold attribut est également utile, mais vous sous-estimer l'utilité de __builtin_expect je pense.
- Moderne Processeurs Intel n'utilisez pas statique de la direction de la prévision. L'algorithme que vous décrivez, @Nemo, où l'arrière branches sont prévus prises et de l'avant branches sont prévus comme non-pris a été utilisé précédemment dans des processeurs, et à travers le Pentium M, mais les conceptions modernes en fait juste deviner au hasard, l'indexation dans leur branche tables où il serait attendre pour trouver des informations sur cette branche et en utilisant toutes les informations sont là (même si cela peut être essentiellement des ordures). Donc, direction de la prévision conseils, en théorie, être utile, mais peut-être pas, dans la pratique, c'est pourquoi Intel a enlevés.
- Pour être clair, la mise en œuvre de la direction de la prévision est très compliqué, et les contraintes d'espace dans les commentaires m'ont forcé à très réductrices. Ce serait vraiment toute une réponse en soi. Il reste peut-être des vestiges de la statique de la direction de la prévision moderne microarchitectures, comme Haswell, mais il n'est pas aussi simple que cela utilisé pour être.
- Avez-vous une référence pour les "modernes Processeurs Intel n'utilisez pas statique de la direction de la prévision"? Intel de son propre article (software.intel.com/en-us/articles/...) dit le contraire... Mais c'est à partir de 2011
- N'ont pas vraiment une référence officielle, @Nemo. Intel est très peu loquace au sujet de la branche des algorithmes de prédiction utilisé dans ses jetons, en les traitant comme des secrets commerciaux. La plupart de ce qui est connu a été trouvé par des tests empiriques. Que jamais, Agner Brouillard de matières sont les meilleures ressources, mais encore il dit: "La branche prédicteur semble avoir été remodelé dans les Haswell, mais très peu est connu au sujet de sa construction." Je ne me souviens pas où je l'ai vu pour la première fois les critères de référence démontrant statique BP n'a pas été utilisé plus, malheureusement.
- le Brouillard de la microarchitecture du document t de parler un peu statique, de prédiction, mais seulement pour P5, P6, Netburst, et PM/Core2. Et il semble que j'ai mal rappelé à propos de PM étant le dernier à utiliser statique de la prédiction. Brouillard dit que PM/Core2 "ne pas useuse statique de la prédiction. Le prédicteur, une prédiction aléatoire la première fois, une branche est vu, selon ce qui arrive à être dans le BTB entrée est affectée à la nouvelle branche. Il est tout simplement un 50% de chances de faire la bonne prédiction de sauter ou pas sauter, mais le prédit cible est correcte."
- Pas de mise à jour plus tard microarchitectures disponible, mais pas vraiment de raison de supposer que ce qui a changé depuis Core 2. Moderne microarchitectures viennent s'ajouter les révisions de Base 2, tout comme les Core 2 lui-même était un différentiel de révision de l'original P6 de conception. Ce document suggère également que le PM n'est pas statiquement prédire, mais il y a très peu que j'ai vu récemment publiée. Peut-être une question intéressante, surtout si vous avez quelques rep à donner comme une récompense pour encourager quelqu'un à le tester.
- Matt Godbolt a un assez intéressant de la série sur ce sujet
InformationsquelleAutor Cody Gray
3

__builtin_attendent peut être utilisé pour indiquer au compilateur que vous attendez d'une branche à l'aller. Cela peut influencer la façon dont le code est généré. Processeurs exécuter du code plus rapide de manière séquentielle. Donc si vous écrivez
```
if (__builtin_expect (x == 0, 0)) ++count;
if (__builtin_expect (y == 0, 0)) ++count;
if (__builtin_expect (z == 0, 0)) ++count;
```
le compilateur génère un code comme
```
if (x == 0) goto if1;
back1: if (y == 0) goto if2;
back2: if (z == 0) goto if3;
back3: ;
...
if1: ++count; goto back1;
if2: ++count; goto back2;
if3: ++count; goto back3;
```
Si votre indice est correcte, cela va exécuter le code, sans ramifications effectivement réalisées. Il va courir plus vite que la séquence normale, où chacun s'déclaration branche autour du code conditionnel et à l'exécution de trois branches.

Nouveaux processeurs x86 d'instructions pour les branches qui devraient être prises, ou pour les branches qui sont censés ne pas être pris (il y a une instruction préfixe; pas sûr de connaître les détails). Vous ne savez pas si le processeur utilise que. Il n'est pas très utile, parce que la direction de la prévision va gérer ce juste fine. Donc, je ne pense pas que vous pouvez réellement influencer la direction de la prédiction.

InformationsquelleAutor gnasher729
0

En ce qui concerne l'OP, il n'y a aucune façon de GCC pour dire que le processeur à toujours assumer la direction est ou n'est pas prise. Ce que vous avez est __builtin_attendent, ce qui fait ce que d'autres disent qu'il n'. En outre, je pense que vous ne voulez pas dire que le processeur de savoir si la branche est prise ou pas toujours. Aujourd'hui, les processeurs, tels que l'architecture Intel peut reconnaître assez complexe de motifs et de s'adapter efficacement.

Cependant, il ya des moments que vous voulez prendre le contrôle de savoir si par défaut une branche est prévu prises ou non: Lorsque vous connaissez le code sera appelé "froid" à l'égard de la ramification de la statistique.

Un exemple concret: la gestion des exceptions code. Par définition, le code de gestion qui va arriver exceptionnellement, mais peut-être lorsqu'il se produit une performance maximale est souhaitée (il y a peut être une erreur critique à prendre en charge hors dès que possible), donc vous pouvez contrôler le défaut de prévision.

Un autre exemple: Vous pouvez classer vos commentaires et de sauter dans le code qui gère le résultat de votre classification. S'il existe de nombreuses classifications, le processeur peut collecter des statistiques, mais les perdre parce que le même classement ne se fait pas assez vite et la prédiction de ressources sont consacrées à récemment appelé code. Je souhaite qu'il y aurait une primitive de dire que le processeur "merci de ne pas consacrer de prédiction des ressources de ce code," le chemin parfois, vous pouvez dire "ne pas mettre en cache ce".

InformationsquelleAutor TheCppZoo

Vous devez vous connecter pour publier un commentaire.