Pourquoi le traitement d'un tableau trié plus rapide que le traitement d'un tableau non-trié?

Voici un morceau de code C++ qui montre une partie très particulière de comportement. Pour une raison étrange, le tri des données miraculeusement rend le code près de six fois plus rapide:

#include <algorithm>
#include <ctime>
#include <iostream>

int main()
{
    //Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];

    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;


    //!!! With this, the next loop runs faster.
    std::sort(data, data + arraySize);


    //Test
    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i < 100000; ++i)
    {
        //Primary loop
        for (unsigned c = 0; c < arraySize; ++c)
        {
            if (data[c] >= 128)
                sum += data[c];
        }
    }

    double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;

    std::cout << elapsedTime << std::endl;
    std::cout << "sum = " << sum << std::endl;
}

Sans std::sort(data, data + arraySize);, le code s'exécute dans 11.54 secondes.
Avec les données triées, le code s'exécute dans 1.93 secondes.

Au départ, j'ai pensé que cela pourrait être juste une langue ou le compilateur anomalie, j'ai donc essayé de Java:

import java.util.Arrays;
import java.util.Random;

public class Main
{
    public static void main(String[] args)
    {
        //Generate data
        int arraySize = 32768;
        int data[] = new int[arraySize];

        Random rnd = new Random(0);
        for (int c = 0; c < arraySize; ++c)
            data[c] = rnd.nextInt() % 256;


        //!!! With this, the next loop runs faster
        Arrays.sort(data);


        //Test
        long start = System.nanoTime();
        long sum = 0;

        for (int i = 0; i < 100000; ++i)
        {
            //Primary loop
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128)
                    sum += data[c];
            }
        }

        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
    }
}

avec un semblable, mais moins extrême résultat.

Ma première pensée a été que le tri regroupe les données dans le cache, mais ensuite j'ai pensé comment stupide que c'était parce que le tableau a été qui vient d'être généré.

Ce qui se passe?
Pourquoi le traitement d'un tableau trié plus rapide que le traitement d'un tableau non-trié? Le code est en résumant certains indépendants termes, l'ordre n'a plus d'importance.

Juste pour le record. Sur Windows / VS2017 / i7-6700K 4GHz il n'y a PAS de différence entre les deux versions. Il prend 0,6 s pour les deux cas. Si le nombre d'itérations de la boucle externe est augmenté de 10 fois le temps d'exécution augmente de 10 fois trop à 6s dans les deux cas.
un compilateur qui utilise un cmov ou d'autres dépourvu de branches de mise en œuvre (comme auto-vectorisation avec pcmpgtd) auront des performances pas de données dépend de la CPU. Mais si c'est le branchu, il sera tri-dépendant à un CPU avec de l'exécution spéculative. (Même à haute performance dans l'ordre Cpu usage de la branche de prédiction pour éviter d'extraction/décoder des bulles sur les prises de branches; la miss peine est plus petite).
Oups... re: Effondrement et le Spectre
a-t-elle quelque chose à voir avec les deux? Je n'ai pas lu beaucoup sur les deux
deux de ces failles de sécurité de rentrer dans une large catégorie de vulnérabilités classés comme “direction de la cible d'injection” attaques
Il a essayé avec 200M de tableau sur la JVM hotspot 1.8. Pas de différence pour triés et non triés. Toutes les explications?
Sur le dessus de ma tête: 1) La JVM peut-être finalement assez intelligent pour utiliser conditionnelle se déplace. 2) Le code est liés à la mémoire. 200 m est trop grand pour tenir dans le cache du PROCESSEUR. Donc, la performance peut être un goulot d'étranglement par la bande passante de la mémoire au lieu de ramification.
2). Je pensais que la prédiction de la table assure le suivi des patrons(indépendamment des variables réelles qui ont été vérifiés pour ce motif) et de changer la prédiction de la sortie en fonction de l'histoire. Pourriez-vous me donner une raison, pourquoi un super grand tableau ne serait pas bénéficier de direction de la prévision?
Il le fait, mais quand le tableau est très grande, d'autant plus un facteur probable entre dans le jeu - la bande passante mémoire. La mémoire est ce n'est pas plat. Accès à la mémoire est très lent, et il ya une quantité limitée de la bande passante. De sur-simplifier les choses, il y a une limite au nombre d'octets qui peuvent être transférés entre la CPU et de la mémoire en un montant fixe de temps. Code Simple comme celui de cette question sera probablement frappé de cette limite, même si elle est ralentie par mispredictions. Ce n'est pas le cas avec un tableau de 32768 (128 KO) car il s'inscrit dans le cache L2 du PROCESSEUR.
Il y a une nouvelle faille de sécurité a appelé BranchScope: cs.ucr.edu/~nael/pubs/asplos18.pdf
Pour l'enregistrement de vos données n'ont pas besoin d'être triés, seulement partitionné qui est beaucoup plus rapide pour l'opération.
Une autre observation est que vous n'avez pas besoin de trier le tableau, mais vous avez juste besoin de la partition avec la valeur 128. Le tri est n*log(n), alors que le partitionnement est seulement linéaire. Fondamentalement, c'est juste une exécution du tri rapide étape de partitionnement avec le pivot choisi à 128. Malheureusement, en C++ il y a juste nth_element fonction de partition en position, et non par valeur.
Qu'en est std::partition()?
En effet, std::la partition est la réponse correcte. Merci
Est-il une explication pour pourquoi il faut le même temps, en dépit de la direction de la prévision encore utilisé?
FWIW: Le développeur moyen ne jamais avoir d'expérience avec de très uniques matériel de questions de ce genre. Direction de la prévision n'est pas encore connu pour le développeur moyen.
Sur Linux avec un processeur Intel i3-7020U (4) @ 2.3 GHz, le speed-up est tout le contraire quand il s'agit de la langue. Le temps d'exécution pour le C++ permet de réduire de 29.7285 à 10.3184 (près de 3 fois). Mais quand j'utilise Java, il va de 13.3513 à 3.2957 (près de 4 fois).
Pouvez-vous en fournir des preuves? Ce banc de marque, montre une très grande différence.

InformationsquelleAutor GManNickG | 2012-06-27

branch-prediction c++java optimization performance

30459

Vous êtes une victime de la direction de la prévision fail.

Ce qui est de la Branche de Prédiction?

Envisager un chemin de fer de jonction:

_{Image par Mecanismo, via Wikimedia Commons. Utilisé sous la CC-By-SA 3.0 la licence.}

Maintenant, pour les besoins de la discussion, supposons que c'est dans les années 1800 - avant de longue distance ou de communication radio.

Vous êtes l'exploitant d'un carrefour et que vous entendiez un train qui s'en vient. Vous n'avez aucune idée de la façon dont il est censé aller. Vous arrêter le train à demander au conducteur quelle direction ils veulent. Et puis vous réglez le commutateur de manière appropriée.

Trains sont lourds et ont beaucoup d'inertie. Donc, ils prennent une éternité à démarrer et à ralentir.

Est-il un meilleur moyen? - Vous deviner quelle direction le train va aller!
- Si vous l'aurez deviné, il continue sur.
- Si vous l'aurez deviné tort, le commandant de bord doit s'arrêter, sauvegarder, et crier à vous pour faire basculer le commutateur. Ensuite, il peut redémarrer le bas de l'autre chemin.
Si vous devinez juste à chaque fois, le train n'aurez jamais à vous arrêter.

Si vous devinez mal trop souvent, le train va passer beaucoup de temps à l'arrêt, de la sauvegarde et de redémarrer.

Envisager un if: Au niveau du processeur, c'est une branche de l'instruction:

Vous êtes un processeur et vous voyez une branche. Vous n'avez aucune idée de la façon dont il va. Que faites-vous? Vous suspendre l'exécution et attendre jusqu'à ce que les instructions précédentes sont complètes. Puis vous continuez sur le chemin d'accès correct.

Les processeurs modernes sont complexes et ont de longs pipelines. Donc, ils prennent une éternité à se "réchauffer" et de "slow down".

Est-il un meilleur moyen? - Vous deviner quelle direction la direction va aller!
- Si vous l'aurez deviné, vous continuer à exécuter.
- Si vous l'aurez deviné mal, vous devez vider le pipeline et revenir à la branche. Ensuite, vous pouvez redémarrer le bas de l'autre chemin.
Si vous devinez juste à chaque fois, l'exécution n'aura jamais à s'arrêter.

Si vous devinez mal trop souvent, vous passez beaucoup de temps de blocage, la restauration et la remise en marche.

C'est la direction de la prévision. J'avoue que c'est pas la meilleure analogie depuis le train pourrait juste le signal de la direction avec un drapeau. Mais dans les ordinateurs, le processeur ne sais pas de quelle direction une branche ira jusqu'au dernier moment.

Alors, comment voulez-vous stratégiquement deviner à minimiser le nombre de fois que le train doit sauvegarder et aller vers le bas un autre chemin? Vous regardez l'histoire du passé! Si le train va de gauche à 99% du temps, alors vous devinez gauche. Si elle alterne, alors vous alternez vos suppositions. Si il va dans un sens chaque fois, trois fois, vous devinez la même...

En d'autres termes, vous essayez d'identifier un modèle et de le suivre. C'est plus ou moins comment branche prédicteurs de travail.

La plupart des applications ont bien comportés branches. À la pointe de la branche prédicteurs généralement atteindre >90% de taux de réussite. Mais lorsqu'ils sont confrontés à des branches avec aucun des modèles reconnaissables, de la direction générale, les indicateurs sont pratiquement inutile.

Pour en savoir plus: Branche"prédicteur" de l'article sur Wikipédia.

Comme évoqué à partir de ci-dessus, le coupable est-ce si-déclaration:
```
if (data[c] >= 128)
    sum += data[c];
```
Avis que les données sont réparties uniformément entre 0 et 255. Lorsque les données sont triées, environ la première moitié de la itérations n'entrerez pas dans le if. Après cela, ils seront tous d'entrer dans le if.

C'est très sympathique à la direction générale prédicteur depuis la branche consécutivement va dans la même direction à plusieurs reprises. Même un simple effet de saturer compteur de prédire correctement la branche, sauf pour les quelques itérations après il passe en direction.

Rapide de visualisation:
```
T = branch taken
N = branch not taken

data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...

       = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict)
```
Toutefois, lorsque les données sont complètement aléatoires, la direction générale prédicteur est rendue inutile, car il ne peut pas prédire des données aléatoires. Ainsi, il sera probablement autour de 50% les erreurs de prédiction (pas mieux que l'estimation aléatoire).
```
data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, 133, ...
branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...

       = TTNTTTTNTNNTTTN ...   (completely random - hard to predict)
```
Donc ce qui peut être fait?

Si le compilateur n'est pas capable d'optimiser la branche dans un conditionnelle déplacer, vous pouvez essayer certains des hacks si vous êtes prêt à sacrifier la lisibilité de la performance.

Remplacer:
```
if (data[c] >= 128)
    sum += data[c];
```
avec:
```
int t = (data[c] - 128) >> 31;
sum += ~t & data[c];
```
Ceci élimine la direction générale et le remplace par certaines opérations bit à bit.

_{(à Noter que ce hack n'est pas strictement équivalent à l'original si l'instruction. Mais dans ce cas, c'est valable pour toutes les valeurs d'entrée de data[].)}

De référence: Core i7 920 @ 3.5 GHz

De C++ de Visual Studio 2010 - x64 Version
```
// Branch - Random
seconds = 11.777

// Branch - Sorted
seconds = 2.352

// Branchless - Random
seconds = 2.564

// Branchless - Sorted
seconds = 2.587
```
Java NetBeans 7.1.1 JDK 7 - x64
```
// Branch - Random
seconds = 10.93293813

// Branch - Sorted
seconds = 5.643797077

// Branchless - Random
seconds = 3.113581453

// Branchless - Sorted
seconds = 3.186068823
```
Observations:
- Avec la Direction générale: Il y a une énorme différence entre la triés et non triés données.
- Avec le Hack: Il n'y a pas de différence entre triés et non triés données.
- Dans le C++ cas, le hack est en fait un peu plus lent qu'avec la direction générale lorsque les données sont triées.
Une règle générale est d'éviter de données dépendant de la ramification de la critique, des boucles (comme dans cet exemple).

Mise à jour:
- GCC 4.6.1 avec -O3 ou -ftree-vectorize sur x64 est capable de générer un conditionnel déplacer. Donc, il n'y a pas de différence entre l'triés et non triés de données - les deux sont rapides.
- VC++ 2010 est incapable de générer conditionnelle se déplace pour cette branche, même sous /Ox.
- Le Compilateur Intel C++ (CPI) 11 est-ce que quelque chose de miraculeux. Il échangeurs les deux boucles, et ainsi de levage à l'imprévisible de la branche de la boucle externe. Ainsi, non seulement est immunisé contre la mispredictions, il est aussi deux fois plus rapide que ce que VC++ et GCC peut générer! En d'autres termes, la CPI a pris avantage de l'essai en boucle à la défaite de l'indice de référence...
- Si vous donnez le compilateur Intel le sans branches code, il les a tout simplement droit vectorizes... et est tout aussi rapide comme la branche (avec la boucle de l'échangeur).
Cela montre que, même à maturité les compilateurs modernes peuvent varier énormément dans leur capacité à optimiser le code...
- Jetez un oeil à ce suivi question: stackoverflow.com/questions/11276291/... Le Compilateur Intel est venu assez proche de complètement se débarrasser de la boucle externe.
- Comment fonctionne le train/compilateur de savoir qu'il a entrez le mauvais chemin ?
- En vertu de la moderne le C et le C++ normes, les mouvements de la bidouille n'est pas réellement mise en œuvre définies par le comportement, mais un comportement indéfini! La vitesse d'un 1 dans ou hors de le bit de signe d'un entier signé n'est plus autorisée.
- Seulement la moitié de celle qui est correcte. La vitesse d'un 1 dans le signe-peu quand il est à zéro est en effet UB. Parce qu'il est signé de dépassement d'entier. Mais la vitesse d'un 1 sur le signe-bit est de l'IB. Droit de décalage négatif d'un entier signé est de l'IB. Vous pouvez aller dans l'argument que le C/C++ n'est pas besoin que le dessus peu être le signe indicateur. Mais les détails de mise en œuvre de l'IB.
- la lisibilité de la "hack" peut être augmentée par l'introduction d'une méthode. E. g. en java private int sumIfGreaterThan128(int curSum, int value). Le compilateur JIT sera inline lors de l'exécution de toute façon. Je suppose que dans d'autres langues, il y a l'égalité des optimisations disponibles.
- À l'aide des opérations bit à bit pour autre chose que légitime de manipulation de bits ou de multiplication/division par une puissance variable-des-deux n'est pas quelque chose que je conseille car il est souvent abrutissant. Néanmoins, voici une bonne référence pour peu tourner les hacks: graphics.stanford.edu/~seander/bithacks.html
- Merci beaucoup pour le lien. Il semble prometteur. J'irai bien qu'il. Une dernière demande. Désolé, mais s'il vous plaît ne me dérange pas, pourriez-vous me dire comment vous pourriez faire ce int t = (data[c] - 128) >> 31; sum += ~t & data[c]; pour remplacer l'original, si la condition ci-dessus?
- Hiérarchique donné structures de la mémoire, il est impossible de dire que la dépense d'un cache miss sera. Il pourrait manquer de L1 et être résolu dans le ralentissement de la L2, ou de manquer en L3 et être résolu dans la mémoire du système. Cependant, à moins que pour une étrange raison, ce cache miss causes de la mémoire dans un non-résident de la page à charger à partir du disque, vous avez un bon point... la mémoire n'a pas eu le temps d'accès à la gamme de millisecondes dans environ 25 à 30 ans 😉
- Serait la condition d'être plus rapide que le hack si il n'y a pas de branche de prédiction? Le conditionnel serait (à vérifier) (saut) (ajouter), tandis que le hack utilise 4 fois de suite des opérations arithmétiques
- Cela dépendra de combien coûte le 4 opérations à l'égard de la direction de la logique de traitement. Donc, il va probablement varier au cas par cas.
- N'est-il pas possible d'exécuter deux branches en parallèle et, plus tard, arrêter l'exécution de la mauvaise direction, au Lieu de prévoir une branche?
- Je suppose que pour une particule donnée, la chance qu'il entre en collision avec une autre particule est inférieure à 1%. Ensuite, la direction de la prévision peut toujours prévoir aucune collision et serait >99% de réponses correctes, si triés ou non. En fin de compte rapide de détection des collisions, vous aurez envie d'utiliser une structure d'arbre, de toute façon.
- Je me demande pourquoi la direction de la prévision concept en place, qu'est-ce que l'utilisation de l' (Direction de la Prévision)concept ? Je veux dire, sans elle, nous aurions résultat précis avec l'triés et non triés tableau.
- Quand la direction de la prévision a lieu? Quand à la langue à savoir que le tableau est trié? Je suis en train de penser de la situation de tableau qui ressemble à: [1,2,3,4,5,...998,999,1000, 3, 10001, 10002] ? sera cet obscur 3 augmentation du temps d'exécution? Sera-ce aussi longtemps que des ménagères de tableau?
- Direction de la prévision qui se passe dans le processeur alors qu'il est en cours d'exécution du code. Le langage ne sais pas quoi que ce soit. Dans votre exemple, il sera toujours rapide, car vous ne faites qu'ajouter 1 ou 2 mispredictions sur et autour de la 3.
- Je l'ai essayé avec Clang 3.5: debug triés 9.3 s, de débogage non triés 24.6 s. O2 triés 5.0 s, O2 non triés aussi 5.0 s. Il semble donc que Clang est en mesure d'optimiser la boucle bien. La version sans branches de la poste a pris 13s pour debug, 4.1 s pour O2, avec presque pas de différence entre les trier/trié.
- C'est peut-être hors de portée de cette Q/r, mais il y a des processeurs modernes qui se poursuivra sur les deux chemins un peu lorsque la direction générale de prédiction des rapports des chances identiques pour chaque branche? Si non, pourquoi pas? Il semblerait que l'détachées de cycles passés à s'assurer que la direction est prête à temps est mieux que de deviner de manière incorrecte ou juste attente autour.
- Probablement pas pour les raisons que j'ai mentionnées dans une observation antérieure..
- Règle pour écrire du code efficace sur un processeur moderne: Tout ce qui fait de l'exécution de votre programme de façon plus régulière (moins inégale) aura tendance à le rendre plus efficace. Le tri dans cet exemple a cet effet, car de la direction de la prévision. L'accès localité (plutôt que de loin et large accès aléatoire) a cet effet, car de caches.
- La grammaire en moi veut que je pense que cela devrait se lire "... victime de la branche de prédiction de l'échec deure" plutôt que simplement "... victime de la branche de prédiction de l'échec".
- Donc en Java est le cas, par exemple, la direction de la prévision prendre place sur le processeur ou le java runtime?
- GCC a beaucoup d'optimisations qui ne sont pas activés par défaut, parmi les choses qu'il peut faire:
- il peut se diviser en boucle (avec -ftree-loop-distribution et -ftree-loop-distribute-patterns), déplacer des sections invariantes (par défaut), déplacer des conditions d'invariant de la boucle (avec -funswitch-loops, mais entraîne la duplication des efforts), de convertir conditionnelle sauts conditionnels magasins ou les supprimer (-ftree-loop-if-convert et -ftree-loop-if-convert-stores). Malheureusement, beaucoup de ces options sont dangereux effets secondaires, et seulement faire une bonne amélioration très naïvement code écrit.
- Il est un autre fait ici. Les données et temporelle de la localité. Lorsque vous accédez à la même position à de nombreuses reprises par la suite, sa valeur est toujours dans les registres, donc c'est pourquoi la boucle de l'échangeur double les performances par rapport à l'original version triée.
- Est-ce la réponse encore valides, étant donné le processeur change maintenant dans 2015/6?
- Oui. Les processeurs ont encore de la direction de la prévision. Si quelque chose a changé, c'est que les compilateurs. Aujourd'hui, je parie qu'ils sont plus susceptibles de faire ce que la CPI et GCC (sous -O3) fait ici - qui est, retirez la branche. Étant donné le degré élevé de profil à cette question est, il est très possible que les compilateurs ont été mis à jour afin de traiter spécifiquement le cas dans cette question. Les paient certainement l'attention sur DONC. Et c'est tombé sur cette question où GCC a été mis à jour dans un délai de 3 semaines. Je ne vois pas pourquoi il ne serait pas arriver ici.
- J'ai juste couru le code de VS 2015 et le tri n'améliore pas les performances les plus élevées. J'ai mesuré environ 1,1 s pour 32768 éléments et sur 11s pour 327680 éléments (déplacé à une variable globale pour prévenir un débordement de pile) avec mon Intel Core I5 cadencé à 3.6 GHz grâce à TurboBoost. J'ai regardé pour un démontage et je n'ai pas trouvé de branche, sauf un, pour la terminaison de la boucle - en fait, il utilise des instructions comme cdq et movlpd qui sont normalement utilisés pour les opérations à virgule flottante.
- La prédiction est faite au début de la canalisation, l'opération s'écoule à travers le pipeline et atteint une zone d'attente pour ses opérandes. Une fois que ses opérandes sont disponibles, l'instruction s'exécute et l'instruction devient admissible à la retraite (s'engager à l'état). Le départ à la retraite de la branche vérifie si l'hypothèse était correcte. Si pas, vider le pipeline et le redémarrage de l'instruction de l'outil de récupération à l'instruction correcte. Si la prédiction était correcte, juste continuer. En ce moment, beaucoup d'instructions après la prédite de la branche ont commencé, mais n'ont pas été commis de l'état.
- En complément... vous pouvez aussi utiliser quelque chose comme " somme += (data[i] > 128) * data[i];", ce qui est encore dépourvu de branches, mais même précision que celle avec la direction générale.
- Que dire de l'opérateur ternaire? sum += data[i] > 128 ? data[i] : 0
- L'opérateur ternaire est une branche. Bien que certains compilateurs (à savoir MSVC) semblent être plus à même de les optimiser de plain-vieux si-états.
- Vraiment une bonne explication. Si vous ajoutez ce code il est devenu beaucoup plus rapide: for (register unsigned i = 0; i < 100000; ++i) { // Primary loop for (register unsigned c = 0; c < arraySize; ++c) { register int t=(data[c]<<25)>>31; sum += ~t & data[c]; } }
- Merci pour ce joli aperçu. Après être passé par il en est venu à mon esprit quelques questions: identify a pattern and follow it cela semble plus de l'intelligence artificielle. Donc, il est sûr de dire que les compilateurs modernes sont équipées avec des algorithmes d'IA pour la direction de la prévision? halt execution and wait until the previous instructions are complete qui me semble de plusieurs threads. N'PROCESSEUR interne des sauts de blocs de code dans les threads? (D'un ton commentaire mentionne également processor is executing many instructions at the same time). Si oui, quel est le rôle de compilateur jouer?
- Le article de Wikipédia sur la branche de prédiction a des exemples de quelques-direction des algorithmes de prédiction. Si oui ou non vous voulez les appeler "AIs" est à vous. Pour votre autre question au sujet de plusieurs instructions en même temps, il est appelé Superscalar Exécution.
- Merci! J'ai pris le temps de parcourir l'article(s). Ce que je comprends est, direction de la prévision est plus sur l'architecture du processeur, n'importe quel compilateur que nous utilisons (contrairement à ce que j'étais sous l'impression)
- Je n'arrive toujours pas à comprendre pourquoi le compilateur est à même de prédire?! Pourquoi n'est-il pas juste de comparer les deux valeurs les uns avec les autres et décide alors?!
- Ce n'est pas le compilateur qui fait la prédiction. C'est le processeur. Deuxièmement, le processeur ne peut pas "décider" parce que c'est faire beaucoup de choses en même temps. Pour schématiser un peu les choses, tandis que le processeur est l'exécution de l'instruction en cours, c'est déjà de la lecture à l'avance par 20+ instructions et de les préparer pour l'exécution. Si vous avez une branche, le processeur doit décider, que côté pour ce faire, "la lecture à l'avance". Quand il y a une erreurs de prédiction, tout ce qui a été "lu et préparé à l'avance du temps" doit être jeté et redémarré sur l'autre côté.
- Une analogie appropriée pour cette "lecture à l'avance" chose serait de vol de la compagnie de la planification. Horaires de vol sont des mois à l'avance. Mais quand quelque chose d'inattendu se produit (comme une tempête, des fermetures en bas d'un hub majeur), les vols sont annulés et l'annexe en va en fumée. Le résultat? Des retards massifs qui se propagent à travers de nombreux vols qui n'ont même pas toucher l'aéroport. Bien sûr, pour un processeur, de la "planification" de la fenêtre est de l'ordre de la nano-secondes et jusqu'à quelques centaines d'instructions plutôt que des milliers de vols qui couvrent mois.
- C'est une bonne réponse, mais il doit être clair que c'est le processeur direction de la prévision qui est à l'origine de ce comportement. Les compilateurs de prédire les branches trop.
- Comme une note de côté, il y a eu une recherche faite où la direction des prédicteurs ont été en mesure de "comprendre le motif de rand()". Ils avaient une branche qui a été essentiellement if( rand.nextInt(100) < 50 ) et correctement prédit quelque chose comme 99% du temps.
- Il y avait quelques questions pour savoir pourquoi le processeur n'exécute pas les deux branches. Une des raisons est que les processeurs pouvez en avoir autant que 20 prédictions en vol (deviné mais pas encore résolue). À la poignée de nombreux, vous devrez être en cours d'exécution 2^20 (1048576) des chemins différents en même temps.
- Je n'ai fait de répondre aux commentaires sur l'exécution des deux branches. Mais il semble que mon commentaire a été supprimé pour une raison quelconque.
- A votre réponse, fondamentalement, le même ou est-il une autre raison?
- De même. Exponentielle des ressources de la croissance et du fait que la prédiction est souvent très précis.
- Il n'y a pas de réponse simple à cela. Pour le cas particulier ici, GCC et de la CPI peut faire conditionnelle se déplace, mais VS ne pouvez pas. Mais qui va changer en fonction du code. L'exemple de cette question est optimizeable à une condition déplacer. Mais pas toujours. Vraiment simple, les branches peuvent être optimisés de cette façon.
- Non, c'est trop spécifique. Ce à emporter est que tout qui provoque l'écoulement de l'exécution conditionnelle, le changement est soumis à une perte de performance due à la branche les erreurs de prédiction. Cela comprend si-états, boucle conditions, les commutateurs, les opérateurs ternaires, de court-circuiter la logique booléenne, des appels à des pointeurs de fonction, les appels à des lambdas, des appels virtuels/méthodes polymorphes, etc... (Les 3 derniers de ces ne sont pas liées à la direction de la prévision en soi, mais le même concept s'applique en ce que le processeur ne sait pas où aller" à côté.)
- est-il une raison particulière pour laquelle vous avez opté pour votre mise en œuvre (déclaration d'un int) sur sum += ~((data[c] - 128) >> 31) & data[c]; ?
- Pas de. C'était juste la façon dont il s'est avéré lorsque j'ai tiré il. La variable qui est le masque qui permet de la valeur, ou sets à zéro.
- Veut-il dire qu'il est possible que le résultat du programme est incorrect en raison de la prédiction? Comment sait-il/valider l'estimation est correcte? Ne serait-ce pas toujours besoin de tout calculer pour connaître le résultat correct pour la validation?
- Pas de. Direction de la prévision n'a pas d'incidence sur l'exactitude. Lorsque le processeur exécute une série d'instructions, il doit se comporter "comme si" il était exécuté ligne par ligne. Il peut jouer des tours dessous pour rendre les choses plus vite (comme la direction de la prévision), mais en fin de compte, encore faut-il respecter le programme comme il est écrit. Pour votre autre question, le processeur va savoir quand une prédiction est correcte une fois que la direction de l'instruction s'exécute et détermine la façon dont il est censé aller.
- signifie-t-il dans ce cas, le code complet en environ 2 secondes (au lieu de 12) si il n'y a pas de direction de la prévision, et que le supplément de 10 secondes a été en raison de la surcharge de mauvaises prédictions (le train arrière)?
- Pas de. Comme un exemple hypothétique: Si il n'y a pas de prévision, il serait toujours prendre 10 secondes. Avec une bonne prédiction, elle serait de 2 secondes. Avec toujours mauvaise prédiction, il serait de 12 secondes. Le supplément de 2 secondes la surcharge de revenir en arrière. Dans la plupart des cas, il sera plus près les 2 secondes, c'est donc un gain net.
- Je vois, donc les 8 secondes a été la surcharge d'arrêter le train et demander au pilote de tous les temps. Si il n'y avait pas de branche à tous, et pas de direction de la prévision, puis le code de toujours prendre 2 secondes (c'est à dire similaire à l'affaire que la prédiction est toujours correct dans un système avec la direction de la prévision). Merci pour votre explication @Mysticial
- En plus de simplifier la façon de: int t = (data[c] - 128) >> 31; sum += ~t & data[c]; est char t = data[c] >> 7 ; /* Truncating the 7 bits (equivalent to data[c] >=128 ) */ sum += -t & data[c]; /* -t will be equivalent to -1 if data[c] >= 128*/.
- Comment cette influence (si) l'évaluation de la complexité d'un algorithme?
- il n'a pas. La complexité est la asymptotical comportement de l'heure (ou la taille) d'une fonction lorsque ses entrées tend vers l'infini. Direction de la prévision des défaillances de ne pas changer la façon dont la courbe se comporte à l'infini, il ajoute une constante de temps de calcul de la direction générale de l'opération.
- Je m'interroge sur l'efficacité de l'esprit humain quand il s'agit de surcharge inutile comme la direction de la prévision. Je viens de lire sur l'article de Wikipedia—ce que smart personne a inventé ce que je puisse smack lui à l'envers? Il suffit de ne deux placements spéculatifs exécutions pour les deux branches, puis jeter la "mauvaise" direction générale de l'exécution spéculative.
- Je ne suis pas sûr que la solution est aussi simple que cela. Parce que si ça l'était, ils avaient probablement faire déjà. Le principal problème que je vois, c'est que les Processeurs modernes sera la prédiction de plusieurs branches de l'avant. Et qui conduit à une exponentielle de l'état d'explosion si vous voulez les suivre tous. L'autre chose, c'est que le descendant de plusieurs chemins d'accès signifie que vous allez perdre beaucoup exécution de ressources sur des choses qui seront jetés. Et que, probablement, a des implications pour la consommation d'énergie ainsi.
- peut-être, mais je pense que pure latence ici. Nous pouvons vous soucier de la consommation d'énergie lors de mes 200 $de l'ordinateur portable s'arrête à la traîne et les gens de commencer à écrire en fait un code efficace.
- Il y a aussi __builtin_attendent dans GCC pour aider le compilateur. Voir stackoverflow.com/questions/109710/...
- somme += ~t & data[c]; ci-dessus sera mal depuis un & opération va changer les bits. Ce que vous voulez est comme ci-dessous une opération de multiplication: somme += (~t * données[c]);
- Je voudrais savoir quels modèles puis-je utiliser pour y parvenir? Est-il quelque chose que je pouvais faire sans planification adéquate de tous les temps sur ces petites opérations de matrice si je peux juste écrire du code dans un mode qui convient pour l'ordinateur? Est-il préférable de trier le tableau de tous les temps avant une opération? Je sais que sa sorte de l'inutile à ce niveau, mais beaucoup de choses s'accumulent très rapidement. Fait aussi la même chose s'applique dans d'autres langages de programmation? Ou est-il c++ spécifique?
- Je pense que vous êtes parmi un assez grand nombre de gens qui sont confus par le tri aspect. Le tri n'a rien à voir avec la direction de la prévision elle-même. Il arrive juste à exposer l'effet de la direction de la prévision dans l'exemple particulier de cette question. Donc ne pas aller autour de aveuglément le tri des choses en pensant comme par magie tout résoudre. Pas toutes les maladies sont traitées avec des antibiotiques. Vous avez besoin de comprendre le problème avant de pouvoir appliquer la solution. Sinon, vous pourriez faire plus de mal que de bien. Et avant même d'arriver à cela, les règles de l'optimisation prématurée continuent de s'appliquer.
- je suis conscient de ce que serait en effet vraiment stupide pour trier des tableaux de tous les temps. L'ordinateur devrait courir en direction de la prévision de tous les temps. Mais ma question était plus sur ce que nous pouvons utiliser dans la pratique, afin d'éviter ou de réduire ses problèmes de performances si theres aucun en premier lieu? Est-il rien que nous pouvons faire à ce sujet? Ou ne vaut pas l'effort et des situations où il est vraiment important sont rares?
- Si vous êtes à la recherche d'une "meilleure pratique", c'est dans la réponse déjà "Une règle générale est d'éviter de données dépendant de la ramification de la critique, des boucles." Mais je ne peux pas parler pour savoir si cela en vaut la peine, car il dépend des exigences de l'application et les ressources disponibles pour le faire.
- ok, je vois tes repères, mais l'ensemble de la branche de prédiction chose ne fournit pas beaucoup de performance. il présente plus de problèmes que de les résoudre. alors pourquoi cpu fabrique même donné la peine d'intégrer une telle chose en elle?
- Parce que la direction de la prévision aide à >95% des cas dans la vie réelle. L'exemple de cette question se trouve être que les 5% restants. Et même 5%, la pénalité est minime par rapport à pas prédire à tous et toujours de caler.
- Je crains que votre projet d'optimisation est erronée: int t = (data[c] - 128) >> 31; a mise en œuvre, les comportements définis: data[c] a int type, de sorte data[c] - 128 sera négatif pour les valeurs inférieures à 128. Droit de transfert d'une valeur négative est mise en œuvre, les comportements définis. Vous pouvez corriger cela pour 2 en complément des architectures avec une expression simple: sum += -(data[c] >= 128) & data[c]; pour laquelle de nombreux compilateurs produire du code sans sauts. Sinon, compte tenu de la gamme de data[c]: sum += -(data[c] >> 7) & data[c];
- Lorsque vous arrivez à ce niveau de l'optimisation, la mise en œuvre définies comportement est souvent un compromis acceptable. Surtout depuis que signe-remplir le déplacement à droite est essentiellement universel pour complément de 2 architectures. Le réel délinquant est ici en supposant un 32 bits int. Ça fait un moment, mais j'ai probablement ne pas utiliser une solution avec une comparaison car j'ai eu des expériences avec des compilateurs de générer des branches pour bool -> int conversions. Vous aussi vous ne pouvez pas le faire en Java. De toute façon, c'était il y a 5 ans. Je fais rarement ces hacks plus depuis que je préfère le SIMD intrinsèque de la route.
- Réponse courte est que chaque cœur dispose de plusieurs pipelines. Réponse longue est que c'est une question piège. Essayez de rechercher pour "superscalar processeur". Les processeurs modernes peuvent exécuter autour de 4 instructions/cycle.
- Sur les BRAS, un (court) conditionnel est un zéro-coût de l'opération, parce que chaque instruction a 4 bits champ conditionnel (à 16 différents types de conditions à n'importe quelle instruction), de sorte que la ramification peut être totalement évitée dans de nombreux cas. (Dans ce cas, il suffit de faire la comparaison, conditionnellement s'accumuler). Donc, sur les BRAS, le moteur d'exécution sera plus long pour triés que pour les non triés, parce que le tri nécessite un travail supplémentaire.
- Notez que cette optimisation est justement la cause de Spectre et de l'Effondrement de grosses failles de sécurité. En bref, certaines opérations comme la mise en cache ne sont pas réellement rollbacked (pour des raisons de performances), ce qui cause certaines données potentiellement sensibles à devenir lisible par d'autres processus.
- Permettez-moi de préciser une chose à propos de votre analogie avec les trains: train souffre en faire un mauvais choix, car il a besoin de revenir à l'embranchement de l'échec (je considère que ça va être le mauvais choix, comme vous le voyez). La direction de la prévision souffrent d'un mauvais choix par rapport à ne pas faire de choix et plutôt en attente? Ou est la direction de la prévision dans les Processeurs bénéfique dans les deux cas (prise de train analogie imprécis)?
- Je ne suis pas un concepteur de matériel, donc je ne sais pas la réponse. Mais la restauration de la logique n'est certainement pas gratuit. Même si le CPU designers ont réussi à masquer complètement le performance de l'impact des erreurs de prédiction de roll-back, il y a toujours des coûts en termes de consommation d'énergie de la perte de calcul. Aujourd'hui, les frites sont très puissance optimisée et varier leur vitesse de l'horloge de rester sous une limite de puissance. Donc c'est certainement dans le domaine de la possibilité qu'un gaspillage de l'énergie à partir de mispredictions peut indirectement affecter les performances.
- ou peut-être trop optimiste, les garanties de OS les vendeurs sur le processus d'isolement sont la cause. Certains Systèmes d'exploitation qui n'utilisent pas la notion de processus ne se soucient pas du tout
- me semble que le brach pridiction diminue l'écoulement d'une période de temps que l'exécution prend pas moins de temps PROCESSEUR/travail qui se fait réellement causer la maladie doivent être vérifiés toute façon, il suffit qu'il ya moins de temps d'inactivité du PROCESSEUR. Alors on peut dire que si vous faites million de différentes emploi total, le temps de faire tout ce qui sera similaire avec et sans branche pridiction. donc, il optimise la performance, mais pas le débit. est-ce exact?
- Non, il n'est pas. Un PROCESSEUR de ressources ne peut pas être redistribué comme ça. La plupart de c'est de l'utiliser ou la perdre. Si le CPU est bloqué en attente d'une branche pour se détendre (parmi beaucoup d'autres choses), ses ressources informatiques rester inactif. Des caractéristiques comme l'hyperthreading permettra de certains montant de partage. Mais pas au niveau que vous décrivez où tout est toujours utilisé, quoi qu'il arrive. Aussi, une branche erreurs de prédiction consiste à gaspillée ressources. Ainsi, dans le cas que vous décrivez, où le débit de matière et tout ce qui peut être parfaitement redistribué, direction de la prévision serait activement nuisibles.
- Je n'ai pas lu tous les commentaires, mais si la réponse de l'explication est bonne, un simple (et rapide!) version pour cette tâche spécifique est sum += data[c] * (data[c] >= 128);. Il est mieux que le posté réponse, même dans les unoptimized construit (dans optimisé construit, même la version naïve est plus rapide que le posté réponse en fait, un bon rappel que les micro-optimisation est mauvais). Une comparaison ne signifie pas une branche. Compilateur clang 9.0.
- Vous pourriez qualifier les "éviter de données dépendant de la ramification de la critique, des boucles" un peu, étant donné qu'il est vraiment valide uniquement lorsque le bloc conditionnel effectue très peu de travail? Un peu inquiet que quelqu'un va le prendre littéralement et faire quelques chère déclaration inconditionnel...
InformationsquelleAutor Mysticial
3932

Direction de la prévision.

Avec un tableau trié, la condition data[c] >= 128 est d'abord false pour une série de valeurs, puis devient true pour tous plus tard des valeurs. C'est facile à prévoir. Avec un tableau non-trié, vous devez payer le coût de branchement.
- Ne branche de prédiction de mieux travailler sur les tableaux triés vs tableaux avec des modèles différents? Par exemple, pour le tableau --> { 10, 5, 20, 10, 40, 20, ... } le prochain élément dans le tableau à partir de la structure est de 80. Ce type de tableau, être accéléré par la direction de la prévision, dans lequel l'élément suivant est de 80 ici si la tendance est suivie? Ou faut-il habituellement seulement aider avec triés tableaux?
- Donc, fondamentalement, tout ce que je conventionnellement appris à propos de big-O est hors de la fenêtre? Mieux engager un tri coût que coût de branchement?
- Cela dépend. Pour ne pas trop grande entrée, un algorithme d'une complexité plus élevée est plus rapide qu'un algorithme avec moins de complexité lorsque les constantes sont plus petits pour l'algorithme avec une plus grande complexité. Où le point d'équilibre est peut être difficile à prédire. Aussi, comparer ceci, la localité est important. Big-O est important, mais ce n'est pas le seul critère de la performance.
- Quand la direction de la prévision a lieu? Quand à la langue à savoir que le tableau est trié? Je suis en train de penser de la situation de tableau qui ressemble à: [1,2,3,4,5,...998,999,1000, 3, 10001, 10002] ? sera cet obscur 3 augmentation du temps d'exécution? Sera-ce aussi longtemps que des ménagères de tableau?
- Direction de la prévision prend place dans le processeur, en dessous du niveau de langue (mais la langue peut offrir des moyens pour indiquer au compilateur ce qui est probable, de sorte que le compilateur peut émettre le code adapté à ce que). Dans votre exemple, l'ordre de 3 conduira à une branche-les erreurs de prédiction (pour des conditions appropriées, où 3 donne un résultat différent de 1000), et donc le traitement de ce tableau, cela prendra probablement quelques dizaines ou centaines de nanosecondes plus qu'un tableau trié serait, à peu près jamais perceptible. Ce qui coûte du temps est j'taux élevé de mispredictions, on les erreurs de prédiction par 1000 n'est pas beaucoup.
- Le tri est importante ici que dans la mesure où dans ce code il augmente la direction de la prédiction de réussite de 100%.
- Je recommande un regard sur: en.wikibooks.org/wiki/Optimizing_C%2B%2B/Writing_efficient_code/..., qui fournit une bonne discussion avec des exemples de ce sujet, y compris certains qui ne sont pas mentionnés dans les commentaires que j'ai vu au sujet de cette question.
- ne compilateur sait quel tableau est trié et qui ne l'est pas?
- Comme Peter Wone a noté, ce n'est pas que le compilateur sait quel tableau est trié ou non. Imaginez un extrêmement simple branche prédicteur qui prend le même chemin que la précédente itération, par exemple, un train de prendre à gauche si elle a eu de gauche de la dernière fois, et vice versa. Pour un tableau trié de 256 entiers, (en ignorant l'indéfini première itération), la prédiction est correcte à partir de 2-128, à tort, au 129, puis corriger les 130-256. Maintenant, c'est une terrible branche prédicteur qui ne fonctionne que dans cette situation spécifique, mais un très bon prédicteur doit encore gérer ce bien.
InformationsquelleAutor Daniel Fischer
3170

La raison pour laquelle les performances s'améliorent considérablement lorsque les données sont triées, c'est que la direction de la prévision pénalité est supprimé, comme l'explique magnifiquement dans Mysticial réponse.

Maintenant, si on regarde le code
```
if (data[c] >= 128)
    sum += data[c];
```
nous pouvons constater que le sens de cette if... else... direction est d'ajouter quelque chose lorsqu'une condition est satisfaite. Ce type de branche peut être facilement transformé en un conditionnelle déplacer déclaration, qui seraient rassemblés dans un conditionnelle déplacer instruction: cmovl, dans un x86 système. La direction générale et donc le potentiel de la branche de prédiction de la pénalité est supprimé.

Dans C, ainsi C++, la déclaration, ce qui permettrait de compiler directement (sans optimisation) dans la condition de déplacer l'instruction dans x86, est l'opérateur ternaire ... ? ... : .... Nous avons donc réécrire la déclaration ci-dessus dans un type équivalent:
```
sum += data[c] >=128 ? data[c] : 0;
```
Tout en conservant la lisibilité, nous pouvons vérifier le facteur d'accélération.

Sur un processeur Intel Core i7-2600K @ 3.4 GHz et Visual Studio 2010 Mode de Libération, le point de référence (format copié à partir de Mysticial):

x86
```
// Branch - Random
seconds = 8.885

// Branch - Sorted
seconds = 1.528

// Branchless - Random
seconds = 3.716

// Branchless - Sorted
seconds = 3.71
```
x64
```
// Branch - Random
seconds = 11.302

// Branch - Sorted
 seconds = 1.830

// Branchless - Random
seconds = 2.736

// Branchless - Sorted
seconds = 2.737
```
Le résultat est robuste à de nombreux tests. Nous obtenons une grande accélération lorsque la branche résultat est imprévisible, mais il souffre un peu quand elle est prévisible. En fait, lors de l'utilisation d'un conditionnel déplacer, la performance est la même quel que soit le modèle de données.

Maintenant, regardons de plus près par l'enquête sur le x86 assemblée qu'ils génèrent. Pour des raisons de simplicité, nous utilisons deux fonctions max1 et max2.

max1 utilise la branche conditionnelle if... else ...:
```
int max1(int a, int b) {
    if (a > b)
        return a;
    else
        return b;
}
```
max2 utilise l'opérateur ternaire ... ? ... : ...:
```
int max2(int a, int b) {
    return a > b ? a : b;
}
```
Sur un x86-64-linge, GCC -S génère l'assemblée ci-dessous.
```
:max1
    movl    %edi, -4(%rbp)
    movl    %esi, -8(%rbp)
    movl    -4(%rbp), %eax
    cmpl    -8(%rbp), %eax
    jle     .L2
    movl    -4(%rbp), %eax
    movl    %eax, -12(%rbp)
    jmp     .L4
.L2:
    movl    -8(%rbp), %eax
    movl    %eax, -12(%rbp)
.L4:
    movl    -12(%rbp), %eax
    leave
    ret

:max2
    movl    %edi, -4(%rbp)
    movl    %esi, -8(%rbp)
    movl    -4(%rbp), %eax
    cmpl    %eax, -8(%rbp)
    cmovge  -8(%rbp), %eax
    leave
    ret
```
max2 utilise beaucoup moins de code en raison de l'utilisation de l'instruction cmovge. Mais le véritable gain est que max2 ne pas impliquer la direction générale des sauts, des jmp, ce qui aurait considérablement les performances de pénalité si le résultat prévu est pas droit.

Alors pourquoi ne conditionnelle déplacer mieux performer?

Dans un typique x86 processeur, l'exécution d'une instruction est divisée en plusieurs étapes. En gros, nous avons un matériel différent pour aborder les différentes étapes. Donc nous n'avons pas à attendre pour une instruction à terminer pour en commencer une nouvelle. Ceci est appelé le pipelining.

Dans une branche cas, l'instruction suivante est déterminée par la précédente, de sorte que nous ne pouvons pas faire le pipelining. Nous n'avons ni à attendre ou prévoir.

Dans un conditionnelle déplacer cas, l'exécution conditionnelle de déplacer l'instruction est divisée en plusieurs étapes, mais les étapes antérieures comme Fetch et Decode ne dépend pas du résultat de l'instruction précédente; seuls les derniers stades besoin de la suite. Ainsi, nous attendons une fraction de l'une des instructions temps d'exécution. C'est pourquoi le conditionnel déplacer version est plus lente que la branche lorsque la prédiction est facile.

Le livre Systèmes informatiques: Un point de vue du Programmeur, deuxième édition explique cela en détail. Vous pouvez consulter la Section 3.6.6 pour Conditionnelle Déplacer Instructions, tout le Chapitre 4 pour Architecture de Processeur, et de l'Article 5.11.2 un traitement spécial pour Direction de la Prévision et des erreurs de prédiction de Sanctions.

Parfois, certains les compilateurs modernes peuvent optimiser notre code pour l'assemblage avec une meilleure performance, parfois, certains compilateurs ne peut pas (le code en question est à l'aide de Visual Studio compilateur natif). Sachant que la différence de performances entre la direction générale et à la condition que déplacer lorsque imprévisibles peuvent nous aider à écrire du code avec de meilleures performances lorsque le scénario est tellement complexe que le compilateur ne peut pas optimiser automatiquement.
- C'est par l'onu, la version optimisée. Le compilateur n'a PAS d'optimiser le ternaire-opérateur, il vient de TRADUIRE. GCC peuvent optimiser si-alors si suffisamment à l'optimisation du niveau, néanmoins, celle-ci montre la puissance du conditionnel déplacer, et un manuel d'optimisation fait une différence.
- Le code montre rien, parce que vos deux morceaux de code à compiler le même code machine. Il est extrêmement important que les gens n'obtiennent pas l'idée que d'une certaine façon l'instruction if dans votre exemple, est différente de la terenary dans votre exemple. Il est vrai que vous possédez jusqu'à la similitude dans votre dernier paragraphe, mais qui n'efface pas le fait que le reste de l'exemple est nuisible.
- Par exemple, je n'ai aucune idée si les critères de référence en haut de votre post sont compilés avec les optimisations ou pas. Évidemment, c'est important. Si il y a une différence de vitesse lors de la compilation avec les optimisations, qui pourrait être intéressant, surtout si vous pourriez nous expliquer la différence en soulignant les différences dans le code généré.
- OP du code ne peut pas être optimisée par VS2010 compilateur, le test a été effectué en mode release.
- Mon downvote serait certainement se transformer en un upvote si vous avez modifié votre réponse à supprimer le caractère trompeur de -O0 l'exemple et de montrer la différence de optimisé asm sur votre deux cas de tests.
- Que voulez-vous dire qu'il ne peut pas être optimisé, il a été fait en mode release? Vous pouvez spécifier l'optimisation de votre solution/proejct configuration indépendamment de ce que "mode", vous construisez, à moins qu'ils magiquement supprimés VS2010... msdn.microsoft.com/en-us/library/fwkeyyhe.aspx
- Au moment du test, VS2010 ne peut pas optimiser l'origine de la branche en un conditionnel se déplacer, même lors de la spécification de haut niveau d'optimisation, alors que gcc peut.
- gotcha, merci ne savais pas que c'était juste une courte distance en provenance des optimisations VS pouvez faire ensemble. De votre commentaire, ça sonnait comme cela avait à voir avec le mode de compilation. Comme vous pouvez le deviner, je ne suis pas un très lourd windows et VS utilisateur plus
- Cet opérateur ternaire astuce fonctionne à merveille pour Java. Après la lecture Mystique de réponse, je me demandais ce qui pouvait être fait pour Java pour éviter les fausses direction de la prévision depuis Java n'a rien d'équivalent à l'O3. opérateur ternaire: 2.1943 s et original: 6.0303 s.
InformationsquelleAutor WiSaGaN
2178

Si vous êtes curieux de connaître encore plus d'optimisations qui peut être fait à ce code, pensez à ceci:

De départ avec la boucle d'origine:
```
for (unsigned i = 0; i < 100000; ++i)
{
    for (unsigned j = 0; j < arraySize; ++j)
    {
        if (data[j] >= 128)
            sum += data[j];
    }
}
```
Avec boucle d'échange, nous pouvons changer cette boucle:
```
for (unsigned j = 0; j < arraySize; ++j)
{
    for (unsigned i = 0; i < 100000; ++i)
    {
        if (data[j] >= 128)
            sum += data[j];
    }
}
```
Ensuite, vous pouvez voir que le if conditionnelle est constante tout au long de l'exécution de la i boucle, de sorte que vous pouvez hisser le if out:
```
for (unsigned j = 0; j < arraySize; ++j)
{
    if (data[j] >= 128)
    {
        for (unsigned i = 0; i < 100000; ++i)
        {
            sum += data[j];
        }
    }
}
```
Alors, vous voyez que la boucle interne peuvent être regroupées en une seule expression, en supposant que la virgule flottante modèle permet (/fp:fast est jeté, par exemple)
```
for (unsigned j = 0; j < arraySize; ++j)
{
    if (data[j] >= 128)
    {
        sum += data[j] * 100000;
    }
}
```
Que l'on est 100 000 fois plus rapide qu'avant.
- Si vous voulez tricher, vous pourriez aussi bien prendre la multiplication à l'extérieur de la boucle et de faire la somme*=100000 après la boucle.
- Je crois que cet exemple est un exemple de boucle-invariant de levage (LIH) d'optimisation, et de ne PAS boucle swap. Dans ce cas, l'ensemble de la boucle interne est indépendant de la boucle externe et peut donc être tiré hors de la boucle externe, après quoi, le résultat est tout simplement multiplié par une somme sur les i d'une unité =1e5. Il ne fait aucune différence pour le résultat final, mais je voulais juste mettre les choses puisque c'est un fréquentés de la page.
- Bien que n'étant pas dans le simple esprit de la permutation de boucles, l'une intérieure if à ce point pourrait être converti à: sum += (data[j] >= 128) ? data[j] * 100000 : 0; qui le compilateur peut être en mesure de réduire à cmovge ou l'équivalent.
- La boucle externe est de prendre le temps pris par boucle interne assez grand pour le profil de. Alors pourquoi voudriez-vous de la boucle de swap. À la fin, que la boucle sera supprimé de toute façon.
- Mauvaise question: pourquoi le compilateur ne PAS boucle de swap. Microbenchmarks est dur 😉
- Je suis d'accord avec vous, mais dans la mesure où le compilateur peut optimiser. Vous ne savez pas si il sera, mais je suis pas un expert dans les Optimisations du Compilateur. Mais si vous êtes de droite, ne serait-ce pas invalider la remarque "Que l'on est à 100 000 x plus vite qu'avant" par vulcain.
- Si vous faire 'je' volatile, le compilateur sera difficile de l'optimisation de tout ce qui implique la boucle externe. L'intérieur du contenu sera encore optimisé si.
InformationsquelleAutor vulcan raven

1814

Sans doute certains d'entre nous seraient intéressés par les moyens d'un code d'identification qui est problématique pour le CPU de la branche prédicteur. L'outil Valgrind cachegrind a une branche de prédiction-simulateur, activé à l'aide de la --branch-sim=yes drapeau. À travers les exemples de cette question, avec le nombre de boucles externes réduit à 10000 et compilé avec g++, donne ces résultats:

Triés:

==32551== Branches:        656,645,130  (  656,609,208 cond +    35,922 ind)
==32551== Mispredicts:         169,556  (      169,095 cond +       461 ind)
==32551== Mispred rate:            0.0% (          0.0%     +       1.2%   )

Non triés:

==32555== Branches:        655,996,082  (  655,960,160 cond +  35,922 ind)
==32555== Mispredicts:     164,073,152  (  164,072,692 cond +     460 ind)
==32555== Mispred rate:           25.0% (         25.0%     +     1.2%   )

De forage vers le bas dans la, ligne par ligne, la sortie produite par cg_annotate nous voir pour la boucle en question:

Triés:

          Bc    Bcm Bi Bim
      10,001      4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .      .  .   .      {
           .      .  .   .          //primary loop
 327,690,000 10,016  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .      .  .   .          {
 327,680,000 10,006  0   0              if (data[c] >= 128)
           0      0  0   0                  sum += data[c];
           .      .  .   .          }
           .      .  .   .      }

Non triés:

          Bc         Bcm Bi Bim
      10,001           4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .           .  .   .      {
           .           .  .   .          //primary loop
 327,690,000      10,038  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .           .  .   .          {
 327,680,000 164,050,007  0   0              if (data[c] >= 128)
           0           0  0   0                  sum += data[c];
           .           .  .   .          }
           .           .  .   .      }

Cela vous permet de facilement identifier la problématique de ligne dans le non triés version la if (data[c] >= 128) ligne est à l'origine de 164,050,007 mispredicted branches conditionnelles (Bcm) sous cachegrind de la direction générale de prédiction-modèle, alors qu'il est seulement de causer 10,006 dans la version triée.

Sinon, sur Linux, vous pouvez utiliser les compteurs de performance du sous-système pour accomplir la même tâche, mais avec des performances natives CPU à l'aide de compteurs.

perf stat ./sumtest_sorted

Triés:

 Performance counter stats for './sumtest_sorted':

  11808.095776 task-clock                #    0.998 CPUs utilized          
         1,062 context-switches          #    0.090 K/sec                  
            14 CPU-migrations            #    0.001 K/sec                  
           337 page-faults               #    0.029 K/sec                  
26,487,882,764 cycles                    #    2.243 GHz                    
41,025,654,322 instructions              #    1.55  insns per cycle        
 6,558,871,379 branches                  #  555.455 M/sec                  
       567,204 branch-misses             #    0.01% of all branches        

  11.827228330 seconds time elapsed

Non triés:

 Performance counter stats for './sumtest_unsorted':

  28877.954344 task-clock                #    0.998 CPUs utilized          
         2,584 context-switches          #    0.089 K/sec                  
            18 CPU-migrations            #    0.001 K/sec                  
           335 page-faults               #    0.012 K/sec                  
65,076,127,595 cycles                    #    2.253 GHz                    
41,032,528,741 instructions              #    0.63  insns per cycle        
 6,560,579,013 branches                  #  227.183 M/sec                  
 1,646,394,749 branch-misses             #   25.10% of all branches        

  28.935500947 seconds time elapsed

Il peut également faire le code source d'annotation avec dissassembly.

perf record -e branch-misses ./sumtest_unsorted
perf annotate -d sumtest_unsorted

 Percent |      Source code & Disassembly of sumtest_unsorted
------------------------------------------------
...
         :                      sum += data[c];
    0.00 :        400a1a:       mov    -0x14(%rbp),%eax
   39.97 :        400a1d:       mov    %eax,%eax
    5.31 :        400a1f:       mov    -0x20040(%rbp,%rax,4),%eax
    4.60 :        400a26:       cltq   
    0.00 :        400a28:       add    %rax,-0x30(%rbp)
...

Voir la performance tutoriel pour plus de détails.

C'est effrayant, dans la liste non triée, il devrait y avoir 50% de chance de frapper le ajouter. En quelque sorte, la direction de la prévision n'est que de 25% miss taux, comment peut-il faire mieux que 50% de miss?
Le 25% de toutes les branches y sont deux les branches dans la boucle, un pour data[c] >= 128 (qui a 50% de miss taux comme vous le suggérez) et un pour la condition de la boucle c < arraySize qui a ~0% miss taux.

InformationsquelleAutor caf

1274

Je viens de lire sur cette question et ses réponses, et je sens que la réponse est manquant.

Un bon moyen d'éliminer les branchements que j'ai trouvé pour un travail particulièrement bon dans la gestion des langues est une table de recherche au lieu d'utiliser une branche (bien que je ne l'ai pas testé dans ce cas).

Cette approche fonctionne en général si:
1. c'est une petite table et est susceptible d'être mis en cache dans le processeur, et
2. vous exécutez les choses dans une boucle serrée et/ou le processeur peut précharger les données.
De fond et pourquoi

À partir d'un processeur point de vue, votre mémoire est lente. Pour compenser la différence de vitesse, un couple de caches sont intégrées dans votre processeur (L1/L2 cache). Alors, imaginez que vous êtes en train de faire votre belle calculs et de comprendre que vous avez besoin d'un morceau de la mémoire. Le processeur va obtenir sa "charge" de fonctionnement et charges de l'élément de mémoire dans le cache, et ensuite utilise le cache pour faire le reste des calculs. Parce que la mémoire est relativement lente, cette "charge" va ralentir votre programme.

Comme la direction de la prévision, cela a été optimisé pour les processeurs Pentium: le processeur prédit qu'il doit charger un morceau de données et tente de charger dans le cache avant l'opération de frappe réellement le cache. Comme nous l'avons déjà vu, direction de la prévision, parfois, va terriblement mal-dans le pire des cas, vous devez revenir en arrière et fait attendre pour un mémoire de charge, qui va prendre une éternité (en d'autres termes: à défaut de direction de la prévision est mauvaise, un mémoire de charge après une branche de prédiction de l'échec est juste horrible!!!).

Heureusement pour nous, si l'accès à la mémoire de modèle est prévisible, le processeur va le charger dans son cache rapide et tout est bien.

La première chose que nous devons savoir, c'est ce qui est petit? Bien que plus petit, mieux c'est, une règle du pouce est de s'en tenir à des tables de consultation qui sont <= 4096 octets la taille. Comme une limite supérieure: si votre table de recherche est supérieure à 64 ko c'est probablement la peine de reconsidérer.

La construction d'un tableau

Donc, nous avons compris que nous pouvons créer une petite table. La prochaine chose à faire est d'obtenir une fonction de recherche en place. Fonctions de recherche sont généralement de petites fonctions qui utilisent un couple de base opérations sur entiers (et, ou, xor, maj, ajouter, supprimer et peut-être se multiplient). Vous souhaitez avoir votre avis traduit par la fonction de recherche pour une sorte de "clé unique" dans votre table, puis simplement vous donne la réponse de tout le travail que vous voulez qu'il fasse.

Dans ce cas: >= 128 signifie que nous pouvons conserver la valeur, < 128, cela signifie pour nous en débarrasser. La façon la plus simple de le faire est d'utiliser un "ET": si nous continuons, nous ET avec 7FFFFFFF; si nous voulons nous débarrasser de lui, nous ET avec 0. Notez également que les 128 est une puissance de 2 -- pour que nous puissions aller de l'avant et faire un tableau de 32768/128 entiers et de le remplir avec un zéro et un lot de 7FFFFFFFF de l'.

Géré langues

Vous pourriez vous demander pourquoi cela fonctionne bien dans la gestion des langues. Après tout, géré langues vérifier les limites des tableaux avec une branche pour vous assurer de ne pas gâcher...

Eh bien, pas exactement... 🙂

Il y a eu très peu de travail sur l'élimination de cette branche à la gestion des langues. Par exemple:
```
for (int i = 0; i < array.Length; ++i)
{
   //Use array[i]
}
```
Dans ce cas, il est évident pour le compilateur que la condition à la limite ne sera jamais frappé. Au moins Microsoft compilateur JIT (mais j'attends de Java n'des choses similaires) remarquerez que cette et décochez la case tout à fait. WOW, ce qui signifie pas de la branche. De même, il va faire face à d'autres raisons évidentes.

Si vous rencontrez un problème avec les recherches en gestion des langues-la clé est d'ajouter un & 0x[something]FFF à votre fonction de recherche pour faire la vérification de limites prévisibles -- et regarder ce que ça va plus vite.

La suite de cette affaire
```
//Generate data
int arraySize = 32768;
int[] data = new int[arraySize];

Random random = new Random(0);
for (int c = 0; c < arraySize; ++c)
{
    data[c] = random.Next(256);
}

/*To keep the spirit of the code intact, I'll make a separate lookup table
(I assume we cannot modify 'data' or the number of loops)*/

int[] lookup = new int[256];

for (int c = 0; c < 256; ++c)
{
    lookup[c] = (c >= 128) ? c : 0;
}

//Test
DateTime startTime = System.DateTime.Now;
long sum = 0;

for (int i = 0; i < 100000; ++i)
{
    //Primary loop
    for (int j = 0; j < arraySize; ++j)
    {
        /* Here you basically want to use simple operations - so no
        random branches, but things like &, |, *, -, +, etc. are fine. */
        sum += lookup[data[j]];
    }
}

DateTime endTime = System.DateTime.Now;
Console.WriteLine(endTime - startTime);
Console.WriteLine("sum = " + sum);
Console.ReadLine();
```
- Vous souhaitez contourner la direction générale de prédiction -, pourquoi? C'est une optimisation.
- Parce que pas de branche est mieux qu'une agence 🙂 Dans beaucoup de situations, cela est tout simplement beaucoup plus vite... si vous êtes l'optimisation, c'est certainement la peine d'essayer. Ils ont également l'utiliser un peu dans f.ex. graphics.stanford.edu/~seander/bithacks.html
- En général, les tables de recherche peut être rapide, mais avez-vous couru les tests pour cette condition particulière? Vous aurez toujours une direction de la condition dans votre code, seulement maintenant, il est déplacé à la table de la génération de la partie. Vous ne recevez pas votre perf boost
- si vous voulez vraiment savoir... Oui: 15 secondes avec la direction générale et de 10 avec ma version. Peu importe, il est une technique utile pour savoir de toute façon.
- Pourquoi ne pas sum += lookup[data[j]] où lookup est un tableau de 256 entrées, la première étant le zéro et le dernier étant égal à l'index?
- pour que - j'ai fait un bug de mise en œuvre par la vérification de l'indice de j; elle doit avoir été lookup[data[j]] comme vous le suggérez, à la place.
- Vous dites "Il y a eu très peu de travail sur l'élimination de cette branche à la gestion des langues." Bien sûr, mais qui ne va pas aider avec sum += lookup[data[j]];. Cependant, ce qui va aider, c'est que la recherche ne sera jamais sortir des limites d'un bug programme libre, de sorte que la direction de la prédicteur peut prédire la direction générale de la perfection. Et cela signifie que la vitesse!
- Oui, c'est correct. Ce qui aiderait aussi dans ce cas est d'utiliser le bon type de données (par exemple,byte[] data); ce qui permettrait d'éliminer la branche complètement, ce qui signifie plus de vitesse. 🙂 En fait, j'ai toujours supposer que si (1) vous êtes dans une boucle serrée, avec une quantité limitée de code (comme ici) et (2) si vous pouviez prédire les branches avec 'l'analyse statique de code', puis le processeur / JIT'ter va faire leur travail correctement.
- accès au tableau les moyens de pointeur fonctionnement comme *(ptr + x) - droit? tannerie opérateur devrait être plus rapide ici - droite?
- mais la méthode de recherche aura besoin de l'instruction de saut pour sauter à la cible des codes. cet endroit à l'inconditionnel de saut, le cpu doit toujours nettoyer son pipeline dans ce cas ? qui sera mauvais que si la prédiction lors de la prédiction de la frapper. est-ce exact?
- Ressemble for (int c = 0; c < 256; ++c) lookup[c] = (c >= 128) ? c : 0; peut être remplacé par for (int c = 128; c < 256; ++c) lookup[c] = c; parce que la matrice déjà initialisé à zéros dans la gestion de la langue lors de l'initialisation.
- Rizvi Génération de table de recherche prend très peu de temps par rapport à la ramification de tous les temps, de sorte qu'il n'ai le temps de boost
- Pour les inconditionnels de sauts, le CPU sera toujours charge son pipeline, de sorte que son rendement est similaire à la bonne prédiction.
InformationsquelleAutor atlaste
1142

Que les données sont réparties entre 0 et 255 lorsque le tableau est trié, autour de la première moitié de la itérations ne pas entrer dans le if-déclaration (la if déclaration est partagée ci-dessous).
```
if (data[c] >= 128)
    sum += data[c];
```
La question est: Que fait la déclaration ci-dessus de ne pas exécuter, dans certains cas, comme dans le cas de données triées? Voici la branche "prédicteur". Une branche predictor est un circuit numérique qui tente de deviner la façon dont une branche (par exemple un if-then-else structure) ira de l'avant c'est certain. Le but de la branche prédicteur est d'améliorer le flux dans le pipeline d'instruction. Direction des prédicteurs jouent un rôle essentiel dans la réalisation de haute performance efficace!

Nous allons faire quelques bench-marking pour mieux la comprendre

La performance d'un if-déclaration dépend de son état de santé a un schéma prévisible. Si la condition est toujours vraie ou toujours fausse, la direction de la prévision logique dans le processeur va chercher le motif. D'autre part, si le motif est imprévisible, la if-déclaration sera beaucoup plus cher.

Nous allons mesurer la performance de cette boucle avec des conditions différentes:
```
for (int i = 0; i < max; i++)
    if (condition)
        sum++;
```
Voici les horaires de la boucle avec différents vrai-faux motifs:
```
Condition                Pattern             Time (ms)
-------------------------------------------------------
(i & 0×80000000) == 0    T repeated          322

(i & 0xffffffff) == 0    F repeated          276

(i & 1) == 0             TF alternating      760

(i & 3) == 0             TFFFTFFF…           513

(i & 2) == 0             TTFFTTFF…           1675

(i & 4) == 0             TTTTFFFFTTTTFFFF…   1275

(i & 8) == 0             8T 8F 8T 8F …       752

(i & 16) == 0            16T 16F 16T 16F …   490
```
Un “mauvais” vrai-faux motif peut faire un if-déclaration jusqu'à six fois plus lent qu'un “bonne” patron de! Bien sûr, dont le motif est bon et qui est mauvais en fonction sur les instructions exactes généré par le compilateur et sur le processeur spécifique.

Donc il n'y a aucun doute sur l'impact de la direction de la prévision sur la performance!
- Vous ne vous montrez pas les timings de la "aléatoire" TF modèle.
- il ne fera pas une différence - que la valeur peut être n'importe quoi, mais il faut quand même être dans les limites de ces seuils. Alors pourquoi montrer une valeur aléatoire quand on connaît les limites? Même si je suis d'accord que vous pourriez montrer un par souci d'exhaustivité, et de "juste pour le fun'.
- Maintenant son plus lent, le timing est TTFFTTFFTTFF, qui semble, à mon œil humain, tout à fait prévisible. Le hasard est par nature imprévisible, il est donc tout à fait possible, il serait encore plus lent, et donc en dehors des limites indiquées ici. Otoh, que, il se pourrait que TTFFTTFF parfaitement frappe le cas pathologique. Ne peux pas dire, car il n'a pas présenté les horaires aléatoires.
- Pour un œil humain, "TTFFTTFFTTFF" est une séquence prévisible, mais ce dont nous parlons ici est le comportement de la direction de la prédicteur intégré dans un PROCESSEUR. La direction de la prédicteur n'est pas de l'IA au niveau de la reconnaissance des formes; c'est très simple. Lorsque vous venez juste de autres branches, il n'est pas de prédire bien. Dans la plupart des code, les branches passent de la même manière presque tout le temps; envisager une boucle qui s'exécute d'un millier de fois. La direction générale à la fin de la boucle remonte au début de la boucle 999 fois, et puis la millième fois fait quelque chose de différent. Un très simple branche prédicteur fonctionne bien, en général.
- Je pense que vous êtes de faire des hypothèses sur la manière dont le CPU branche predictor fonctionne, et je suis en désaccord avec cette méthodologie. Je ne sais pas comment avancé que la direction de la prédicteur, mais il me semble pense qu'il est bien plus avancé que vous. Vous avez probablement raison, mais les mesures devraient certainement être bon.
- Il est vrai que je ne suis pas un expert dans la conception du processeur. Mais je vous invite à lire la page de Wikipedia sur la branche prédicteurs. Pas un de ces dessins pourraient verrou sur le modèle TTFFTTFF... et de prédire correctement. (Sauf peut-être pour le réseau neuronal, avec un stade suffisamment avancé, réseau neuronal, et je parie que vous l'argent que vous ne possédez pas un périphérique informatique qui a une branche qu'un prédicteur dans son processeur.) en.wikipedia.org/wiki/Branch_predictor
- Les Deux niveaux prédicteur adaptatif peut se verrouiller sur la TTFFTTFF modèle avec aucun problème que ce soit. "Les variantes de cette méthode de prédiction sont utilisés dans la plupart des microprocesseurs modernes". Locale direction de la prévision et de la Mondiale, direction de la prévision sont basés sur deux niveaux prédicteur adaptatif, ils peuvent ainsi. "Global de la branche de prédiction est utilisée dans les processeurs AMD et Intel Pentium M, Core, Core 2, et Silvermont à base de processeurs Atom" Également ajouter d'Accord prédicteur, Hybride prédicteur, la Prédiction de sauts indirects, à cette liste. Boucle prédicteur l'habitude de verrouillage, mais la frappe de 75%. Cela ne laisse que 2 qui ne peuvent pas verrouiller sur
- Le diagramme de la Surt du réponse je pense que explique pourquoi TTFFTTFF est en fait le "cas pathologique" dans Saqlain l'exemple.
InformationsquelleAutor Saqlain
1063

Une façon d'éviter de branche erreurs de prédiction est de construire une table de recherche et d'index en utilisant les données. Stefan de Bruijn discuté que dans sa réponse.

Mais dans ce cas, nous savons que les valeurs sont dans l'intervalle [0, 255] et nous ne se soucient valeurs >= 128. Cela signifie que l'on peut facilement extraire un bit unique qui nous permettra de savoir si nous voulons une valeur ou pas: en transférant les données à droite 7 bits, ce qui nous laisse avec un bit à 0 ou 1 bit, et nous ne voulons ajouter de la valeur lorsque nous avons un bit à 1. Appelons ce bit la décision "bits".

À l'aide de la 0/1 valeur de la décision peu comme un index dans un tableau, on peut faire du code qui sera tout aussi rapide si les données sont triées ou non triées. Notre code sera toujours ajouter une valeur, mais lorsque la décision du bit est 0, nous allons ajouter de la valeur, quelque part, nous ne nous soucions pas. Voici le code:
```
//Test
clock_t start = clock();
long long a[] = {0, 0};
long long sum;

for (unsigned i = 0; i < 100000; ++i)
{
    //Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        int j = (data[c] >> 7);
        a[j] += data[c];
    }
}

double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
sum = a[1];
```
Ce code déchets de la moitié de l'ajoute mais ne l'a jamais une branche de prédiction de l'échec. C'est énormément plus rapide sur des données aléatoires que la version avec un effectif si l'instruction.

Mais dans mes tests, explicite d'une table de recherche a été légèrement plus rapide que ce, probablement en raison de l'indexation dans une table de recherche a été légèrement plus rapide que le décalage de bits. Cela montre combien mon code met en place et utilise la table de recherche (imagination appelé lut pour "LookUp Table" dans le code). Voici le code C++:
```
//Declare and then fill in the lookup table
int lut[256];
for (unsigned c = 0; c < 256; ++c)
    lut[c] = (c >= 128) ? c : 0;

//Use the lookup table after it is built
for (unsigned i = 0; i < 100000; ++i)
{
    //Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        sum += lut[data[c]];
    }
}
```
Dans ce cas, la table de recherche a été seulement 256 octets, de sorte qu'il s'intègre parfaitement dans un cache et tout a été rapide. Cette technique ne fonctionnerait pas bien si les données ont été 24-bit valeurs et nous voulions seulement la moitié d'entre eux... la table de recherche serait beaucoup trop grande pour être pratique. D'autre part, on peut combiner les deux techniques présentées ci-dessus: d'abord décale les bits de plus, alors l'index d'une table de recherche. Pour un 24-bits de la valeur que nous voulons seulement la moitié supérieure de la valeur, nous pourrions éventuellement modifier les données de 12 bits, et d'être de gauche avec 12 bits de la valeur de l'index d'une table. Un 12-bit index de la table implique une table de 4096 valeurs, ce qui peut être pratique.

La technique de l'indexation dans un tableau, au lieu d'utiliser un if déclaration, peuvent être utilisés pour décider du pointeur à utiliser. J'ai vu une bibliothèque mise en œuvre d'arbres binaires, et au lieu d'avoir deux pointeurs (pLeft et pRight ou autre) a une longueur-2 tableau de pointeurs et utilisé la décision "peu" technique pour décider de ce qui doit suivre. Par exemple, au lieu de:
```
if (x < node->value)
    node = node->pLeft;
else
    node = node->pRight;
```
cette bibliothèque devrait faire quelque chose comme:
```
i = (x < node->value);
node = node->link[i];
```
Voici un lien vers ce code: Rouge Noir Des Arbres, Éternellement Confuzzled
- À droite, vous pouvez aussi utiliser les bits directement et multipliez-vous (data[c]>>7 - ce qui est discuté quelque part ici); j'ai volontairement laissé cette solution, mais bien sûr, vous avez raison. Juste une petite remarque: La règle de base pour les tables de recherche, c'est que si elle s'inscrit dans 4KO (en raison de la mise en cache), il va travailler de préférence, la table la plus petite possible. Pour les langues je l'avais poussée à 64 ko, à faible niveau de langages tels que le C++ et le C, je serais probablement revoir (c'est juste mon expérience). Depuis typeof(int) = 4, j'avais essayer de s'en tenir à un maximum de 10 bits.
- Je pense que l'indexation avec le 0/1 valeur sera probablement plus rapide qu'un nombre entier de se multiplier, mais je suppose que si la performance est vraiment critique, vous devriez profil. Je suis d'accord que les petites tables de recherche sont essentiels pour éviter la pression sur le cache, mais il est clair que si vous avez un gros cache, vous pouvez vous en sortir avec une plus grande table de recherche, afin de 4KO est plus une règle qu'une règle absolue. Je pense que vous vouliez dire sizeof(int) == 4? Ce serait vrai pour la version 32 bits. Mes deux-année-vieux téléphone cellulaire a 32 ko de cache L1, de sorte que même un 4K table de recherche peuvent fonctionner, surtout si les valeurs de recherche ont été un octet au lieu d'un int.
- J'ai peut-être me manque quelque chose, mais dans votre j est égal à 0 ou 1 méthode pourquoi ne pas simplement multiplier votre valeur par j avant d'ajouter plutôt que d'utiliser le tableau d'indexation (éventuellement devrait être multiplié par 1-j plutôt que j)
- La Multiplication devraient être plus rapide, j'ai essayé de regarder dans le Intel livres, mais je ne pouvais pas le trouver... de toute façon, l'analyse comparative également me donne le résultat ici.
- P. S.: une autre réponse possible serait int c = data[j]; sum += c & -(c >> 7); qui ne nécessite pas de multiplications à tous.
- Bonne réponse - depuis une lookup table peut aussi traiter des cas complexes, où l'on ne peut facilement tricher avec la manipulation de bits
- Zain est correct. Le “si” est juste caché dans la table de recherche. Le code est plus rapide, car la table de recherche est caché à l'EXTÉRIEUR de l'100000 itérations. Il est nothign à gagner de l'utilisation d'une table de recherche pour ce problème.
- i = (x < node->value); node = node->link[i]; n'a pas explicitement la branche, mais elle contient tout de même une comparaison; il dépend beaucoup de l'architecture cible pour savoir si cela peut être résolu sans une succursale ou pas. Depuis, il peut être fait sur x86 (à l'aide de CMOV ou LAHF) et le BRAS (conditionnel ajouter ou déplacer), qui sont les seules architectures que j'utilise, c'est peut-être pas important!
- Sur ce que l'architecture serait une expression comme (x < node->value) nécessitent une branche à évaluer? Toutes les architectures avec lequel je suis familier ont un "drapeaux" s'inscrire, et il est simple d'extraire les valeur de l'indicateur. Je suppose que sur le Pentium 4 le bit indicateur de l'extraction peut être lent comme autant que je me souvienne que la puce n'a pas consacré déplacement de matériel pour les adresses, mais emprunte de l'ALU de décalage de bits. Mais je ne sais pas d'où une succursale serait nécessaire. Hmm, vos exemples sont conditionnelles... l'idée est qu'une fois que vous extrayez le peu de drapeaux, vous pouvez simplement utiliser l'indexation avec aucune branche.
- Le décalage de bits est un zéro-coût de l'opération dans les BRAS, de sorte que vous pouvez trouver les bits de décalage de version est plus rapide sur les BRAS.
- Quid des tailles de cache, L1, L2, etc.? Avoir à aller à la page principale de la mémoire pour un tableau de recherche serait killer. Pouvez-vous que, dans votre réponse?
InformationsquelleAutor steveha
962

Dans la triés cas, vous pouvez faire mieux que de s'appuyer sur le succès de la direction de la prévision ou de tout dépourvu de branches comparaison astuce: supprimer complètement la branche.

En effet, le tableau est divisé en une zone contiguë avec data < 128 et un autre avec data >= 128. Il faut donc trouver la partition de point avec un recherche dichotomique (à l'aide de Lg(arraySize) = 15 comparaisons), puis faire un tout droit d'accumulation à partir de ce point.

Quelque chose comme (case non cochée)
```
int i= 0, j, k= arraySize;
while (i < k)
{
  j= (i + k) >> 1;
  if (data[j] >= 128)
    k= j;
  else
    i= j;
}
sum= 0;
for (; i < arraySize; i++)
  sum+= data[i];
```
ou, un peu plus d'obfuscation
```
int i, k, j= (i + k) >> 1;
for (i= 0, k= arraySize; i < k; (data[j] >= 128 ? k : i)= j)
  j= (i + k) >> 1;
for (sum= 0; i < arraySize; i++)
  sum+= data[i];
```
Un encore plus rapide approche, qui donne un approximative solution pour les deux triés ou non triée est: sum= 3137536; (en supposant une véritable distribution uniforme, 16384 échantillons avec valeur attendue 191.5) 🙂
- sum= 3137536 - intelligent. C'est un peu évidemment pas le point de la question. La question est clairement expliquer surprenant caractéristiques de performance. Je suis enclin à dire que l'addition de faire std::partition au lieu de std::sort est précieux. Mais la question s'étend de plus que le synthétique de référence donné.
- ce n'est effectivement pas la norme dichotomique recherche pour une clé donnée, mais une recherche de la partition de l'indice; elle exige une seule comparer par itération. Mais ne comptez pas sur ce code, je n'ai pas vérifié. Si vous êtes intéressé par une garantie de mise en œuvre correcte, laissez-moi savoir.
InformationsquelleAutor Yves Daoust
785

Ce comportement se produit en raison de la Direction de la prévision.

À comprendre la direction de la prévision, on doit d'abord comprendre Instruction Pipeline:

Toute instruction est décomposé en une séquence d'étapes, de sorte que les différentes étapes peuvent être exécutées simultanément en parallèle. Cette technique est connue comme instruction de pipeline et ce est utilisé pour augmenter le débit dans les processeurs modernes. Pour mieux comprendre ce processus, veuillez consulter cette exemple sur Wikipédia.

Généralement, les processeurs modernes ont assez longue pipelines, mais pour faciliter la considérons ces 4 étapes seulement.
1. SI -- Extrait de l'instruction de la mémoire
2. ID-Décoder l'instruction
3. EX-Exécutez l'instruction
4. WB -- Écrire de nouveau à PROCESSEUR inscrire
4 étages de pipeline en général de 2 des instructions.

De revenir à la question ci-dessus considérons les instructions suivantes:
```
                        A) if (data[c] >= 128)
                                /\
                               /  \
                              /    \
                        true /      \ false
                            /        \
                           /          \
                          /            \
                         /              \
              B) sum += data[c];          C) for loop or print().
```
Sans direction de la prévision, ce qui suit se produit:

Pour exécuter l'instruction B ou d'une instruction C le processeur devra attendre jusqu'à ce que l'instruction A n'est pas d'atteindre jusqu'EX étape dans le pipeline, comme la décision de passer à l'instruction B ou d'une instruction C dépend du résultat de l'instruction A. de Sorte que le pipeline doit ressembler à cela.

quand si la condition renvoie true:

Quand si la condition retourne false:

Comme un résultat de l'attente du résultat d'Une instruction, le nombre total de cycles CPU passé dans le cas ci-dessus (sans direction de la prévision, pour à la fois vrai et faux) est de 7.

Alors, quelle est la direction de la prévision?

Branche prédicteur essayer de deviner la façon dont une branche (if-then-else structure) ira de l'avant c'est certain. Il ne sera pas attendre pour l'instruction A pour accéder à l'EX-stade de la préparation, mais il va deviner la décision et aller à l'instruction (B ou C dans le cas de notre exemple).

En cas de bonne réponse, le pipeline ressemble à quelque chose comme ceci:

Si elle est détectée plus tard que l'estimation était mauvaise, l'partiellement exécuté les instructions sont ignorées et le pipeline commence avec la bonne direction, entraînant un retard.
Le temps qui est perdu dans le cas d'une succursale, les erreurs de prédiction est égal au nombre d'étapes dans le pipeline à partir de l'extraction de l'étape de l'exécution de la scène. Des microprocesseurs modernes ont tendance à avoir assez longue pipelines, de sorte que les erreurs de prédiction de retard est compris entre 10 et 20 cycles d'horloge. Plus le pipeline le plus grand est le besoin pour une bonne direction de la prédicteur.

Dans le cas des OP code, la première fois où le conditionnel, la direction générale prédicteur n'avons pas toutes les informations à la base de la prédiction, de sorte que la première fois, elle va choisir au hasard la prochaine instruction. Plus tard dans la boucle for, il peut de la base de la prédiction sur l'histoire.
Pour un tableau trié dans l'ordre croissant, il y a trois possibilités:
1. Tous les éléments sont de moins de 128
2. Tous les éléments sont supérieures à 128
3. Quelques nouveaux éléments sont à moins de 128 et plus tard il devient supérieure à 128
Supposons que le prédicteur sera supposons toujours que le véritable branche sur la première manche.

Ainsi, dans le premier cas, il prend toujours la vraie direction puisque, jusqu'ici, toutes ses prédictions sont correctes.
Dans le 2e cas, d'abord, il prédit que de mal, mais après quelques itérations, il va prédire correctement.
Dans le 3ème cas, il va d'abord prédire correctement jusqu'les éléments sont de moins de 128. Après quoi ce sera un échec pour un certain temps et le corriger lui-même lorsqu'il voit branche de prédiction de défaillance dans l'histoire.

Dans tous ces cas, l'échec sera trop moins en nombre et en conséquence, seulement quelques fois il sera nécessaire de jeter l'partiellement exécuté les instructions et commencez la bonne direction, ce qui entraîne moins de cycles de PROCESSEUR.

Mais dans le cas d'un hasard non triés tableau, la prédiction sera nécessaire de jeter l'partiellement exécuté les instructions et recommencer avec la branche correcte la plupart du temps, et donc le nombre de cycles CPU par rapport au tableau trié.
- comment sont deux instructions exécutées ensemble? est-ce fait avec différents cœurs du processeur ou de pipeline enseignement est intégré dans un seul cœur de processeur?
- Il est tout à l'intérieur d'une logique de base. Si vous êtes intéressé, c'est bien décrit par exemple dans Intel Logiciel Manuel du Développeur
InformationsquelleAutor Harsh Sharma
687

Une réponse officielle serait de
1. Intel - en Évitant le Coût de la Branche, les erreurs de prédiction de
2. Intel - Branche et de la Boucle de la Réorganisation afin de Prévenir Mispredicts
3. Articles scientifiques - direction de la prédiction de l'architecture de l'ordinateur
4. Livres: J. L. Hennessy, D. A. Patterson: architecture des ordinateurs: une approche quantitative
5. Articles dans des publications scientifiques: T. Y. Yeh, Y. N. Patt fait beaucoup de ces de la direction générale des prédictions.
Vous pouvez le voir sur cette belle diagramme pourquoi la direction de la prédicteur devient confus.

Chaque élément dans le code d'origine est une valeur aléatoire
```
data[c] = std::rand() % 256;
```
de sorte que le prédicteur va changer sur les côtés, comme le std::rand() coup.

D'autre part, une fois triés, les prédicteur sera la première à se déplacer vers un état de fortement de ne pas prendre et lors du changement des valeurs de la forte valeur prédictive sera dans trois courses à travers le changement de tout le chemin d'fortement de ne pas prendre fortement pris.

InformationsquelleAutor Surt
656

Dans la même ligne (je pense que cela n'a pas été mis en évidence par une réponse) il est bon de mentionner que parfois (spécialement dans les logiciels d'où la question de performance—comme dans le noyau Linux), vous pouvez trouver quelques si les déclarations comme suit:
```
if (likely( everything_is_ok ))
{
    /* Do something */
}
```
ou de même:
```
if (unlikely(very_improbable_condition))
{
    /* Do something */    
}
```
Les deux likely() et unlikely() sont en fait des macros qui sont définis en utilisant quelque chose comme la GCC est __builtin_expect pour aider le compilateur insérer la prédiction de code en faveur de la condition de prendre en compte les informations fournies par l'utilisateur. GCC supporte d'autres objets internes qui pourraient modifier le comportement du programme en cours d'exécution ou émettent de faibles niveau des instructions comme l'effacement de la mémoire cache, etc. Voir cette documentation qui va par le biais de la disposition du CCG les builtins.

Normalement, ce genre d'optimisations sont principalement utilisés dans les applications en temps réel ou les systèmes embarqués où le temps d'exécution de questions et il est essentiel. Par exemple, si vous êtes à la vérification de certaines condition d'erreur qui n'arrive qu'1/10000000 fois, alors pourquoi ne pas informer le compilateur à ce sujet? De cette façon, par défaut, la direction de la prévision suppose que la condition est fausse.

InformationsquelleAutor rkachach
626

Fréquemment utilisés opérations Booléennes en C++ produire de nombreuses filiales dans le programme compilé. Si ces branches sont à l'intérieur des boucles et sont difficiles à prévoir, ils peuvent ralentir l'exécution de manière significative. Les variables booléennes sont stockés en tant que 8 bits entiers avec la valeur 0 pour false et 1 pour true.

Variables booléennes sont fermement déterminés dans le sens que tous les opérateurs qui ont des variables Booléennes comme entrée de vérifier si les entrées ont une valeur autre que 0 ou 1, mais les opérateurs Booléens comme sortie peut produire aucune autre valeur que 0 ou 1. Cela rend les opérations avec des variables Booléennes comme entrée moins efficace que le nécessaire.
Examiner exemple:
```
bool a, b, c, d;
c = a && b;
d = a || b;
```
C'est généralement mis en œuvre par le compilateur de la manière suivante:
```
bool a, b, c, d;
if (a != 0) {
    if (b != 0) {
        c = 1;
    }
    else {
        goto CFALSE;
    }
}
else {
    CFALSE:
    c = 0;
}
if (a == 0) {
    if (b == 0) {
        d = 0;
    }
    else {
        goto DTRUE;
    }
}
else {
    DTRUE:
    d = 1;
}
```
Ce code est loin d'être optimale. Les branches peuvent prendre un certain temps en cas de mispredictions. Les opérations Booléennes peuvent être beaucoup plus efficace si elle est connue avec certitude que les opérandes ont pas d'autres valeurs que la 0 et 1. La raison pourquoi le compilateur ne pas faire une telle hypothèse est que les variables peuvent avoir d'autres valeurs que si elles ne sont pas initialisées ou provenir de sources inconnues. Le code ci-dessus peut être optimisé si a et b a été initialisé aux valeurs valides ou si ils viennent de la part des opérateurs qui produisent Booléenne sortie. L'optimisation de code ressemble à ceci:
```
char a = 0, b = 1, c, d;
c = a & b;
d = a | b;
```
char est utilisé à la place de bool afin de rendre possible l'usage des opérateurs au niveau du bit (& et |) à la place des opérateurs Booléens (&& et ||). Les opérateurs au niveau du bit sont de simples instructions ne prendre qu'un seul cycle d'horloge. L'opérateur OU (|) fonctionne même si a et b ont d'autres valeurs que la 0 ou 1. L'opérateur and (&) et le OU EXCLUSIF logique (^) peuvent donner des résultats incohérents si les opérandes ont d'autres valeurs que la 0 et 1.

~ ne peut pas être utilisé pour ne PAS. Au lieu de cela, vous pouvez faire un Booléen PAS sur une variable qui est connu pour être 0 ou 1 par utilise XOR avec 1:
```
bool a, b;
b = !a;
```
peut être optimisé pour:
```
char a = 0, b;
b = a ^ 1;
```
a && b ne peut pas être remplacé par a & b si b est une expression qui ne doit pas être évaluée si a est false ( && n'évaluera pas b, & va). De même, a || b ne peut pas être remplacé par a | b si b est une expression qui ne doit pas être évaluée si a est true.

L'aide d'opérateurs au niveau du bit est plus avantageux si les opérandes sont des variables que si les opérandes sont des comparaisons:
```
bool a; double x, y, z;
a = x > y && z < 5.0;
```
est optimale dans la plupart des cas (sauf si vous attendez la && expression pour générer un grand nombre de branche mispredictions).

InformationsquelleAutor Maciej
299

C'est sûr!...

Direction de la prévision fait de la logique de l'exécution plus lente, en raison de la commutation de ce qui se passe dans votre code! C'est comme si vous allez a droite de la rue ou d'une rue avec beaucoup de détours, pour assurer la droite que l'on va faire plus rapide!...

Si le tableau est trié, votre condition est fausse, à la première étape: data[c] >= 128, puis devient une véritable valeur pour l'ensemble de la voie à la fin de la rue. C'est la façon dont vous obtenez à la fin de la logique plus rapide. D'autre part, à l'aide d'un tableau non trié, vous avez besoin d'un lot de tournage et de transformation, ce qui rend votre code plus lent pour vous...

Regarde l'image que j'ai créée pour vous ci-dessous. La rue qui va être fini au plus vite?

Donc par programme, direction de la prévision fait que le processus d'être plus lent...

Aussi à la fin, il est bon de savoir que nous avons deux types de direction des prédictions que chacun va affecter votre code différemment:

1. Statique

2. Dynamique

Statique de la direction de la prévision est utilisé par le microprocesseur la première fois
une branche conditionnelle est rencontrés, et de la dynamique de la direction de la prévision est
utilisé pour les exécutions de la branche conditionnelle code.

Afin d'écrire efficacement votre code pour profiter de ces
les règles, lors de l'écriture de if-else ou commutateur déclarations, vérifier le plus
des cas fréquents d'abord, et de travailler progressivement jusqu'à la moins fréquente.
Boucles ne nécessitent pas nécessairement toute commande spéciale de code pour
statique de la direction de la prévision, car seule la condition de la boucle itérateur
est normalement utilisé.

InformationsquelleAutor Alireza
273

Cette question a déjà été répondu parfaitement à plusieurs reprises. Cependant, je voudrais attirer l'attention du groupe à encore une autre analyse intéressante.

Récemment cet exemple (modifié très légèrement) a également été utilisé comme un moyen de démontrer comment un morceau de code peuvent être présentés dans le programme lui-même sur Windows. Le long du chemin, l'auteur montre également comment utiliser les résultats pour déterminer si le code est de passer la plupart de son temps dans les deux triés & non triés cas. Enfin, la pièce montre également comment utiliser un peu connu de HAL (Couche d'Abstraction du Matériel) pour déterminer combien de branche les erreurs de prédiction qui se passe dans le non triés cas.

Le lien est ici:
http://www.geoffchappell.com/studies/windows/km/ntoskrnl/api/ex/profile/demo.htm
- C'est un article très intéressant (en fait, je viens de lire tout ça), mais comment fait-il répondre à la question?
- Je suis un peu déconcerté par votre question. Par exemple, ici, est une ligne à partir de ce morceau: When the input is unsorted, all the rest of the loop takes substantial time. But with sorted input, the processor is somehow able to spend not just less time in the body of the loop, meaning the buckets at offsets 0x18 and 0x1C, but vanishingly little time on the mechanism of looping. Auteur tente de discuter de profilage dans le contexte de code posté ici et dans le processus d'essayer d'expliquer pourquoi l'triés cas est donc beaucoup plus rapide.
InformationsquelleAutor ForeverLearning
196

Que ce qui a déjà été mentionné par d'autres, que derrière le mystère, c'est Direction De La Prédicteur.

Je ne suis pas d'essayer d'ajouter quelque chose, mais d'expliquer le concept d'une autre manière.
Il y a une introduction concise sur le wiki qui contient du texte et diagramme.
J'aime bien l'explication ci-dessous qui utilise un schéma d'élaborer la Branche Prédicteur de manière intuitive.

Dans l'architecture d'un ordinateur, d'une branche predictor est un
circuit numérique qui tente de deviner la façon dont une branche (par exemple un
si-alors-sinon de la structure) ira de l'avant c'est certain. L'
but de la succursale prédicteur est d'améliorer la circulation dans la
l'instruction du pipeline. Direction des prédicteurs jouent un rôle essentiel dans
la réalisation de très bonne performance dans de nombreux moderne en pipeline
microprocesseur architectures telles que x86.

Les deux sens de branchement est généralement mis en place avec un saut conditionnel
de l'instruction. Un saut conditionnel peut être "pas pris" et continuer
l'exécution de la première branche de code qui suit immédiatement
après un saut conditionnel, ou il peut être "pris" et de passer à une
autre endroit dans la mémoire de programme où la seconde branche de code est
stockée. Il n'est pas connu de façon certaine si un saut conditionnel sera
prises ou non prises jusqu'à ce que la condition a été calculé et la
saut conditionnel a passé l'étape de l'exécution de l'instruction
pipeline (voir fig. 1).

Basé sur le scénario décrit, j'ai écrit une animation de démonstration pour montrer comment les instructions sont exécutées dans un pipeline dans différentes situations.
1. Sans la Branche Prédicteur.
Sans direction de la prévision, le processeur devra attendre jusqu'à ce que le
une instruction de saut conditionnel a réussi à l'exécuter étape avant l'
prochaine instruction peut entrer dans l'étape fetch dans le pipeline.

L'exemple contient trois instructions et la première est une instruction de saut conditionnel. Les deux dernières instructions peut aller dans le pipeline jusqu'à ce que le saut conditionnel instruction est exécutée.

Il faudra 9 cycles d'horloge pour 3 instructions pour être achevé.
1. Utilisation Branche Predictor et de ne pas prendre un saut conditionnel. Supposons que le prédire est pas de prendre le saut conditionnel.
Il faudra 7 cycles d'horloge pour 3 instructions pour être achevé.
1. Utilisation Branche Predictor et de prendre un saut conditionnel. Supposons que le prédire est pas de prendre le saut conditionnel.
Il faudra 9 cycles d'horloge pour 3 instructions pour être achevé.

Le temps qui est perdu dans le cas d'une succursale, les erreurs de prédiction est égal à
le nombre d'étapes dans le pipeline à partir de l'étape d'extraction à l'
exécuter l'étape. Des microprocesseurs modernes ont tendance à avoir assez longue
les pipelines de sorte que les erreurs de prédiction de retard est compris entre 10 et 20 heures
les cycles. Par conséquent, la réalisation d'un pipeline augmente plus la nécessité d'une
de plus avancé en direction de la prédicteur.

Comme vous pouvez le voir, il semble que nous n'avons pas de raison de ne pas utiliser la Branche Prédicteur.

C'est assez simple, une démo qui précise les principes de base de la partie de la Branche Prédicteur. Si ces gifs sont ennuyeux, n'hésitez pas à les retirer de la réponse et les visiteurs peuvent également obtenir la démo de BranchPredictorDemo
- Presque aussi bon que l'Intel marketing animations, et ils étaient obsédés non seulement avec la direction de la prévision, mais de l'exécution des ordres, les deux stratégies "spéculative". La lecture de l'avant dans la mémoire et de stockage (séquentiel de pré-extraction de tampon) est également spéculative. Il ajoute tout.
InformationsquelleAutor Gearon
179

Direction de la prévision du gain!

Il est important de comprendre que les erreurs de prédiction de branche ne ralentit pas les programmes. Le coût de l'absence de prédiction est juste que si la branche de prédiction n'existait pas et vous avez attendu pour l'évaluation de l'expression de décider quel est le code à exécuter (plus d'explications dans le paragraphe suivant).
```
if (expression)
{
    //Run 1
} else {
    //Run 2
}
```
Dès qu'il y a un if-else \ switch déclaration, l'expression doit être évaluée afin de déterminer le bloc doit être exécutée. Dans le code assembleur généré par le compilateur, à condition branche instructions sont insérés.

Une branche d'instruction peut causer un ordinateur pour commencer l'exécution d'une autre séquence d'instruction et donc de s'écarter de son comportement par défaut de l'exécution des instructions dans l'ordre (c'est à dire si l'expression est fausse, le programme ignore le code de la if bloc) selon une condition, qui est l'évaluation de l'expression dans notre cas.

Cela étant dit, le compilateur essaie de prédire le résultat avant qu'il soit réellement évalué. Il va chercher les instructions de la if bloc, et si l'expression s'avère être vrai, alors merveilleux! Nous avons gagné du temps qu'il a fallu pour l'évaluer, et fait des progrès dans le code; si non, alors nous courons le mauvais code, le pipeline est vidé, et que le bloc est exécuté.

De visualisation:

Disons que vous avez besoin de choisir la voie 1 ou voie 2. En attente de votre partenaire pour vérifier la carte, vous vous êtes arrêté à ## et attendit, ou vous pouvez simplement choisir route1 et si vous avez de la chance (route 1 est la bonne route), puis une grande vous n'avez pas à attendre que votre partenaire, vérifiez la carte (vous avez enregistré le temps qu'il lui a fallu pour vérifier la carte), autrement, il vous suffira de tourner le dos.

Tandis que le rinçage des canalisations est super rapide, aujourd'hui, de prendre ce pari en vaut la peine. La prédiction de trier les données ou les données qui changent lentement est toujours plus facile et mieux que la prévision des changements rapides.
```
 O      Route 1  /-------------------------------
/|\             /
 |  ---------##/
/ \            \
                \
        Route 2  \--------------------------------
```
InformationsquelleAutor Tony
121

C'est à propos de la branche de prédiction. Quel est-il?
- Une branche prédicteur est l'une des plus anciennes de la performance à améliorer les techniques qui trouve encore de la pertinence dans les architectures modernes. Alors que la simple prédiction techniques de recherche rapide et l'efficacité de la puissance, ils présentent un haut taux d'erreurs de prédiction de.
- D'autre part, complexe, direction générale des prévisions –soit de neurones ou des variantes de deux niveau de la direction de la prévision –fournir une meilleure précision de la prédiction, mais ils consomment plus de puissance et de complexité augmente de façon exponentielle.
- En plus de cela, dans le complexe des techniques de prévision du temps pris pour prédire les branches est lui-même très élevé allant de 2 à 5 cycles –ce qui est comparable à la durée d'exécution réelle des branches.
- Direction de la prévision est essentiellement une optimisation (minimisation) problème où l'accent est mis sur pour atteindre le plus bas possible manquer taux, faible consommation d'énergie, et de faible complexité, avec un minimum de ressources.
Vraiment il y a trois différents types de branches:

Avant branches conditionnelles sur la base d'un run-time condition, le PC (program counter) est modifié pour pointer vers une adresse de l'avant dans le volet enseignement.

Arrière branches conditionnelles - le PC est modifié pour pointer vers l'arrière dans le volet enseignement. La direction générale est basée sur une condition, telle que la ramification vers l'arrière pour le début d'une boucle de programme lorsqu'un test à la fin de la boucle membres de la boucle doit être exécutée de nouveau.

Inconditionnel branches - ce qui inclut les sauts, la procédure d'appels et retours qui n'ont pas de condition spécifique. Par exemple, une instruction de saut inconditionnel peut être codé en langage d'assemblage comme simplement "jmp", et le volet enseignement doit être immédiatement dirigé vers la cible à l'emplacement indiqué par l'instruction de saut, alors qu'un saut conditionnel qui peut être codé comme "jmpne" redirige le volet enseignement que si le résultat d'une comparaison de deux valeurs dans une précédente "comparer" instructions indique les valeurs à ne pas être égal. (Segmenté schéma d'adressage utilisé par l'architecture x86 ajoute de la complexité, depuis les sauts peuvent être soit "proche" (à l'intérieur d'un segment) ou "loin" (en dehors du segment). Chaque type a des effets différents sur la branche des algorithmes de prédiction.)

Statique/dynamique de la Direction de la Prévision: Statique de la direction de la prévision est utilisé par le microprocesseur de la première fois qu'une branche conditionnelle est rencontrés, et les dynamiques de la branche de prédiction est utilisée pour les exécutions de la branche conditionnelle code.

Références:
InformationsquelleAutor Farhad
115

Outre le fait que la direction de la prévision peut vous ralentir, un tableau trié a un autre avantage:

Vous pouvez avoir une condition d'arrêt au lieu de la simple vérification de la valeur, de cette façon, vous n'en boucle sur les données pertinentes, et d'ignorer le reste.

La direction de la prévision manquera qu'une seule fois.
```
 //sort backwards (higher values first), may be in some other part of the code
 std::sort(data, data + arraySize, std::greater<int>());

 for (unsigned c = 0; c < arraySize; ++c) {
       if (data[c] < 128) {
              break;
       }
       sum += data[c];               
 }
```
- Droit, mais le coût d'installation de tri le tableau est O(N log N), de sorte que la rupture anticipée ne vous aidera pas si la seule raison pour laquelle vous de tri le tableau est d'être en mesure de briser tôt. Toutefois, si vous avez d'autres raisons de pré-trier le tableau, alors oui, c'est précieux.
- Dépend combien de fois vous de trier les données par rapport à combien de fois vous boucle sur elle. Le tri dans cet exemple est juste un exemple, il n'a pas à être juste avant la boucle
- Oui, c'est exactement la remarque que j'ai faite dans mon premier commentaire 🙂 Vous dites "La direction de la prévision manquera qu'une seule fois." Mais vous n'êtes pas compter le temps O(N log N) direction de la prévision manque à l'intérieur de l'algorithme de tri, qui est en fait plus grande que le O(N) direction de la prévision qui manque dans les ménagères de cas. Donc, vous devez utiliser l'intégralité des données triées O(log N) temps de pause, même (probablement plus proche de O(10 log N), en fonction de l'algorithme de tri, par exemple pour le tri rapide, en raison de défauts de cache -- mergesort est plus de cache-cohérent, de sorte que vous devez plus proche de O(2 log N) les usages de briser, même.)
- Une optimisation importante serait de ne faire que "la moitié d'un quicksort", le tri des éléments de moins que la cible de pivot de la valeur de 127 (en supposant que tout à moins de ou égal à, le tableau est trié après le pivot). Une fois que vous atteignez le pivot, la somme des éléments avant le pivot. Cela serait en O(N) temps de démarrage plutôt que de O(N log N), bien qu'il y aura encore beaucoup de la direction de la prévision manque, probablement de l'ordre de O(5 N) basé sur les chiffres que j'ai donné avant, puisque c'est la moitié d'un quicksort.
InformationsquelleAutor Yochai Timmer
112

Sur les BRAS, il n'y a pas de direction nécessaire, parce que chaque instruction a 4 bits champ de condition, qui est testé à coût zéro. Ceci élimine le besoin pour de courtes branches, et il n'y aurait pas de succursale de prédiction de succès. Par conséquent, la version triée irait plus lent que la version non triés sur le BRAS, à cause de la surcharge de tri. La boucle intérieure devrait ressembler à quelque chose comme ce qui suit:
```
MOV R0, #0     //R0 = sum = 0
MOV R1, #0     //R1 = c = 0
ADR R2, data   //R2 = addr of data array (put this instruction outside outer loop)
.inner_loop    //Inner loop branch label
    LDRB R3, [R2, R1]     //R3 = data[c]
    CMP R3, #128          //compare R3 to 128
    ADDGE R0, R0, R3      //if R3 >= 128, then sum += data[c] -- no branch needed!
    ADD R1, R1, #1        //c++
    CMP R1, #arraySize    //compare c to arraySize
    BLT inner_loop        //Branch to inner_loop if c < arraySize
```
- Dites-vous que chaque instruction peut être conditionnelle? Ainsi, plusieurs instructions à la GE suffixe peut être effectuée de manière séquentielle, sans modification de la valeur de R3 entre les deux?
- Oui, correct, chaque instruction peut être conditionnelle sur les BRAS, au moins dans le 32 bits et 64 bits des jeux d'instructions. Il y a consacré 4 bits champ de condition. Vous pouvez avoir plusieurs instructions dans une rangée avec le même état, mais à un certain point, si les chances de la condition d'être faux est non-négligeable, alors il est plus efficace d'ajouter une branche.
- L'autre innovation dans les BRAS, c'est l'ajout de l'instruction suffixe, également en option sur (presque) toutes les instructions, qui en cas d'absence, empêche les instructions de modifier les bits d'état (à l'exception de l'instruction CMP, dont le travail est de définir les bits d'état, de sorte qu'il n'a pas besoin de S suffixe). Ceci permet d'éviter des CMP instructions dans de nombreux cas, aussi longtemps que la comparaison est faite avec zéro ou similaires (par exemple. SUBS R0, R0, #1 jeu le Z (Zéro) bits lorsque R0 atteint zéro). Les conditions et le suffixe S engager zéro frais généraux. C'est une très belle ISA.
- Ne pas ajouter le suffixe S vous permet d'avoir plusieurs instructions conditionnelles dans une rangée, sans se soucier que l'un d'eux peut changer les bits d'état qui, autrement, pourrait avoir l'effet secondaire de sauter le reste des instructions conditionnelles.
InformationsquelleAutor Luke Hutchison
103

Triés tableaux sont traitées plus rapidement que un tableau non-trié, en raison d'un phénomène appelé la direction de la prévision.

La branche predictor est un circuit numérique (dans l'architecture de l'ordinateur) en essayant de prédire quelle direction aller, l'amélioration de la circulation dans l'instruction de pipeline. Le circuit/ordinateur prédit la prochaine étape et l'exécute.

Faire une mauvaise prédiction conduit à revenir à l'étape précédente, et de l'exécution avec une autre prédiction. En supposant que la prédiction est correcte, le code de continuer à l'étape suivante. Une mauvaise prédiction des résultats en répétant la même étape, jusqu'à ce qu'une bonne prédiction se produit.

La réponse à votre question est très simple.

Dans un tableau non trié, l'ordinateur fait plusieurs prédictions, ce qui augmente le risque d'erreurs.
Alors que, dans un tableau trié, l'ordinateur fait moins de prédictions, de réduire le risque d'erreurs.
Faire plus de prédictions nécessite plus de temps.

Tableau Trié: Droit De La Route
____________________________________________________________________________________
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT

Des Ménagères De Tableau: Courbes De La Route
```
______   ________
|     |__|
```
Direction de la prévision: Deviner/prédire où la route est droite et le suivre sans vérification de
```
___________________________________________ Straight road
 |_________________________________________|Longer road
```
Bien que les deux routes atteindre la même destination, la route droite est plus courte, et l'autre est plus longue. Si vous choisissez l'autre par erreur, il n'y a pas de retour en arrière, et donc vous perdrez un peu de temps supplémentaire si vous choisissez le long de la route. Ceci est similaire à ce qui se passe dans l'ordinateur, et j'espère que cela vous a aidé à mieux comprendre.

Aussi je veux citer @Simon_Weaver de commentaires:

Il ne fait pas moins de prédictions - il fait moins de prédictions erronées. Il a encore à prévoir pour chaque passage dans la boucle...
- "Dans des mots simples" - je trouve votre explication moins simple que les autres, avec des trains et beaucoup moins précis que celui de toute autre réponse, bien que je ne suis pas un débutant. Je suis très curieux de savoir pourquoi il y a tellement de upvotes, peut-être l'un des futurs upvoters peut me dire?
- c'est probablement vraiment d'opinion en fonction, je me suis trouvé assez bon pour upvote, c'est de l'ofc pas aussi précis que les autres exemples, c'est le point essentiel: donner la réponse (que nous pouvons tous être d'accord de branche-prédiction est en cause ici) sans en avoir les lecteurs à aller parmi les explications techniques, comme les autres l'ont fait (très bien). Et je pense qu'il a assez bien.
- Il ne fait pas moins de prédictions - il fait moins de prédictions erronées. Il a encore à prévoir pour chaque passage dans la boucle.
- Oh la bonne, mon mal, je vous remercie @Simon_Weaver, je vais corriger ça dans quelques temps, ou s'il vous plaît pouvez certains de vos éditer et puis je vais approuver, merci à l'avance...
InformationsquelleAutor Omkaar.K
25

La prise en charge par d'autres réponses que l'on doit trier les données ne sont pas correctes.

Le code suivant ne permet pas de trier le tableau d'ensemble, mais seulement 200-élément segments de celle-ci, et ainsi fonctionne le plus rapide.

Tri k-élément sections complète le pré-traitement dans le temps linéaire, O(n), plutôt que de la O(n.log(n)) temps nécessaire pour trier le tableau d'ensemble.
```
#include <algorithm>
#include <ctime>
#include <iostream>

int main() {
    int data[32768]; const int l = sizeof data / sizeof data[0];

    for (unsigned c = 0; c < l; ++c)
        data[c] = std::rand() % 256;

    //sort 200-element segments, not the whole array
    for (unsigned c = 0; c + 200 <= l; c += 200)
        std::sort(&data[c], &data[c + 200]);

    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i < 100000; ++i) {
        for (unsigned c = 0; c < sizeof data / sizeof(int); ++c) {
            if (data[c] >= 128)
                sum += data[c];
        }
    }

    std::cout << static_cast<double>(clock() - start) / CLOCKS_PER_SEC << std::endl;
    std::cout << "sum = " << sum << std::endl;
}
```
Cela aussi "prouve" qu'il n'a rien à voir avec un quelconque problème algorithmique comme ordre de tri, et c'est en effet la direction de la prévision.
- Je ne vois vraiment pas comment cela prouve quoi que ce soit? La seule chose que vous avez montré, c'est que "ne pas faire tout le travail de tri de l'ensemble de la baie prend moins de temps que le tri de l'ensemble de la baie". Votre réclamation que cela "fonctionne également plus rapide" est très dépendants de l'architecture. Voir ma réponse sur la façon dont cela fonctionne sur les BRAS. PS vous pourrait rendre votre code plus rapide sur la non-BRAS architectures en mettant la somme à l'intérieur de la 200-bloc d'élément de boucle, de tri dans le sens inverse, puis à l'aide de Yochai Timmer proposition de la rupture une fois que vous obtenez une valeur de plage. De cette façon, chaque 200-bloc d'élément sommation peut être résilié de façon anticipée.
InformationsquelleAutor user2297550

Vous devez vous connecter pour publier un commentaire.

Ce qui est de la Branche de Prédiction?

Comme évoqué à partir de ci-dessus, le coupable est-ce si-déclaration:

De visualisation: