CUDA: Combien de threads simultanés au total?

J'ai une GeForce GTX 580, et je tiens à faire une déclaration sur le nombre total de threads qui peuvent (dans l'idéal), en fait exécuter en parallèle, à comparer avec 2 ou 4 CPU multi-coeurs.

deviceQuery donne-moi la suite, éventuellement, des informations pertinentes:

CUDA Capability Major/Minor version number:    2.0
(16) Multiprocessors x (32) CUDA Cores/MP:     512 CUDA 
Maximum number of threads per block:           1024

Je pense que j'ai entendu dire que chaque CUDA core pouvez exécuter une chaine en parallèle, et qu'une chaine est de 32 threads. Serait-il correct de dire que la carte peut fonctionner 512*32 = 16384 threads en parallèle, ou suis-je et le CUDA cores sont en quelque sorte pas vraiment en parallèle?

Afin de s'appuyer sur @CygnusX1 dit, n'oubliez pas que SIMD est de 128 (et maintenant de 256 bits de large. Donc, pour la simple précision, on pourrait dire que 1 CPU core ressemble à 8 GPU de base, faire une 10-core CPU ressembler à un 80 core du GPU. Notez que l'Hyperthreading ne pas profiter de SIMD sur les deux fils. Ensuite, nous devons tenir compte de la vitesse d'horloge et de travail par l'horloge de l'avantage de la CPU de base. Donc, la seule façon de mesurer la performance relative est avec une charge de travail.
gamedev.stackexchange.com/questions/17243/...

InformationsquelleAutor Eskil | 2011-06-27

cuda gpgpu

57

La GTX 580 pouvez avoir 16 * 48 simultanées de funes (32 fils de chaque) en cours d'exécution à la fois. C'est-à 16 multiprocesseurs (SMs) * 48 résident chaînes par SM * 32 threads par warp = 24,576 threads.

Ne pas confondre, de simultanéité et de débit. Le nombre ci-dessus est le nombre maximal de threads dont les ressources peuvent être stockées sur la puce simultanément -- le nombre qui peut être résident. Dans CUDA termes, nous faisons également appel à ce maximum occupation. Le matériel bascule entre les déforme en permanence pour aider à couvrir ou de "cacher" le (grand) temps de latence d'accès à la mémoire ainsi que le (petit) temps de latence de l'arithmétique des pipelines.

Alors que chaque SM peut avoir 48 résident de funes, il ne peut donner des instructions à partir d'un petit nombre (en moyenne entre 1 et 2 pour les GTX 580, mais cela dépend du programme d'instruction de mélange) de la chaîne à chaque cycle d'horloge.

Alors vous êtes probablement mieux de comparer le débit, qui est déterminée par la disposition des unités d'exécution et la façon dont le matériel est capable d'effectuer multi-problème. Sur GTX580, il y a 512 FMA unités d'exécution, mais aussi nombre entier de parts, la fonction spéciale d'unités de mémoire unités d'enseignement, etc, qui peut être à double émis (par exemple, problème indépendant instructions à partir de 2 chaînes simultanément) dans diverses combinaisons.

En tenant compte de tous les ci-dessus est trop difficile, cependant, de sorte que la plupart des gens comparer deux indicateurs:
1. Pic GFLOP/s (qui pour la GTX 580 est de 512 FMA unités * 2 flops par FMA * 1544e6 cycles/seconde = 1581.1 GFLOP/s (simple précision))
2. Débit mesuré sur l'application qui vous intéresse.
La comparaison la plus importante est toujours mesurée à l'horloge murale sur une application réelle.
- Merci. Pourquoi le nombre de CUDA Cores (512) pas le même que le nombre de connexions simultanées funes (16*48 = 768) ? Il aurait plus de sens si elle était de 512 Cuda Cores * 48 threads par warp = 24576 threads. Vous assurer de ne pas 48 threads par warp?
- Il y a 32 threads par warp. C'est une constante dans tous les cuda de la carte à partir de maintenant.
- oui, je suis positif. Vous devez être prudent parce que je pense que vous confondez la simultanéité et de débit. J'ai mis à jour ma réponse...
- Merci beaucoup pour cette explication claire.
- Environ combien de fois (ordres de grandeur?) speedup voulez-vous obtenir si vous avez transféré quelque chose qui pourrait être parallélisée, disons par exemple, la résolution numérique d'une équation différentielle partielle, de s'exécuter sur un seul thread CPU (c'est à dire pas parallélisé) dans un programme écrit dans un lowe-niveau de langue à l'exécution sur une GTX 580 avec CUDA ou OpenCL code?
- Cela dépend beaucoup sur le CPU et surtout le problème et de vos mise en œuvre. Je sais, anoyingly vauge réponse, mais n'oubliez pas que le cpu et gpu sont très différentes. dans le pire des cas, si votre problème est très à la mémoire intesive ou de branchement, et vous avez déjà mis en oeuvre avec vecteur des opérations (SIMD), alors vous ferez l'expérience d'un même pire performance.
InformationsquelleAutor harrism
9

Il y a certains pièges que vous pouvez tomber en en faisant la comparaison de 2 ou 4 Processeurs core:
- Le nombre de threads simultanés ne correspond pas au nombre de threads qui fait exécuter en parallèle. Bien sûr, vous pouvez lancer 24576 threads simultanément sur la GTX 580, mais la valeur optimale est dans la plupart des cas inférieur.
- Un 2 ou un 4-core CPU peut avoir arbitraire nombre de threads simultanés! De la même manière qu'avec les GPU, à partir d'un certain moment ajouter d'autres threads ne va pas aider, ou même il peut ralentir.
- Un "CUDA core" est un scalaire unique unité de traitement, alors que les processeurs core est généralement un plus grand chose, contenant par exemple un 4 de l'échelle de l'unité SIMD. Pour comparer des pommes avec des pommes, vous devez multiplier le nombre de processus annoncés cœurs de PROCESSEUR par 4 pour correspondre à ce que NVIDIA appelle un noyau.
- CPU supporte l'hyperthreading, qui permet à une seule base de processus 2 threads simultanément dans un chemin de lumière. À cause de cela, un système d'exploitation peut effectivement voir 2 fois plus de "logique cœurs" que le matériel cœurs.
Pour résumer: Pour une comparaison équitable, votre 4-core CPU peut exécuter 32 "scalaire threads simultanément, en raison de SIMD et l'hyperthreading.
- Ne pas l'hyperthreading montrer un cœur que deux au lieu de quatre?
- Je me suis souvenu de la valeur 4, mais maintenant, quand je l'ai vérifié, il semble que vous êtes de droite. Je corrige la position des mains.
- dire qu'un PROCESSEUR peut avoir arbitraire peut threads simultanés n'est pas une comparaison équitable pour le GPU occupation calcul de 24,576 threads. La raison en est que le GPU dispose de suffisamment de ressources sur puce ont 24,576 fils résidant simultanément. Cela signifie qu'il peut basculer entre ceux qui résident en chaines sans déplacer les données de loin ou de sur - puce. Les processeurs ont beaucoup plus de ressources limitées sur puce; par conséquent, alors qu'ils peuvent soutenir un nombre arbitraire de "concurrent" threads les threads ne sont pas tous les résidents sur puce; plus de 2 par cœur, il faut aller au contexte dans et hors de registres.
- Je suis d'accord que d'autres threads pour exiger le déplacement de contexte et de registres, mais il peut encore atterrir dans un local L1 ou L2 cache (je crois que ceux-ci sont maintenant sur puce, non?). Je ne sais pas combien de threads peuvent être resté là, mais certainement plus de 2 si elles sont petites. Je suis d'accord, cependant, que tous les threads ne peuvent pas être gérés par le matériel, c'est pourquoi j'ai ensuite, de parler de SIMD et l'hyperthreading.
- Donc 24576 est juste le nombre de threads "stockés" sur la puce, et non le nombre de threads réellement s'exécuter en même temps. Mais combien peut s'exécuter en même temps? Ou est le point que la réponse à cette question serait tout simplement être trompeuses lors de l'examen de la performance?
- Le nombre de threads qui s'exécutent en parallèle correspond au nombre de CUDA cores (512 dans votre cas). Cependant, pendant longtemps de l'accès à la mémoire (par exemple, de l'accès à la mémoire, ce qui peut prendre des centaines de cycles d'horloge), de nouvelles discussions sont affectés à la même cœurs par le matériel. C'est pourquoi il est généralement utile de réellement lancer plus de threads que de cœurs.
- En fait, même ce n'est pas tout à fait à droite (qui est pourquoi la réponse à cette question est si dur). Nouveaux Gpu ont des quantités croissantes de multi-numéro-un seul multiprocesseur peut donner des instructions à partir de plusieurs chaînes simultanément. Par exemple, la SM dans de la GTX580 peut émettre 2 16-à l'échelle des opérations mathématiques, une mémoire LD/ST, et un tex op dans le 1er cycle. Il est donc possible d'exécuter jusqu'à 2x plus de nombreuses instructions qu'il y a de l'accord SPs. Mais dans la pratique, il n'est pas commun à maintenir un IPC > 2 sur Fermi. Je voudrais encore affirmer que depuis le matériel passe constamment tous les résidents threads les threads sont "en cours d'exécution".
- Cette réponse n'est pas tout à fait juste - Pour comparer un CPU, un GPU, il vous suffit de regarder le max FLOPS pour le type de données et de l'opération en question. Seul point, point double, entier et les performances de fonctionnement peut varier largement sur des architectures différentes (par exemple, AVX est un 8 à l'échelle unité SIMD. L'ESS est de 4). Si vous voulez comparer des pommes avec des pommes, regarder le pic de FLOPs. En comparant le nombre de threads entre le CPU au GPU est des pommes et des oranges.
- La question est de savoir comment fil compter sur un seul appareil peut être comparé à un autre. Ma comparaison est plus juste que celle donnée dans la question. Mais si vous prétendez que je suis à comparer des pommes à des organes, je vais vous dire comparer des pommes avec des bananes. Il n'est pas 100% juste comparaison. En comparant FLOPs peut être trompeur: il ignore la mémoire des coûts d'accès, il ignore le SIMD largeur (plus de largeur, plus les threads ont tendance à rester au repos pendant les branches), etc.
- La bonne réponse. Mais comment avez-vous trouver la largeur de l'unité SIMD? Je ne le trouve pas dans mon CPU (i7 3770). Je suis en manque de quelque chose.
- Cela dépend de la pris en charge vecteur des instructions données par votre processeur. Typique des instructions SSE: (128 bits), AVX2 (256 bits) et AVX512 (512 bits). En supposant que vous travaillez avec 32-bit de flotteurs, c'est 4 à l'échelle de l'/8-large/16-large instructions. Intel spec pour le i7 3770 montre l'ESS et AVX de soutien, mais pas AVX2.
InformationsquelleAutor CygnusX1
0

Je réalise que c'est un peu tard, mais j'ai pensé que je voudrais l'aider de toute façon. À partir de la page 10 le CUDA Fermi architecture tutorial:

Chaque SM dispose de deux
warp planificateurs et les deux instructions d'expédition des unités, permettant aux deux chaînes à être émis et exécutés simultanément.

Pour moi, cela signifie que signifie que chaque SM peut avoir 2*32=64 threads qui s'exécutent simultanément. Je ne sais pas si cela signifie que le GPU peut avoir un total de 16*64=1024 threads qui s'exécutent simultanément.

InformationsquelleAutor Mitch

Vous devez vous connecter pour publier un commentaire.