OpenCL vs performance OpenMP

Ont été les études comparant OpenCL pour OpenMP la performance? Plus précisément je suis intéressé dans les frais généraux de lancer des discussions avec OpenCL, par exemple, si l'on se décomposer le domaine dans un très grand nombre d'éléments de travail (dirigés chacun par un thread de faire un petit travail) par rapport à des poids plus lourd threads OpenMP étaient le domaine a été décomposé en sous-domaines dont le nombre est égal au nombre de cœurs.

Il semble que la prise en charge d'OpenCL modèle de programmation plus ciblée vers massivement parallèle des frites (Gpu, par exemple), plutôt que de Processeurs qui ont de moins en moins, mais de plus en plus puissants cœurs.

Peut OpenCL être un moyen efficace de remplacement pour OpenMP?

Je serais aussi intéressé de savoir si le/lors de l'utilisation d'OpenMP et OpenCL ensemble est efficace. OpenCL est thread-safe (à l'exception de la clSetKernelArg() la méthode), de sorte qu'il semble, comme peut-être il ya de la place pour profiter de ces deux technologies.
Si votre définition de "efficace" comprend la lisibilité et de l'évolution, alors la réponse doit être "non". OpenCL ne peut pas être vissé sur le code existant dans la façon dont OpenMP peut, et il a une grande syntaxique dilatation par rapport à OpenMP. D'autre part, l'écriture OpenMP code qui permet d'utiliser efficacement une hiérarchie de mémoire est généralement beaucoup moins lisible que le même en OpenCL.
Je peux bien et scientifiques de comparaison entre OpenMP et OpenCL peut être trouvé ici: Comparaison des OpenMP & OpenCL Parallèle les Technologies de Traitement par Krishnahari Thouti et S. R. Sathe
Votre question doit être réduit un peu. Vous êtes à la recherche pour une comparaison de GPU vs multi-thread CPU, ou OpenMP vs OpenCL? Afin de comparer les deux langues, ils ont vraiment besoin d'être en cours d'exécution sur la même architecture. Sinon, c'est des pommes et des oranges.

InformationsquelleAutor Robert | 2011-08-31

gpgpu opencl

26

Les points de repère que j'ai vu indiquent que OpenCL et OpenMP en cours d'exécution sur le même matériel sont généralement comparable à la performance, ou OpenMP a des performances légèrement meilleures. Cependant, je n'ai pas vu les points de repère que je considère concluante, parce qu'ils ont été le plus souvent défaut dans les explications détaillées de leur méthodologie. Cependant, il ya quelques choses à considérer:
- OpenCL aura toujours certains frais généraux supplémentaires lors de la compilation du noyau lors de l'exécution. Aucun point de repère ou les besoins de liste cette fois séparément, l'utilisation de pré-compilé en natif, les grains, ou courir assez longtemps que la compilation du noyau est insignifiant.
- OpenCL implémentations varient. GPU vendeurs tels que NVidia n'ont aucun intérêt à s'assurer que leur PROCESSEUR OpenCL mise en œuvre est aussi rapide que possible. Aucun des OpenCL implémentations sont susceptibles d'être aussi mature qu'un bon OpenMP mise en œuvre.
- L'OpenCL spec dit rien sur le fond à propos de la façon dont PROCESSEUR implémentations utilisent le filetage sous le capot, de sorte que toute la question de savoir si le filetage est relativement léger ou poids lourd sera nécessairement spécifiques à l'implémentation.
- Lorsque vous êtes en cours d'exécution OpenCL code sur un CPU, vos éléments de travail n'ont pas à être minuscule et nombreux. Vous pouvez abattre le problème de la même manière que vous le feriez pour OpenMP.
Même si OpenCL a un peu plus de surcharge, il peut y avoir d'autres raisons de le préférer.
- Évidemment, si votre code peut faire de la bonne utilisation d'un GPU, vous voulez avoir un OpenCL mise en œuvre. OpenCL performance sur un CPU peut être assez bon que ce n'est pas la peine aussi de maintenir un OpenMP de secours, un chemin de code pour les utilisateurs qui n'ont pas de Gpu puissants.
- Un bon PROCESSEUR OpenCL mise en œuvre signifie que vous obtiendrez automatiquement le bénéfice de ce jeu d'instructions des extensions de la CPU et de la prise en charge d'OpenCL l'appui à l'exécution. Avec OpenMP, vous avez à faire un travail supplémentaire pour s'assurer que votre exécutable comprend à la fois SSEx et AVX chemins de code.
- OpenCL vecteur de primitives peuvent vous aider à exprimer certains explicite du parallélisme sans la portabilité et lisibilité des sacrifices que vous obtenez de l'aide de l'ESS intrinsèques.
- Je me demande si l'utilisateur-sans-GPU cas est vraiment pratique. Au lieu de maintenir OpenMP de secours code, vous aurez à maintenir OpenCL secours de code, comme les Processeurs ne sont pas compatibles 2D de travail local tailles, ont des problèmes de __la mémoire locale et autres joyeusetés. Pas beaucoup gagné si vous avez optimisé GPU noyaux.
- Pourquoi pensez-vous que le PROCESSEUR implémentations ne peut pas soutenir 2D groupe de travail local de tailles ou de la mémoire locale? Sur un CPU, de la mémoire cache est géré par le matériel plutôt que logiciel, de sorte que la seule différence entre global et local de la mémoire serait de savoir si le verrouillage est nécessaire pour y accéder. Le groupe de travail de tailles reviendrait à planificateur de conseils pour NUMA systèmes. Oui, beaucoup de l'effort d'optimisation mis en OpenCL code pour le faire fonctionner correctement sur un GPU n'affecte pas le rendement sur le CPU, mais il ne va pas se casser le code, soit. Tout noyau qui va s'exécuter sur un GPU peut s'exécuter sur la conformité de la mise en œuvre CPU.
- Juste un plus que l'utilisation de la optimisations comme l'explicite l'utilisation de la mémoire locale du sens pour les GPU. Sur les Processeurs, ce optimisations "négativement" affecter les performances, au moins lors de l'utilisation de l'Intel OpenCL mise en œuvre pour les Processeurs x86.
- Peut-être que le Intel SDK fonctionne de cette manière. Apple ne le fait pas. CL_DEVICE_MAX_WORK_ITEM_SIZES pour mon Core2Duo sous Mac OS 10.6 a {1,1,1}, sous 10.7, il est au moins {1024,1,1}, mais pas encore en 2D. Aussi, tout noyau avec plus d'une variable locale ferait le compilateur donner sous 10.6 - je dirais que la rupture du code.
- Vous pouvez avoir OpenCL code optimisé pour les Processeurs, ne pas utiliser de la mémoire locale et ainsi de suite - avec des performances comparables à OpenMP. Comme les grains sont généralement de petite taille, vous pouvez toujours partager le code et l'utiliser pour atteindre une plus grande performance si le système est utilisable GPU, de commutation juste le noyau (pour un optimisé pour le GPU) et quelques arguments que le groupe de travail de taille. Cela parle de ne pas conserver la solution de repli code - une grande partie est dans le code et c'est partagé.
InformationsquelleAutor user57368
7

J'ai un programme qui a le choix soit d'utiliser openCL ou openMP sur certains des principaux goulets d'étranglement, fondamentalement ajoutant des vecteurs et de l'exécution de réductions.

Dans mon cas, openMP prend 13 secondes où openCL prend 10 secondes, sur le CPU. Intel I5.

La manière la plus rapide de configuration pour moi jusqu'à présent est d'ajouter les vecteurs à l'aide de GPU openCL, et ne les réductions sur openMP me déprimer à 7 secondes. Quand je fais de la réduction du openCL noyau, sur GPU, il faut un total de 8 secondes.

Donc, de mon expérience, je dirais peut-être que ça dépend de l'utilisation, et bien vous pouvez optimiser votre openCL noyau.
- Qu'entendez-vous exactement par "réduction"?
- Une "Réduction", c'est quand vous prenez un bon nombre d'éléments (par exemple, une longueur de 10 000 tableau, une[0] par[9999]), puis de traiter les données à une plus petite. Par exemple: essayer de comprendre le "maximum" le nombre dans le tableau, ou la valeur de a[0] + a[1] + a[2] + ... un[9999]. Le plus commun des réductions sont "Max", "Min" et "Ajouter", mais le concept de traitement de lots et les lots de données en parallèle à la sortie d'un numéro unique (ou, à tout le moins: moins de nombres qui représentent l'ensemble de l') est une commune du "motif" de la programmation parallèle.
InformationsquelleAutor MVTC

Vous devez vous connecter pour publier un commentaire.