Comment faites-vous profil & amp; Optimiser les noyaux CUDA?

Je suis un peu familiarisé avec le CUDA visual profiler et l'occupation de la feuille de calcul, bien que je ne suis probablement pas en tirant parti de leur ainsi que j'ai pu. Profilage & optimisation de code CUDA n'est pas comme le profilage & optimisation de code qui s'exécute sur un PROCESSEUR. Donc, je suis l'espoir d'apprendre de vos expériences sur la façon d'obtenir les la plupart hors de mon code.

Il y avait un post récemment à la recherche pour le meilleur code possible d'identifier auto numéroset j'ai fourni un CUDA mise en œuvre. Je ne suis pas convaincu que ce code est aussi rapide comme il peut être, mais je suis à une perte de comprendre à la fois ce que les bonnes questions soient et quel outil je peux obtenir les réponses.

Comment pouvez-vous identifier des façons de rendre vos noyaux CUDA effectuer plus rapidement?

source d'informationauteur