Poussée à l'intérieur d'utilisateur écrit noyaux

Je suis un newbie à la Poussée. Je vois que tous Poussée des présentations et des exemples montrent le code hôte.

Je voudrais savoir si je peux passer un device_vector à mon propre noyau? Comment?
Si oui, quelles sont les activités autorisées à l'intérieur du noyau/code de l'appareil?

InformationsquelleAutor Ashwin Nanjappa | 2011-04-01

cuda thrust

48

Comme il a été écrit à l'origine, la Poussée est purement un côté hôte de l'abstraction. Il ne peut pas être utilisé à l'intérieur du grain. Vous pouvez transmettre la mémoire de l'appareil encapsulé à l'intérieur d'un thrust::device_vector à votre propre noyau, comme ceci:
```
thrust::device_vector< Foo > fooVector;
//Do something thrust-y with fooVector

Foo* fooArray = thrust::raw_pointer_cast( &fooVector[0] );

//Pass raw array and its size to kernel
someKernelCall<<< x, y >>>( fooArray, fooVector.size() );
```
et vous pouvez également utiliser un dispositif de mémoire non allouée par la poussée au sein de la poussée des algorithmes par l'instanciation d'une poussée::device_ptr avec le strict cuda pointeur de la mémoire de l'appareil.

Édité quatre ans et demi plus tard d'ajouter que, comme par @JackOLantern réponse de la poussée de 1,8 ajoute une exécution séquentielle des politiques qui signifie que vous pouvez exécuter à thread unique versions de poussée du alogrithms sur l'appareil. Notez qu'il n'est toujours pas possible de passer directement d'une poussée de l'appareil d'un vecteur du noyau et du dispositif de vecteurs ne peuvent pas être directement utilisés dans le code de l'appareil.

Noter qu'il est également possible d'utiliser la thrust::device politique d'exécution, dans certains cas, d'avoir en parallèle de la poussée de l'exécution lancé par un noyau comme un enfant de la grille. Cela nécessite de compilation séparée/appareil de liaison et du matériel qui prend en charge dynamique de parallélisme. Je ne suis pas certain que ce soit réellement pris en charge dans tous poussée des algorithmes ou pas, mais certainement fonctionne avec certains.
- talonmies de Sorte qu'il n'est pas possible de remplir de vecteur de conteneurs sur le GPU maintenant?
- il est possible. dans talonmies exemple, someKernelCall pouvez modifier le fooArray. Notez que fooArray correspond aux données contenues dans fooVector.
InformationsquelleAutor talonmies

C'est une mise à jour de ma réponse précédente.

De départ de la Poussée 1.8.1, CUDA Poussée primitives peuvent être combinés avec les thrust::device l'exécution de la politique pour s'exécuter en parallèle au sein d'un seul CUDA fil exploitation de CUDA dynamique parallélisme. Ci-dessous, un exemple est rapporté.

#include <stdio.h>
#include <thrust/reduce.h>
#include <thrust/execution_policy.h>
#include "TimingGPU.cuh"
#include "Utilities.cuh"
#define BLOCKSIZE_1D    256
#define BLOCKSIZE_2D_X  32
#define BLOCKSIZE_2D_Y  32
/*************************/
/* TEST KERNEL FUNCTIONS */
/*************************/
__global__ void test1(const float * __restrict__ d_data, float * __restrict__ d_results, const int Nrows, const int Ncols) {
const unsigned int tid = threadIdx.x + blockDim.x * blockIdx.x;
if (tid < Nrows) d_results[tid] = thrust::reduce(thrust::seq, d_data + tid * Ncols, d_data + (tid + 1) * Ncols);
}
__global__ void test2(const float * __restrict__ d_data, float * __restrict__ d_results, const int Nrows, const int Ncols) {
const unsigned int tid = threadIdx.x + blockDim.x * blockIdx.x;
if (tid < Nrows) d_results[tid] = thrust::reduce(thrust::device, d_data + tid * Ncols, d_data + (tid + 1) * Ncols);
}
/********/
/* MAIN */
/********/
int main() {
const int Nrows = 64;
const int Ncols = 2048;
gpuErrchk(cudaFree(0));
//   size_t DevQueue;
//   gpuErrchk(cudaDeviceGetLimit(&DevQueue, cudaLimitDevRuntimePendingLaunchCount));
//   DevQueue *= 128;
//   gpuErrchk(cudaDeviceSetLimit(cudaLimitDevRuntimePendingLaunchCount, DevQueue));
float *h_data       = (float *)malloc(Nrows * Ncols * sizeof(float));
float *h_results    = (float *)malloc(Nrows *         sizeof(float));
float *h_results1   = (float *)malloc(Nrows *         sizeof(float));
float *h_results2   = (float *)malloc(Nrows *         sizeof(float));
float sum = 0.f;
for (int i=0; i<Nrows; i++) {
h_results[i] = 0.f;
for (int j=0; j<Ncols; j++) {
h_data[i*Ncols+j] = i;
h_results[i] = h_results[i] + h_data[i*Ncols+j];
}
}
TimingGPU timerGPU;
float *d_data;          gpuErrchk(cudaMalloc((void**)&d_data,     Nrows * Ncols * sizeof(float)));
float *d_results1;      gpuErrchk(cudaMalloc((void**)&d_results1, Nrows         * sizeof(float)));
float *d_results2;      gpuErrchk(cudaMalloc((void**)&d_results2, Nrows         * sizeof(float)));
gpuErrchk(cudaMemcpy(d_data, h_data, Nrows * Ncols * sizeof(float), cudaMemcpyHostToDevice));
timerGPU.StartCounter();
test1<<<iDivUp(Nrows, BLOCKSIZE_1D), BLOCKSIZE_1D>>>(d_data, d_results1, Nrows, Ncols);
gpuErrchk(cudaPeekAtLastError());
gpuErrchk(cudaDeviceSynchronize());
printf("Timing approach nr. 1 = %f\n", timerGPU.GetCounter());
gpuErrchk(cudaMemcpy(h_results1, d_results1, Nrows * sizeof(float), cudaMemcpyDeviceToHost));
for (int i=0; i<Nrows; i++) {
if (h_results1[i] != h_results[i]) {
printf("Approach nr. 1; Error at i = %i; h_results1 = %f; h_results = %f", i, h_results1[i], h_results[i]);
return 0;
}
}
timerGPU.StartCounter();
test2<<<iDivUp(Nrows, BLOCKSIZE_1D), BLOCKSIZE_1D>>>(d_data, d_results1, Nrows, Ncols);
gpuErrchk(cudaPeekAtLastError());
gpuErrchk(cudaDeviceSynchronize());
printf("Timing approach nr. 2 = %f\n", timerGPU.GetCounter());
gpuErrchk(cudaMemcpy(h_results1, d_results1, Nrows * sizeof(float), cudaMemcpyDeviceToHost));
for (int i=0; i<Nrows; i++) {
if (h_results1[i] != h_results[i]) {
printf("Approach nr. 2; Error at i = %i; h_results1 = %f; h_results = %f", i, h_results1[i], h_results[i]);
return 0;
}
}
printf("Test passed!\n");
}

L'exemple ci-dessus effectue des réductions des lignes d'une matrice dans le même sens que Réduire les lignes de la matrice avec CUDA, mais c'est fait différemment dans le post ci-dessus, à savoir, en appelant CUDA Poussée primitives directement à partir de l'utilisateur écrit des noyaux. Aussi, l'exemple ci-dessus sert à comparer la performance de ces opérations lorsqu'il est effectué avec deux stratégies d'exécution, à savoir, thrust::seq et thrust::device. Ci-dessous, certains des graphiques montrant la différence de performance.

Poussée à l'intérieur d'utilisateur écrit noyaux

La performance a été évaluée sur une Kepler K20c et sur un Maxwell GeForce GTX 850M.

InformationsquelleAutor JackOLantern

Je tiens à fournir une mise à jour de réponse à cette question.

De départ de la Poussée 1.8, CUDA Poussée primitives peuvent être combinés avec les thrust::seq politique d'exécution pour exécuter séquentiellement dans un seul CUDA thread (ou de manière séquentielle dans un seul thread CPU). Ci-dessous, un exemple est rapporté.

Si vous voulez l'exécution en parallèle à l'intérieur d'un fil, alors vous pouvez envisager d'utiliser CUB qui offre une réduction de routines qui peuvent être appelées depuis un threadblock, à condition que votre carte dynamique permet de parallélisme.

Voici l'exemple avec une Poussée

#include <stdio.h>
#include <thrust/reduce.h>
#include <thrust/execution_policy.h>
/********************/
/* CUDA ERROR CHECK */
/********************/
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
if (code != cudaSuccess) 
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) exit(code);
}
}
__global__ void test(float *d_A, int N) {
float sum = thrust::reduce(thrust::seq, d_A, d_A + N);
printf("Device side result = %f\n", sum);
}
int main() {
const int N = 16;
float *h_A = (float*)malloc(N * sizeof(float));
float sum = 0.f;
for (int i=0; i<N; i++) {
h_A[i] = i;
sum = sum + h_A[i];
}
printf("Host side result = %f\n", sum);
float *d_A; gpuErrchk(cudaMalloc((void**)&d_A, N * sizeof(float)));
gpuErrchk(cudaMemcpy(d_A, h_A, N * sizeof(float), cudaMemcpyHostToDevice));
test<<<1,1>>>(d_A, N);
}

InformationsquelleAutor JackOLantern

6

Si vous voulez utiliser les données affectées ou traitées par la poussée oui, vous pouvez tout simplement obtenir le pointeur brut des données allouées.
```
int * raw_ptr = thrust::raw_pointer_cast(dev_ptr);
```
si vous souhaitez allouer poussée des vecteurs dans le noyau, je n'ai jamais essayé, mais je ne pense pas que sera le travail
et aussi, si ça marche, je ne pense pas que ça apporte aucun avantage.
- FabrizioM: j'espérais que je pourrais passer un device_vector à mon noyau et l'appel de la taille() sur celui-ci à l'intérieur du noyau. Regarde comme ce n'est pas possible actuellement. Je vais utiliser le raw_pointer_cast et envoyer la taille comme un paramètre individuel le noyau.
- Ashwin: C'est le droit. Ce que vous essayez de faire n'est pas possible. Vous avez besoin pour passer de la taille séparément.
InformationsquelleAutor fabrizioM

Vous devez vous connecter pour publier un commentaire.