Comment allouer dynamiquement des tableaux à l'intérieur d'un noyau?

J'ai besoin d'allouer dynamiquement de certains tableaux à l'intérieur de la fonction noyau. Comment puis-je faire?

Mon code est quelque chose comme ça:

__global__ func(float *grid_d,int n, int nn){  
    int i,j;  
    float x[n],y[nn];  
    //Do some really cool and heavy computations here that takes hours.  
}

Mais qui ne fonctionnera pas. Si c'était à l'intérieur de l'hôte code que je pouvais utiliser la fonction malloc. cudaMalloc a besoin d'un pointeur sur l'hôte, et d'autres sur l'appareil. À l'intérieur de la fonction du noyau je n'ai pas l'hôte pointeur.

Alors, que dois-je faire?

Si prend trop de temps (quelques secondes) à allouer tous les tableaux (j'ai besoin d'environ 4 de taille n et 5 de taille nn), ce ne sera pas un problème. Depuis le noyau sera probablement courir pendant 20 minutes, au moins.

Vous voulez probablement à lire la section sur allocation dynamique de la mémoire dans le code de l'appareil dans la CUDA C guide des programmeurs. Cette fonctionnalité nécessite de calculer la capacité de 2,0 ou plus dans votre GPU.
Quelle est la configuration (blocs, les threads), vous serez l'exécution de ce noyau? Quelles sont les gammes de n et nn (pour les petites tailles que vous pourriez presser dans les registres, ou de la mémoire partagée).

InformationsquelleAutor Granada | 2012-11-20

c cuda gpgpu

28

Allocation dynamique de la mémoire est pris en charge uniquement sur le calcul de la capacité 2.x et un matériel plus récent. Vous pouvez utiliser le C++ nouveau mot-clé ou malloc dans le noyau, de sorte que votre exemple pourrait devenir:
```
__global__ func(float *grid_d,int n, int nn){  
    int i,j;  
    float *x = new float[n], *y = new float[nn];   
}
```
Ce alloue de la mémoire sur la mémoire locale d'exécution tas qui a la durée de vie du contexte, donc assurez-vous de libérer la mémoire après que le noyau de la fin de l'exécution, si votre intention est de ne pas utiliser la mémoire à nouveau. Il convient également de noter que l'exécution de segment de mémoire ne sont pas accessibles directement à partir de l'hôte Api, de sorte que vous ne pouvez pas passer un pointeur alloué à l'intérieur d'un noyau comme un argument de cudaMemcpy, par exemple.
- J'ai une situation similaire où j'ai besoin d'avoir des tableaux alloués dynamiquement. Ces tableaux doit accessibles par chaque thread pour l'écriture de but. Je suis confus que si je déclare cette dynamique du processus d'attribution à l'intérieur du noyau, puis, serait-il créer 4 fois ces tableaux si les dimensions du noyau (1,4) c'est à dire nThreads = 4 et nBlocks = 1.
- Est free approprié ici, ou est-il une autre fonction pour libérer à partir du tas local à l'intérieur d'un noyau?
- Ne vous utilisez simplement gratuit ou supprimer
InformationsquelleAutor talonmies
13

@talonmies répondu à votre question sur la façon d'allouer dynamiquement de la mémoire au sein d'un noyau. C'est prévu pour compléter la réponse, traitant de la performance de __device__ malloc() et alternative, vous pourriez envisager.

L'allocation dynamique de la mémoire dans le noyau peut être tentant, car il permet de code GPU à regarder de plus comme le code de CPU. Mais il peut sérieusement affecter les performances. J'ai écrit un autonome de test, et nous avons inclus ci-dessous. Le test des lancements quelque 2,6 millions de threads. Chaque thread remplit 16 entiers de la mémoire globale avec certaines valeurs issues du fil de l'index, puis résume les valeurs et renvoie la somme.

Le test met en œuvre deux approches. La première approche utilise __device__ malloc() et la deuxième approche utilise de la mémoire qui est allouée avant que le noyau s'exécute.

Sur mon 2.0 appareil, le noyau s'exécute dans 1500ms lors de l'utilisation de __device__ malloc() et 27 ms est observée lors de l'utilisation de pré-alloué de la mémoire. En d'autres termes, le test prend 56x plus à exécuter lorsque la mémoire est allouée dynamiquement à l'intérieur du noyau. Le temps comprend la boucle externe cudaMalloc() /cudaFree(), qui ne fait pas partie du noyau. Si le même noyau est lancé plusieurs fois avec le même nombre de fils, comme c'est souvent le cas, le coût de la cudaMalloc() /cudaFree() est amorti sur tous le noyau lance. Qu'apporte la différence encore plus élevé, à environ 60x.

De spéculer, je pense que le gain de performance est en partie causé par implicite de sérialisation. Le GPU doit probablement sérialiser tous les appels simultanés à __device__ malloc() afin de fournir des morceaux de mémoire pour chaque appelant.

La version qui n'utilise pas __device__ malloc() alloue tous les GPU de la mémoire avant de lancer le noyau. Un pointeur vers la mémoire est transmis au noyau. Chaque thread calcule un indice dans le précédemment alloué de la mémoire au lieu d'utiliser un __device__ malloc().

Le problème potentiel avec l'allocation de mémoire à l'avant, c'est que, si seuls certains threads ont besoin d'allouer de la mémoire, et on ne sait pas qui threads ceux qui sont, il sera nécessaire d'allouer de la mémoire pour tous les threads. Si il n'y a pas assez de mémoire pour que, il pourrait être plus efficace de réduire le nombre de threads par noyau appel, puis à l'aide de __device__ malloc(). D'autres solutions de contournement serait probablement jusqu'à la fin de réimplanter ce __device__ malloc() est fait en arrière-plan, et serait de voir une performance similaire a frappé.

Tester les performances de __device__ malloc():
```
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
const int N_ITEMS(16);
#define USE_DYNAMIC_MALLOC
__global__ void test_malloc(int* totals)
{
int tx(blockIdx.x * blockDim.x + threadIdx.x);
int* s(new int[N_ITEMS]);
for (int i(0); i < N_ITEMS; ++i) {
s[i] = tx * i;
}
int total(0);
for (int i(0); i < N_ITEMS; ++i) {
total += s[i];
}
totals[tx] = total;
delete[] s;
}
__global__ void test_malloc_2(int* items, int* totals)
{
int tx(blockIdx.x * blockDim.x + threadIdx.x);
int* s(items + tx * N_ITEMS);
for (int i(0); i < N_ITEMS; ++i) {
s[i] = tx * i;
}
int total(0);
for (int i(0); i < N_ITEMS; ++i) {
total += s[i];
}
totals[tx] = total;
}
int main()
{
cudaError_t cuda_status;
cudaSetDevice(0);
int blocks_per_launch(1024 * 10);
int threads_per_block(256);
int threads_per_launch(blocks_per_launch * threads_per_block);
int* totals_d;
cudaMalloc((void**)&totals_d, threads_per_launch * sizeof(int));
cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaDeviceSynchronize();
cudaEventRecord(start, 0);
#ifdef USE_DYNAMIC_MALLOC
cudaDeviceSetLimit(cudaLimitMallocHeapSize, threads_per_launch * N_ITEMS * sizeof(int));
test_malloc<<<blocks_per_launch, threads_per_block>>>(totals_d);
#else
int* items_d;
cudaMalloc((void**)&items_d, threads_per_launch * sizeof(int) * N_ITEMS);
test_malloc_2<<<blocks_per_launch, threads_per_block>>>(items_d, totals_d);
cudaFree(items_d);
#endif
cuda_status = cudaDeviceSynchronize();
if (cuda_status != cudaSuccess) {
printf("Error: %d\n", cuda_status);
exit(1);
}
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float elapsedTime;
cudaEventElapsedTime(&elapsedTime, start, stop);
printf("Elapsed: %f\n", elapsedTime);
int* totals_h(new int[threads_per_launch]);
cuda_status = cudaMemcpy(totals_h, totals_d, threads_per_launch * sizeof(int), cudaMemcpyDeviceToHost);
if (cuda_status != cudaSuccess) {
printf("Error: %d\n", cuda_status);
exit(1);
}
for (int i(0); i < 10; ++i) {
printf("%d ", totals_h[i]);
}
printf("\n");
cudaFree(totals_d);
delete[] totals_h;
return cuda_status;
}
```
De sortie:
```
C:\rd\projects\test_cuda_malloc\Release>test_cuda_malloc.exe
Elapsed: 27.311169
0 120 240 360 480 600 720 840 960 1080
C:\rd\projects\test_cuda_malloc\Release>test_cuda_malloc.exe
Elapsed: 1516.711914
0 120 240 360 480 600 720 840 960 1080
```
- Vous devez le temps de la cudaMalloc dans le deuxième essai. Sinon, à vous de comparer une voiture prête à courir (deuxième essai) à un arrêté la voiture dans un garage (premier test). Les deux noyaux ont besoin des mêmes exigences en matière d'entreposage.
- En plus de pQB objection: votre cudaMalloc alloue un grand tableau, et ce par rapport à l'allocation de 2,5 millions de petites matrices (pour chaque thread d'un). Une telle procédure est évidemment plus lent, et un test sur le CPU montre, que votre signalé 60x ralentissement est en fait un bon boulot (je suis 1000x fois ralentissement, le code fourni n'a pas d'erreur de segmentation -- allocateur doit supporter autant de matrices). Juste test est: allouer la même (un) array (1) par cudaMalloc, (2) par kernel<<<1,1>>>. Je vois le kernel allocation étant plus lent ~3 fois. Donc, c'est le vrai gain de performance.
- Merci. J'avais quitté le cudaMalloc() sur le moment, en supposant qu'il ne serait pas mesurable. À ma grande surprise, ajoutant qu'il n'avait provoquer un changement, passant de 60 à 56x. J'ai mis à jour la réponse et a ajouté un texte de présentation sur les implications de la cudaMalloc() / cudaFree() dans le calendrier.
- Le but de l'essai était de montrer les implications sur les performances de l'utilisation de __device__ malloc() et de montrer une autre façon d'accomplir la tâche pour laquelle nombreux sont ceux qui considèrent __device__ malloc(). Le but n'était pas de comparer la performance d'un seul cudaMalloc() avec un seul __device__ malloc().
- neat test! Je pense que le point principal est de montrer la différence dans la répartition de nombreuses petites matrices, soit sur l'appareil ou sur l'ordinateur hôte. Mais, peu importe, avec le même nombre d'appels malloc. Je pense que "bien sûr" un seul appel de malloc va être plus rapide que de nombreux appels malloc.
InformationsquelleAutor Roger Dahl
2

Si la valeur de n et nn étaient connus avant le noyau est appelée, alors pourquoi ne pas cudaMalloc la mémoire de l'hôte de côté et de passer dans la mémoire de l'appareil pointeur vers le noyau?
- Parce que chaque noyau doit posséder un tableau.
- Êtes-vous le lancement de plusieurs kenel en même temps? Ne pourriez-vous pas allouer suffisamment d'espace et chaque noyau partage une partie de celui-ci?
- si j'ai de la lauch, par exemple, 1000 grains et si j'ai besoin de 10 tableaux de taille n. La je doit faire 10 tableaux de taille n*1000? Et de le partager à travers les grains à l'aide de threadid et blockid?
InformationsquelleAutor Hong Zhou

Mené une expérience basée sur les concepts de la @rogerdahl post. Hypothèses:

De 4 mo de mémoire allouée dans 64B morceaux.
1 GPU bloc et 32 fils de chaîne dans le canton
Exécuter sur un P100

Le malloc+appels gratuits local pour le GPU semble être beaucoup plus rapide que la cudaMalloc + cudaFree appels. Le programme de la sortie:

Starting timer for cuda malloc timer
Stopping timer for cuda malloc timer
timer for cuda malloc timer took 1.169631s
Starting timer for device malloc timer
Stopping timer for device malloc timer
timer for device malloc timer took 0.029794s

Je pars le code pour timer.h et timer.cpp, mais voici le code pour le test lui-même:

#include "cuda_runtime.h"
#include <stdio.h>
#include <thrust/system/cuda/error.h>
#include "timer.h"
static void CheckCudaErrorAux (const char *, unsigned, const char *, cudaError_t);
#define CUDA_CHECK_RETURN(value) CheckCudaErrorAux(__FILE__,__LINE__, #value, value)
const int BLOCK_COUNT = 1;
const int THREADS_PER_BLOCK = 32;
const int ITERATIONS = 1 << 12;
const int ITERATIONS_PER_BLOCKTHREAD = ITERATIONS / (BLOCK_COUNT * THREADS_PER_BLOCK);
const int ARRAY_SIZE = 64;
void CheckCudaErrorAux (const char *file, unsigned line, const char *statement, cudaError_t err) {
if (err == cudaSuccess)
return;
std::cerr << statement<<" returned " << cudaGetErrorString(err) << "("<<err<< ") at "<<file<<":"<<line << std::endl;
exit (1);
}
__global__ void mallocai() {
for (int i = 0; i < ITERATIONS_PER_BLOCKTHREAD; ++i) {
int * foo;
foo = (int *) malloc(sizeof(int) * ARRAY_SIZE);
free(foo);
}
}
int main() {
Timer cuda_malloc_timer("cuda malloc timer");
for (int i = 0; i < ITERATIONS; ++ i) {
if (i == 1) cuda_malloc_timer.start(); //let it warm up one cycle
int * foo;
cudaMalloc(&foo, sizeof(int) * ARRAY_SIZE);
cudaFree(foo);
}
cuda_malloc_timer.stop_and_report();
CUDA_CHECK_RETURN(cudaDeviceSynchronize());
Timer device_malloc_timer("device malloc timer");
device_malloc_timer.start();
mallocai<<<BLOCK_COUNT, THREADS_PER_BLOCK>>>();
CUDA_CHECK_RETURN(cudaDeviceSynchronize());
device_malloc_timer.stop_and_report();
}

Si vous trouvez des erreurs, veuillez lmk dans les commentaires, et je vais essayer de les réparer.

Et j'ai couru de nouveau avec un plus grand tout:

const int BLOCK_COUNT = 56;
const int THREADS_PER_BLOCK = 1024;
const int ITERATIONS = 1 << 18;
const int ITERATIONS_PER_BLOCKTHREAD = ITERATIONS / (BLOCK_COUNT * THREADS_PER_BLOCK);
const int ARRAY_SIZE = 1024;

Et cudaMalloc était encore plus lent par beaucoup:

Starting timer for cuda malloc timer
Stopping timer for cuda malloc timer
timer for cuda malloc timer took 74.878016s
Starting timer for device malloc timer
Stopping timer for device malloc timer
timer for device malloc timer took 0.167331s

A noter également, malloc + free a pris essentiellement la même quantité de temps que new et delete.

InformationsquelleAutor ragerdl

Peut-être que vous devriez tester

cudaMalloc(&foo,sizeof(int) * ARRAY_SIZE * ITERATIONS);
cudaFree(foo);

au lieu

for (int i = 0; i < ITERATIONS; ++ i) {
if (i == 1) cuda_malloc_timer.start(); //let it warm up one cycle
int * foo;
cudaMalloc(&foo, sizeof(int) * ARRAY_SIZE);
cudaFree(foo);
}

InformationsquelleAutor Tyrandro

Vous devez vous connecter pour publier un commentaire.