CUDA global (comme en C) tableaux dynamiques alloué à la mémoire de l'appareil

Donc, j'essaie d'écrire du code qui utilise Nvidia CUDA de l'architecture. J'ai remarqué que la copie vers et depuis l'appareil était vraiment blesser ma performance globale, alors maintenant, je suis en train de déplacer une grande quantité de données sur l'appareil.

Comme ce type de données est utilisé dans de nombreuses fonctions, je voudrais qu'il soit global. Oui, je peux passer des pointeurs, mais je voudrais vraiment savoir comment travailler avec des variables globales dans cette instance.

Donc, j'ai des fonctions de l'appareil qui veulent accéder à un périphérique alloué tableau.

Idéalement, je pourrais faire quelque chose comme:

__device__ float* global_data;

main()
{
  cudaMalloc(global_data);
  kernel1<<<blah>>>(blah); //access global data
  kernel2<<<blah>>>(blah); //access global data again
}

Cependant, je n'ai pas trouvé comment créer un tableau dynamique. J'ai trouvé un travail autour de la déclaration du tableau comme suit:

__device__ float global_data[REALLY_LARGE_NUMBER];

Et tout ce qui ne nécessite pas un cudaMalloc appel, je préfère l'allocation dynamique d'approche.

Jetez un oeil à l'aide de la mémoire partagée ainsi, global est le plus lent de la mémoire de l'appareil couches.
Pourquoi voulez-vous utiliser des variables globales au lieu de passer le dispositif de pointeur en argument au noyau? Ce faisant vous donne tout de même des limites que l'utilisation de la mémoire globale dans le code de CPU, avec peu d'avantage.

OriginalL'auteur Voltaire | 2008-09-17

cuda nvidia

Quelque chose comme cela doit probablement travailler.

#include <algorithm>

#define NDEBUG
#define CUT_CHECK_ERROR(errorMessage) do {                                 \
        cudaThreadSynchronize();                                           \
         cudaError_t err = cudaGetLastError();                             \
         if( cudaSuccess != err) {                                         \
                     fprintf(stderr, "Cuda error: %s in file '%s' in line %i : %s.\n",    \
                                             errorMessage, __FILE__, __LINE__, cudaGetErrorString( err) );\
                     exit(EXIT_FAILURE);                                                  \
                 } } while (0)


__device__ float *devPtr;

__global__
void kernel1(float *some_neat_data)
{
    devPtr = some_neat_data;
}

__global__
void kernel2(void)
{
    devPtr[threadIdx.x] *= .3f;
}


int main(int argc, char *argv[])
{
    float* otherDevPtr;
    cudaMalloc((void**)&otherDevPtr, 256 * sizeof(*otherDevPtr));
    cudaMemset(otherDevPtr, 0, 256 * sizeof(*otherDevPtr));

    kernel1<<<1,128>>>(otherDevPtr);
    CUT_CHECK_ERROR("kernel1");

    kernel2<<<1,128>>>();

    CUT_CHECK_ERROR("kernel2");

    return 0;
}

Lui donner un tourbillon.

C'est intéressant. Je vois comment cudaMalloc n'est pas d'être appelée directement sur devPtr, mais le fait d'être ensemble dans ce premier noyau d'appel. Je vais donner un essai plus tard et vous permettent de savoir si ça marche, merci beaucoup 😀

OriginalL'auteur

1

Passer un peu de temps à se concentrer sur l'abondante documentation offert par NVIDIA.

À partir du Guide de Programmation:
```
float* devPtr;
cudaMalloc((void**)&devPtr, 256 * sizeof(*devPtr));
cudaMemset(devPtr, 0, 256 * sizeof(*devPtr));
```
C'est un exemple simple de comment allouer de la mémoire. Maintenant, dans vos noyaux, vous devez accepter un pointeur vers un float:
```
__global__
void kernel1(float *some_neat_data)
{
    some_neat_data[threadIdx.x]++;
}

__global__
void kernel2(float *potentially_that_same_neat_data)
{
    potentially_that_same_neat_data[threadIdx.x] *= 0.3f;
}
```
Alors maintenant, vous pouvez les appeler de la sorte:
```
float* devPtr;
cudaMalloc((void**)&devPtr, 256 * sizeof(*devPtr));
cudaMemset(devPtr, 0, 256 * sizeof(*devPtr));

kernel1<<<1,128>>>(devPtr);
kernel2<<<1,128>>>(devPtr);
```
Comme ce type de données est utilisé dans de nombreuses
fonctions, je voudrais qu'il soit
mondial de.

Il y a quelques bonnes raisons d'utiliser des variables globales. Ce n'est certainement pas un. Je vais le laisser comme un exercice d'étendre cet exemple à inclure le déplacement "devPtr" à une portée globale.

EDIT:

Ok, le problème fondamental est: est-ce votre les grains ne peuvent accéder à la mémoire de l'appareil et le seul champ d'application mondial des pointeurs qu'ils peuvent utiliser sont GPU. Lors de l'appel d'un noyau à partir de votre CPU, les coulisses de ce qui se passe est que les pointeurs et les primitives sont copiés dans GPU registres et/ou de la mémoire partagée avant que le noyau ne soit exécutée.

De sorte que le plus proche que je peux suggérer, c'est ceci: utiliser cudaMemcpyToSymbol() pour atteindre vos objectifs. Mais, dans le fond, considèrent qu'une approche différente pourrait être la bonne Chose.
```
#include <algorithm>

__constant__ float devPtr[1024];

__global__
void kernel1(float *some_neat_data)
{
    some_neat_data[threadIdx.x] = devPtr[0] * devPtr[1];
}

__global__
void kernel2(float *potentially_that_same_neat_data)
{
    potentially_that_same_neat_data[threadIdx.x] *= devPtr[2];
}


int main(int argc, char *argv[])
{
    float some_data[256];
    for (int i = 0; i < sizeof(some_data) / sizeof(some_data[0]); i++)
    {
        some_data[i] = i * 2;
    }
    cudaMemcpyToSymbol(devPtr, some_data, std::min(sizeof(some_data), sizeof(devPtr) ));
    float* otherDevPtr;
    cudaMalloc((void**)&otherDevPtr, 256 * sizeof(*otherDevPtr));
    cudaMemset(otherDevPtr, 0, 256 * sizeof(*otherDevPtr));

    kernel1<<<1,128>>>(otherDevPtr);
    kernel2<<<1,128>>>(otherDevPtr);

    return 0;
}
```
N'oubliez pas '--host-compilation=c++ " pour cet exemple.

Oui - c'était ma solution de départ. Seulement, et non dans la mémoire constante, parce que le tableau est plutôt grand :< Alors, quel est le verdict concernant constant float* devPtr; (ou dans mon cas périphérique float* devPtr;) je soupçonne qu'il y a une très bonne raison pourquoi vous ne pouvez pas avoir un pointeur global de données de l'appareil
Aussi, n'ai pas vu ton edit. Cependant, im toujours pas sûr de savoir pourquoi un pointeur pour la mémoire de l'appareil n'est pas valide alors qu'un tableau est ok.

OriginalL'auteur
1

Je suis allé de l'avant et a essayé la solution de l'allocation temporaire pointeur et en passant à une simple fonction globale similaire à kernel1.

La bonne nouvelle, c'est que ça fonctionne 🙂

Cependant, je pense qu'il confond le compilateur comme maintenant, je reçois des avis de: Impossible de dire ce pointeur pointe, en supposant que la mémoire globale de l'espace" à chaque fois que j'essaie d'accéder à des données globales. Heureusement, l'hypothèse qui se passe pour être correcte, mais les avertissements sont ennuyeux.

De toute façon, pour l'enregistrement, j'ai regardé de nombreux exemples et a couru à travers la nvidia exercices où le point est d'obtenir à la sortie-à-dire "Correct!". Cependant, je n'ai pas regardé tous d'entre eux. Si quelqu'un connaît un sdk exemple, là où ils n'globale et dynamique de l'appareil de l'allocation de mémoire, je voudrais quand même savoir.

OriginalL'auteur Voltaire
0

Erm, c'était exactement le problème de déplacement de devPtr de portée mondiale, qui a été mon problème.

J'ai une application qui fait exactement cela, avec les deux noyaux ayant un pointeur vers les données transmises. J'ai explicitement ne voulez pas passer dans ces pointeurs.

J'ai lu la documentation d'assez près, et de frapper les nvidia forums (et recherchée sur google pour une heure ou deux), mais je n'ai pas trouvé de mise en œuvre d'une dynamique globale de l'appareil tableau qui fonctionne en fait (j'ai essayé plusieurs que de compiler et d'échouer dans des façons nouvelles et intéressantes).

OriginalL'auteur Voltaire
0

découvrez les échantillons inclus dans le SDK. Beaucoup de ces projets de l'échantillon sont une bonne façon d'apprendre par l'exemple.

OriginalL'auteur Mark Borgerding
0

Comme ce type de données est utilisé dans de nombreuses fonctions, je voudrais qu'il soit global.

-

Il y a quelques bonnes raisons d'utiliser des variables globales. Ce n'est certainement pas un. Je vais la laisser
exercice pour étendre cet exemple à inclure le déplacement "devPtr" à une portée globale.

Que si le noyau fonctionne sur un grand const structure composée de tableaux? À l'aide de la dite constante de la mémoire n'est pas une option, parce que c'est très limitée dans la taille.. alors vous devez le mettre dans la mémoire globale..?

OriginalL'auteur Nils

Vous devez vous connecter pour publier un commentaire.