Quand est-CUDA de l' shared la mémoire est utile?

Quelqu'un peut-il m'aider avec un exemple très simple sur la façon d'utiliser la mémoire partagée? L'exemple inclus dans le Cuda C guide de programmation semble encombré par des informations non pertinentes.

Par exemple, si je copie un grand tableau à l'appareil de mémoire globale et souhaitez carré chaque élément, comment peut-mémoire partagée être utilisé pour accélérer le processus? Ou n'est-il pas utile dans ce cas?

InformationsquelleAutor Tudor | 2011-11-04

c cuda gpu

29

Dans le cas que vous mentionnez, la mémoire partagée n'est pas utile, pour la raison suivante: chaque élément de données est utilisé qu'une seule fois. Pour la mémoire partagée pour etre utile, vous devez utiliser les données transférées vers la mémoire partagée à plusieurs reprises, en utilisant les bons modèles d'accès, pour l'avoir aider. La raison pour cela est simple: il suffit de lecture de la mémoire globale nécessite 1 mondial de lire la mémoire et le zéro de la mémoire partagée lit; la lecture en mémoire partagée première demanderait 1 mondial de lecture de la mémoire et 1 mémoire partagée lecture, qui prend plus de temps.

Voici un exemple simple, où chaque fil dans le bloc calcule la valeur correspondante, au carré, plus la moyenne des deux sa gauche et droit voisins, au carré:
```
  __global__ void compute_it(float *data)
  {
     int tid = threadIdx.x;
     __shared__ float myblock[1024];
     float tmp;

     //load the thread's data element into shared memory
     myblock[tid] = data[tid];

     //ensure that all threads have loaded their values into
     //shared memory; otherwise, one thread might be computing
     //on unitialized data.
     __syncthreads();

     //compute the average of this thread's left and right neighbors
     tmp = (myblock[tid > 0 ? tid - 1 : 1023] + myblock[tid < 1023 ? tid + 1 : 0]) * 0.5f;
     //square the previousr result and add my value, squared
     tmp = tmp*tmp + myblock[tid] * myblock[tid];

     //write the result back to global memory
     data[tid] = tmp;
  }
```
Noter que ce qui est envisagé, travailler à l'aide d'un seul bloc. L'extension à plus de blocs doit être simple. Suppose bloc de dimension (1024, 1, 1) et de la grille de dimension (1, 1, 1).
- n'avez-vous pas manquer une barrière de synchronisation avant de commencer le calcul de l'voisins de données dans la mémoire partagée ?
- oui, vous avez raison, bien sûr. L'édition maintenant.
- Bon exemple. Merci!
- Mon préféré est l'image à utiliser lors de l'explication de la mémoire partagée est une Formule 1 arrêt au stand. http://www.youtube.com/watch?v=UUvagsM176o L'opération est effectuée dans un quelque peu contrainte de l'environnement qui permet à un groupe de personnes de travailler en parallèle sur la même voiture, l'activation de la tâche à faire beaucoup plus rapidement.
- Merci pour cette très utile exemple, il y a une parenthèse supplémentaires à la fin de la première ligne impliquant tmp, alors j'ai édité.
InformationsquelleAutor Patrick87
10

Pense de mémoire partagée comme un explicitement géré cache - il est seulement utile si vous avez besoin d'accéder à des données plus d'une fois, soit dans le même thread ou à partir de plusieurs threads dans le même bloc. Si vous êtes seulement l'accès aux données à la fois, puis de la mémoire partagée ne va pas vous aider.
- Ainsi, par exemple, dans le tableau de la quadrature du problème, il ne serait pas utile, mais si je le cache, disons a et B dans Une multiplication de matrice, il fonctionne parce qu'ils sont réutilisés plusieurs fois?
- exactement tout ce qui serait à l'avantage de dire L1 cache dans un classique de l'app pourrait potentiellement bénéficier de l'utilisation de la mémoire partagée dans un CUDA application - si vous êtes juste à la lecture d'une valeur, l'équerrage et en écrivant ça, puis il n'y a aucun avantage dans les deux cas.
InformationsquelleAutor Paul R

Vous devez vous connecter pour publier un commentaire.