Quand est-CUDA de l' __shared__ la mémoire est utile?

Quelqu'un peut-il m'aider avec un exemple très simple sur la façon d'utiliser la mémoire partagée? L'exemple inclus dans le Cuda C guide de programmation semble encombré par des informations non pertinentes.

Par exemple, si je copie un grand tableau à l'appareil de mémoire globale et souhaitez carré chaque élément, comment peut-mémoire partagée être utilisé pour accélérer le processus? Ou n'est-il pas utile dans ce cas?

InformationsquelleAutor Tudor | 2011-11-04