Y at-il un équivalent à memcpy () qui fonctionne dans un noyau CUDA?

Je suis en train de briser et de remodeler la structure d'un tableau de manière asynchrone à l'aide de CUDA noyau. memcpy() ne fonctionne pas à l'intérieur du noyau, et ni ne cudaMemcpy()*; je suis à une perte.

Quelqu'un peut me dire la méthode préférée pour la copie de la mémoire à partir de l'intérieur de la CUDA noyau?

Il est intéressant de noter, cudaMemcpy(void *to, void *from, size, cudaMemcpyDeviceToDevice) ne fonctionnera PAS pour ce que je suis en train de faire, car il ne peut être appelé de l'extérieur du noyau et de ne pas exécuter de manière asynchrone.

source d'informationauteur Zak