Par Défaut Épinglé Mémoire Vs Zéro-Copie De La Mémoire

Dans CUDA nous pouvons utiliser épinglé mémoire plus efficacement copier les données à partir de l'Hôte de GPU que la valeur par défaut de la mémoire allouée par malloc à l'hôte. Cependant, il existe deux types de épinglé mémoires de la épinglé par défaut de la mémoire et la zéro-copie épinglé mémoire.

La valeur par défaut épinglé mémoire de copier les données à partir de l'Hôte de GPU deux fois plus rapide que la normale transferts, donc il y a certainement un avantage (si nous avons assez de mémoire hôte à la page-lock)

Dans la version différente de épinglé la mémoire, c'est à dire zéro-copie de la mémoire, nous n'avons pas besoin de copier les données à partir de l'hôte de GPU DRAM tout à fait. Les grains de lire les données directement à partir de l'Hôte de la mémoire.

Ma question est: Lequel de ces épinglé-type de mémoire est une meilleure programmation de la pratique.

InformationsquelleAutor jwdmsd | 2011-03-06

cuda

32

Je pense que cela dépend de votre application (sinon, pourquoi seraient-ils fournir à la fois les moyens?)

Mappé, épinglé mémoire (zéro-copie) est utile lorsque:
- Le GPU n'a pas de mémoire sur son propre et utilise de la RAM de toute façon
- Vous chargez les données une seule fois, mais vous avez beaucoup de calcul à effectuer et vous souhaitez masquer la mémoire de transfert des latences à travers elle.
- L'hôte veut modifier/ajouter des données supplémentaires, ou de lire les résultats, tandis que le noyau est toujours en cours d'exécution (par ex. la communication)
- Les données ne rentre pas dans la mémoire GPU
Notez que vous pouvez également utiliser de multiples flux de copier les données et d'exécuter des noyaux en parallèle.

Épinglé, mais qui n'est pas mappé en mémoire, c'est mieux:
- Lorsque vous chargez ou de stocker les données plusieurs fois. Par exemple: vous avez plusieurs subséquente de noyaux, d'exécuter les travaux dans les étapes - il n'est pas nécessaire pour charger les données à partir de l'hôte à chaque fois.
- Il n'y a pas beaucoup de calculs à effectuer et le chargement des latences ne sont pas va être bien caché
- Oui exactement. J'ai trouvé presque la même description dans le livre 'CUDA par exemple". Ils prétendent que la mémoire mappée est la meilleure quand une) vos noyaux de lire et d'écrire les données une seule fois b) quand vous avez une carte graphique intégrée, comme l'ION plateforme où le CPU et le GPU partagent la même mémoire.
InformationsquelleAutor CygnusX1
12

Mappé épinglé mémoire est identique à d'autres types de épinglé mémoire à tous égards, sauf qu'il est mappée dans le CUDA de l'espace d'adresse, donc peut être lu et écrit par les noyaux CUDA ainsi que celle utilisée pour les transferts DMA par les Moteurs de Copie.

L'avantage de ne pas cartographie épinglé mémoire était double: il vous a sauvé une adresse de l'espace, qui peut être un précieux réifier dans un monde de plates-formes 32 bits avec les Gpu qui peut contenir 3-4G de RAM. Aussi, la mémoire qui n'est pas mappé ne peut pas être endommagé accidentellement par des voyous noyaux. Mais cette préoccupation est assez ésotérique que l'unité de l'adresse de l'espace de fonctionnalité dans CUDA 4.0 sera la cause de tous les épinglé allocations d'être adressée par défaut.

Outre les points soulevés par l'Sanders/Kandrot livre, d'autres choses à garder à l'esprit:
- écrit à la mémoire hôte à partir d'un noyau (par exemple, pour afficher les résultats pour le CPU) est agréable en ce que le GPU n'a pas de temps de latence à couvrir dans ce cas, et
- il est TRÈS IMPORTANT que les opérations de mémoire ne font - sinon, même SM 2.x et plus tard Gpu prendre un gros hit de la bande passante.
- Pourriez-vous s'il vous plaît élargir les deux derniers points? Concernant le premier point, que voulez-vous dire lorsque vous dites que "le GPU n'a pas de temps de latence à couvrir dans ce cas"? Concernant le deuxième point, pourquoi opérations dans le cadre de zéro-copie doivent coalescence? Utilisent-ils de toute façon globale de la mémoire?
- Si le processeur graphique se lit de mappés épinglé mémoire, elle doit trouver quelque chose à faire jusqu'à ce que la mémoire de l'arrivée des demandes. S'il écrit à mappés épinglé mémoire, elle affiche une écriture le bus et se déplace sur. Je ne sais pas pourquoi ils doivent être corrigées. La coalescence est une chaine basée sur la construction et il doit avoir quelque chose à faire avec le matériel de mise en œuvre.
- La coalescence decxreases montant des opérations de mémoire, il est donc devenu de plus en plus important pour les zéro-copie de la mémoire qui est accessible par le biais lente PCI-E bus (par rapport aux Gpu haut de la bande passante de la mémoire globale)
- La lenteur de PCIe d'un rapport à la mémoire locale de l'appareil est exactement pourquoi il est un peu surprenant que le matériel de soins que les opérations sont intégrées. On pourrait penser que la L2, qui est conçu pour le trafic du service de la mémoire de l'appareil avec 10x plus de bande passante, capable de traduire n'importe quel nombre de uncoalesced des demandes dans le nombre optimal de bus PCIe transactions.
- Si je ne me trompe pas, à l'heure actuelle (2016...) CUDA n'est pas par défaut de prise de épinglé allocations également cartographié. Ce changement après CUDA 4.0? J'ai penser que peut-être vous me suis mal exprimée... c'est à l'utilisateur de décider s'il veut de la cartographie ou pas.
- Quand j'ai dit que épinglé les allocations sont également cartographiés par défaut? Nous parlons de la façon dont le matériel poignées mappé épinglé allocations ("opt-in" qui a été ajoutée dans CUDA 2.2), qui permettent de noyaux CUDA pour accéder directement à la mémoire hôte. Comme de CUDA 4.0, tous les épinglé les allocations sont, en effet, également mappés sur les systèmes qui prennent en charge unifié virtuel d'adressage (UVA). Vous pouvez appeler cudaGetDeviceProperties() et vérifier cudaDeviceProp::unifiedAddressing pour voir si ce qui se passe.
InformationsquelleAutor ArchaeaSoftware

Vous devez vous connecter pour publier un commentaire.