MATLAB parfor est plus lente que pour — quel est le problème?

le code que j'ai fais face a des boucles comme suit:

bistar = zeros(numdims,numcases); 
parfor hh=1:nt       
  bistar = bistar +  A(:,:,hh)*data(:,:,hh+1)' ;
end

pour les petites nt (10).

Après le calendrier, il est en fait 100 fois plus lent que l'utilisation régulière en boucle!!! Je sais que parfor pouvez le faire en parallèle sommes, donc je ne suis pas sûr de savoir pourquoi cela ne fonctionne pas.

- Je exécuter

matlabpool

avec le dehors-de-le-boîte de configurations avant l'exécution de mon code.

Je suis relativement nouveau à matlab, et juste commencé à utiliser le parallèle fonctionnalités, donc merci de ne pas supposer que je suis de ne pas faire quelque chose de stupide.

Merci!

PS: je suis l'exécution du code sur un quad core donc je m'attends à voir quelques améliorations.

pouvez vous s'il vous plaît nous dire les valeurs de numdims, numcases et le moment où les chiffres que vous avez découverts? merci.

InformationsquelleAutor Junier | 2010-07-04

22

Faire le partitionnement et de regrouper les résultats généraux de la division du travail et la collecte des résultats à partir de plusieurs threads/carottes) est élevé pour les petites valeurs de nt. C'est normal, vous ne serait pas la partition de données pour des tâches simples qui peuvent être exécutées rapidement par une simple boucle.

Effectuez toujours quelque chose de difficile à l'intérieur de la boucle qui vaut le partitionnement de frais généraux. Voici une belle introduction à la programmation parallèle.

Les fils viennent à partir d'un pool de threads si bien que la surcharge de créer les threads ne devrait pas être là. Mais pour créer les résultats partiels n des matrices de la bistar taille doit être créé, tous les résultats partiels calculés et puis tous ces résultats partiels doivent être ajoutés (recombinaison). En ligne droite de la boucle, c'est avec une grande probabilité effectuée sur place, pas d'allocations de prendre place.

La déclaration complète dans l'aide (merci pour le lien ci-dessous) est:

Si le temps de calcul de f, g, et h est
grand, parfor sera considérablement
plus rapide que le correspondant pour
déclaration, même si n est relativement
petite.

Donc, vous voyez qu'ils signifient exactement la même chose que ce que je veux dire, les frais généraux pour les petites valeurs n est que la valeur de l'effort si ce que vous faites dans la boucle est complexe/temps de consommer suffisamment.
- Merci pour la réponse, mais dans mathworks.com/access/helpdesk/help/toolbox/distcomp/parfor.html il est dit: "parfor sera nettement plus rapide que celle de l'énoncé, même si n est relativement faible." (Bien sûr, idk ce relativement petit.) Je suis confus mais, que voulez-vous dire par des frais généraux dans la division du travail et la collecte des résultats à partir de plusieurs threads/cœurs? Le vars Un et les données sont globales et doivent être partagés entre tous les threads déjà. Tous matlab a qu'à faire attention avec l'ajout de bistar.
- J'ai ajouté une précision, merci pour le lien, j'ai eu un coup d'oeil à l'aide et il énonce la même chose que ce que j'essaie de faire comprendre. Je ne suis pas assez bon pour expliquer la chose 🙂 Le "si" une partie de la phrase est tout à fait important. Espérons que cela aide! Ce n'est pas seulement vrai pour matlab, mais pour toutes sortes de calcul parallèle. Partitionnement correctement le problème est essentiel.
- +1 pour souligner la nécessité de la lecture de l'ensemble de l'aide au lieu de juste la partie que semble dire ce que vous voulez.
- Merci encore une fois jdehaan 🙂 C'est drôle, je pense que MATLAB crée en fait 4 processus et je devine que c'est l'externalisation du travail de ces processus, de sorte que la surcharge de vous parler est ressenti (car il n'y a pas de mémoire partagée entre processus). Cependant, dans un monde parfait, le travail devrait être confiée à des threads qui partagent les variables, les données, et bistar afin de partitionnement serait une question de passage indices (négligeable frais généraux) et depuis bistar est partagé recombiner est juste une question de l'ajout à la bonne indices en parallèle (négligeable à la verticale). Ne serait-ce pas plus rapide? Ai-je raté quelque chose?
- Je n'ai pas l'oublier sur le but, j'étais fatigué de travailler et a été littéralement sur le point d'aller au lit...
- Mettre les travailleurs sur les threads au lieu de processus rendrait l'accès à la mémoire plus rapide, mais PCT est conçu pour s'adapter à répartir dans les travailleurs sur plusieurs serveurs dans un calcul de la ferme, qui n'auront pas la mémoire partagée, ou même la même architecture. Aussi, il serait compliqué: Matlab (la langue, pas la VM) est mono-thread, donc un peu de code que l'on pourrait appeler, y compris basées sur le C MEX fichiers ou des bibliothèques, Java, ou Matlab internes, n'est pas réentrant, et peut échouer lors de l'appelé en même temps.
- Cela dit, les nouvelles versions de Matlab automatiquement le multithreading dans certaines fonctions internes, comme sum() et * (matrice de multiplication). Votre code peut déjà profiter des multiples cœurs, et de plus c'est vectorisé, le plus Matlab peut être en mesure de multithread il. C'est de cette façon Matlab n'est généralement multicœur pour une simplification des opérations sur des ensembles de données qui peuvent tenir dans un seul processus. Voir mathworks.com/support/solutions/en/data/1-4PG4AN/...
InformationsquelleAutor jdehaan
13

Parforest livré avec un peu de surcharge. Ainsi, si nt est vraiment petit, et si le calcul de la boucle se fait très rapidement (comme un plus), le parfor solution est plus lent. En outre, si vous exécutez parforsur un quad-core, un gain de vitesse sera presque linéaire pour 1 à 3 noyaux, mais moins si vous utilisez les 4 cœurs, depuis le dernier noyau doit également exécuter les processus du système.

Par exemple, si parfor est livré avec 100ms de surcharge, et le calcul de la boucle de 5ms, et si l'on suppose que le gain de vitesse est linéaire jusqu'à 4 cœurs avec un coefficient de 1 (c'est à dire à l'aide de 4 carottes de fait le calcul à 4 fois plus rapide), nt doit être d'environ 30 pour vous d'atteindre un gain de vitesse avec parfor (150ms avec for, 132ms avec parfor). Si vous avez été à fonctionner seulement 10 itérations, parfor serait plus lent (50ms avec for, 112ms avec parfor).

Vous pouvez calculer les frais généraux sur votre ordinateur en comparant les temps d'exécution avec 1 ouvrier vs 0 travailleurs, et vous pouvez estimer un gain de vitesse par une doublure au niveau du temps d'exécution de 1 à 4 travailleurs. Ensuite, vous saurez quand il est utile d'utiliser parfor.

InformationsquelleAutor Jonas
3

En plus de la mauvaise performance à cause de la communication, les frais généraux (voir les autres réponses), il y a une autre raison de ne pas utiliser parfor dans ce cas. Tout ce qui est fait dans le parfor dans ce cas utilise construit-dans le multithreading. En supposant que tous les travailleurs sont en cours d'exécution sur le même ordinateur, il n'y a pas d'avantage, car un seul appel utilise déjà tous les cœurs de votre processeur.

InformationsquelleAutor Daniel

Vous devez vous connecter pour publier un commentaire.