Joblib Parallèle de plusieurs cpu est plus lent que seul

J'ai juste commencé à l'aide de la Joblib module et j'essaie de comprendre comment la fonction Parallèle des œuvres. Ci-dessous est un exemple de cas où la parallélisation conduit à des durées de fonctionnement plus longues, mais je ne comprends pas pourquoi. Mon moteur d'exécution sur 1 processeur était de 51 s vs 217 secondes sur 2 cpu.

Mon hypothèse était que l'exécution de la boucle en parallèle copie des listes a et b de chaque processeur. Puis l'expédition item_n à un seul processeur et item_n+1 pour les autres cpu, exécuter la fonction, puis d'écrire les résultats dans une liste (dans l'ordre). Puis, prenez les 2 éléments et ainsi de suite. Je suis évidemment manque quelque chose.

Est-ce un exemple de mauvais ou de l'utilisation de joblib? Je n'ai tout simplement la structure du code de mal?

Voici l'exemple:

import numpy as np
from matplotlib.path import Path
from joblib import Parallel, delayed

## Create pairs of points for line segments
a = zip(np.random.rand(5000,2),np.random.rand(5000,2))

b = zip(np.random.rand(300,2),np.random.rand(300,2))

## Check if one line segment contains another. 
def check_paths(path, paths):
    for other_path in paths:
        res='no cross'
        chck = Path(other_path)
        if chck.contains_path(path)==1:
            res= 'cross'
            break
    return res

res = Parallel(n_jobs=2) (delayed(check_paths) (Path(points), a) for points in b)

Avez-vous votre 1 processus de test avec le même code (seulement n_jobs=1) ou avez-vous utilisé une simple boucle for?
Il y a aussi un gros avertissement sur la joblib site, afin de protéger le code principal avec if __name__ == '__main__':.
Juste essayer avec le fil back-end...
J'ai exactement le même problème. Je suis en cours d'exécution tout de l'intérieur 'si nom == 'principal':', et en fait je suis juste en utilisant l'exemple de leur problème de sortie: = Parallele(n_jobs=2)(en retard(sqrt)(i**2) for i in range(int(1e5))) . Si je le lance avec n_jobs=1, il faut 5 secondes. Si n_jobs=2 à n_jobs=4 (c'est un 4-core de la machine), il faut de 42 secondes!?
de nombreux calculs ne peuvent bénéficier de calcul parallèle en raison du temps qu'il faut pour carte le calcul pour les autres processeurs, puis retourner les résultats. Je reçois à peu près les mêmes résultats que vous faites avec les joblib exemple. J'ai trouvé les gains les plus importants lorsque l'on compare les éléments d'une liste à une liste d'éléments et d'avoir besoin de retourner la correspondance la plus proche (par exemple, le géocodage ou floue adresse de correspondance).
Mon parallèle semble être en cours d'exécution plus lent qu'un seul processeur jusqu'à ce que j'ai découvert c'était mon code Timer. Pour voir la fonction en cours d'exécution, ajouter dans la verbose=50 argument; ceci affichera le temps écoulé et les détails de la tâche. E. g. Parallèle(n_jobs=4, verbose=50)

InformationsquelleAutor mhabiger | 2014-01-09

parallel-processing python

En bref: je ne peux pas reproduire votre problème. Si vous êtes sur Windows, vous devez utiliser un protecteur pour votre boucle principale: la documentation de joblib.En parallèle. Le seul problème que je vois, c'est beaucoup de copie de données dessus, mais vos chiffres semblent irréalistes être causé par l'.

En long, voici mes synchronisations avec votre code:

Sur mon i7 3770k (4 coeurs, 8 threads) j'obtiens les résultats suivants pour les différents n_jobs:

For-loop: Finished in 33.8521318436 sec
n_jobs=1: Finished in 33.5527760983 sec
n_jobs=2: Finished in 18.9543449879 sec
n_jobs=3: Finished in 13.4856410027 sec
n_jobs=4: Finished in 15.0832719803 sec
n_jobs=5: Finished in 14.7227740288 sec
n_jobs=6: Finished in 15.6106669903 sec

Il y a donc un gain dans l'utilisation de plusieurs processus. Cependant, bien que j'ai quatre coeurs, le gain déjà sature à trois processus. Donc je suppose que le temps d'exécution est limitée par l'accès à la mémoire plutôt que de temps processeur.

Vous devriez noter que les arguments de chaque boucle d'entrée sont copiés dans le processus de l'exécution d'elle. Cela signifie que vous copie a pour chaque élément dans b. C'est inefficace. Ainsi, au lieu de l'accès mondial a. (Parallel déviera le processus, la copie de toutes les variables globales pour le nouvellement généré des processus, de sorte a est accessible). Cela me donne le code suivant (avec calendrier et la boucle principale de la garde que la documentation de joblib recommande:

import numpy as np
from matplotlib.path import Path
from joblib import Parallel, delayed
import time
import sys

## Check if one line segment contains another. 

def check_paths(path):
    for other_path in a:
        res='no cross'
        chck = Path(other_path)
        if chck.contains_path(path)==1:
            res= 'cross'
            break
    return res

if __name__ == '__main__':
    ## Create pairs of points for line segments
    a = zip(np.random.rand(5000,2),np.random.rand(5000,2))
    b = zip(np.random.rand(300,2),np.random.rand(300,2))

    now = time.time()
    if len(sys.argv) >= 2:
        res = Parallel(n_jobs=int(sys.argv[1])) (delayed(check_paths) (Path(points)) for points in b)
    else:
        res = [check_paths(Path(points)) for points in b]
    print "Finished in", time.time()-now , "sec"

Calendrier résultats:

 n_jobs=1: Finished in 34.2845709324 sec
 n_jobs=2: Finished in 16.6254048347 sec
 n_jobs=3: Finished in 11.219119072 sec
 n_jobs=4: Finished in 8.61683392525 sec
 n_jobs=5: Finished in 8.51907801628 sec
 n_jobs=6: Finished in 8.21842098236 sec
 n_jobs=7: Finished in 8.21816396713 sec
 n_jobs=8: Finished in 7.81841087341 sec

La saturation maintenant légèrement déplacé vers n_jobs=4 qui est la valeur attendue.

check_paths effectue plusieurs calculs redondants qui peuvent facilement être éliminés. Tout d'abord pour tous les éléments de other_paths=a la ligne Path(...) est exécuté lors de chaque appel. Précalculer que. Deuxièmement, la chaîne res='no cross' est écrit dans chaque boucle son tour, bien qu'il ne peut changer une fois (suivie d'une pause et de retour). Déplacer la ligne en face de la boucle. Ensuite, le code ressemble à ceci:

import numpy as np
from matplotlib.path import Path
from joblib import Parallel, delayed
import time
import sys

## Check if one line segment contains another. 

def check_paths(path):
    #global a
    #print(path, a[:10])
    res='no cross'
    for other_path in a:
        if other_path.contains_path(path)==1:
            res= 'cross'
            break
    return res

if __name__ == '__main__':
    ## Create pairs of points for line segments
    a = zip(np.random.rand(5000,2),np.random.rand(5000,2))
    a = [Path(x) for x in a]

    b = zip(np.random.rand(300,2),np.random.rand(300,2))

    now = time.time()
    if len(sys.argv) >= 2:
        res = Parallel(n_jobs=int(sys.argv[1])) (delayed(check_paths) (Path(points)) for points in b)
    else:
        res = [check_paths(Path(points)) for points in b]
    print "Finished in", time.time()-now , "sec"

avec des timings:

n_jobs=1: Finished in 5.33742594719 sec
n_jobs=2: Finished in 2.70858597755 sec
n_jobs=3: Finished in 1.80810618401 sec
n_jobs=4: Finished in 1.40814709663 sec
n_jobs=5: Finished in 1.50854086876 sec
n_jobs=6: Finished in 1.50901818275 sec
n_jobs=7: Finished in 1.51030707359 sec
n_jobs=8: Finished in 1.51062297821 sec

Un côté noeud sur votre code, même si je n'ai pas vraiment suivi son but, ce n'était pas liée à votre question, contains_path ne retour True if this path completely contains the given path. (voir la documentation). Par conséquent, votre fonction sera toujours, fondamentalement, un retour no cross compte tenu de l'aléatoire d'entrée.

Merci beaucoup pour la fourniture d'une telle réponse. Cela m'a vraiment aidé à améliorer ma compréhension de traitement en parallèle. Le problème était en effet pas la protection de la boucle principale. J'utilise OSX et simplement supposé que Windows a été affecté par cela.
Très utile de répondre à partir de 3 ans maintenant, un grand merci à Nabla.
par le biais de l'expérimentation, j'ai réalisé que la batch_size paramètre peut influencer considérablement le fil d'optimisation.

InformationsquelleAutor Nabla

18

En plus de la réponse ci-dessus, et pour référence, il y a deux aspects à cette question, et joblib récentes évolutions aide avec les deux.

Parallèle la création d'un pool de frais généraux: Le problème ici c'est que la création, en parallèle, une piscine est coûteux. Il a été particulièrement coûteux, car le code n'est pas protégé par la "principal" a été exécuté dans chaque catégorie d'emploi à la création de la mise en Parallèle de l'objet. Dans la dernière joblib (encore en bêta), Parallèle peut être utilisé comme un gestionnaire de contexte de limiter le nombre de fois qu'une piscine est créé, et donc l'impact de cette surcharge.

Envoi frais généraux:
il est important de garder à l'esprit que l'envoi d'un élément de la boucle a un rétroprojecteur (beaucoup plus grand que l'itération d'une boucle for sans parallèle). Ainsi, si ces calcul éléments sont très rapides, cette surcharge de dominer le calcul. Dans la dernière joblib, joblib trace le temps d'exécution de chaque tâche, et de commencer le regroupement s'ils sont très rapides. Cela limite fortement l'impact de l'expédition de frais généraux dans la plupart des cas (voir le PR au banc et à la discussion).

Avertissement: je suis l'auteur original de joblib (juste dire à mettre en garde contre les conflits d'intérêts potentiels dans ma réponse, mais là je pense que c'est sans importance).
- UpVote pour les avertissements sur le joblib-ordonnancement des frais généraux. Serait très responsable pour les inclure dans la joblib-documentation. Le joblib-exemples, porté à l'attention des utilisateurs, la plupart de tous les anti-modèles. Auriez-vous l'esprit pour obtenir la documentation du module de l'équipe pour revenir sur ce point d'une façon plus en détail, de façon quantitative de montrer de façon réaliste les coûts de configuration&communication ( avec [nous]-cadencé coûts réels ), de sorte que les utilisateurs peuvent mesure d'un point de rendements négatifs s'apprête à lancer joblib de Parallel( )( delayed( .. ) .. ) de l'infrastructure? Vaut le temps de le faire.
- En fait, le Parallèle de l'infrastructure de joblib est actuellement un rewamp, et les compromis va bientôt changer. Convenu que la documentation et les exemples doivent être améliorées.
- Génial d'entendre, en effet. Un programme rigoureux de l'auto-documentation de l'impact sur les performances, venant de différentes du monde réel cas d'utilisation et des configurations de aurait être à la fois un grave performance de l'auto-analyse comparative et de d'une immense rôle éducatif.
- Il est vraiment bon d'entendre votre avis sur la documentation. C'est aussi le mien. Mais il faut plus que des gens qui pensent qu'une bonne documentation est important de se passer. Comme je l'ai désormais à la tête d'une équipe de très peu de développeurs et de chercheur, je ne suis plus capable de faire ce travail moi-même, nous avons donc besoin de trouver des gens pour écrire de tels documents, et c'est une tâche plus difficile qu'il ne paraît.
- Pas besoin de me convaincre à propos de ce fait, l'homme. Aussi impressionné par le fait d'avoir lu la triste minuscule note de bas de page [N ° 1], liée à la phrase " Encore un problème essentiel reste du temps de calcul ", dans l'INRIA Pariétal AMPHI ad, [Pg.2] >>> team.inria.fr/parietal/files/2017/07/amphi_post_doc.pdf. C'est d'avertissement et de sonner toutes les cloches même plus.
- Quelques remarques sur une plus réaliste joblib des tests de performance + module de la performance de l'auto.la documentation a été envoyé pour votre inspiration & d'autres décisions dans des e-mails. Impatient pour le ci-dessus a annoncé de nouvelles joblib version d'arriver en public & à tous le meilleur de vos équipes de recherche.
InformationsquelleAutor Gael Varoquaux

Vous devez vous connecter pour publier un commentaire.