Python, en utilisant des serveurs multi-processus est plus lent que ne l'utilisez pas

Après avoir passé beaucoup de temps à essayer d'envelopper ma tête autour de multitraitement je suis venu avec ce code, qui est un test de référence:

Exemple 1:

from multiprocessing  import Process

class Alter(Process):
    def __init__(self, word):
        Process.__init__(self)
        self.word = word
        self.word2 = ''

    def run(self):
        # Alter string + test processing speed
        for i in range(80000):
            self.word2 = self.word2 + self.word

if __name__=='__main__':
    # Send a string to be altered
    thread1 = Alter('foo')
    thread2 = Alter('bar')
    thread1.start()
    thread2.start()

    # wait for both to finish

    thread1.join()
    thread2.join()

    print(thread1.word2)
    print(thread2.word2)

Ceci termine en 2 secondes (la moitié du temps de multithreading). Par curiosité j'ai décidé de lancer cette prochaine:

Exemple 2:

word2 = 'foo'
word3 = 'bar'

word = 'foo'
for i in range(80000):
    word2 = word2 + word

word  = 'bar'
for i in range(80000):
    word3 = word3 + word

print(word2)
print(word3)

À ma grande horreur, ce couru en moins d'une demi-seconde!

Ce qui se passe ici? Je m'attendais à le multitraitement de courir plus vite - ne devrait-elle pas complète dans la moitié de l'Exemple 2 du temps étant donné que l'Exemple 1 est l'Exemple 2, divisé en deux processus?

Mise à jour:

Après avoir tenu compte de Chris commentaires, j'ai compris le "réel" code consomment le plus de temps de traitement, et m'amène à considérer le multitraitement:

self.ListVar = [[13379+ strings],[13379+ strings],
                [13379+ strings],[13379+ strings]]

for b in range(len(self.ListVar)):
    self.list1 = []
    self.temp = []
    for n in range(len(self.ListVar[b])):
        if not self.ListVar[b][n] in self.temp:
            self.list1.insert(n, self.ListVar[b][n] + '(' + 
                              str(self.ListVar[b].count(self.ListVar[b][n])) +
                              ')')
           self.temp.insert(0, self.ListVar[b][n])

   self.ListVar[b] = list(self.list1)

OriginalL'auteur Rhys | 2012-01-08

11

ETA: Maintenant que vous avez posté votre code, je peux vous dire qu'il y est un moyen simple de faire ce que vous êtes en train de faire BEAUCOUP plus rapidement (>100 fois plus rapide).

Je vois que ce que vous faites est l'ajout d'une fréquence entre parenthèses pour chaque élément dans une liste de chaînes de caractères. Au lieu de compter tous les éléments à chaque fois (ce qui, comme vous pouvez le confirmer à l'aide de cProfile, est de loin le plus important goulot d'étranglement dans votre code), vous pouvez simplement créer un dictionnaire que les cartes de chaque élément à sa fréquence. De cette façon, vous n'avez qu'à aller dans la liste deux fois - une fois pour créer la fréquence dictionnaire, une fois de l'utiliser pour ajouter de la fréquence.

Ici, je vais vous montrer ma nouvelle méthode, le temps, et de le comparer à l'ancienne méthode, à l'aide d'un cas de test générée. Le cas de test montre même le nouveau résultat à exactement identique à l'ancien. Remarque: Tous vous avez vraiment besoin de faire attention à ci-dessous est la new_method.
```
import random
import time
import collections
import cProfile
LIST_LEN = 14000
def timefunc(f):
t = time.time()
f()
return time.time() - t
def random_string(length=3):
"""Return a random string of given length"""
return "".join([chr(random.randint(65, 90)) for i in range(length)])
class Profiler:
def __init__(self):
self.original = [[random_string() for i in range(LIST_LEN)]
for j in range(4)]
def old_method(self):
self.ListVar = self.original[:]
for b in range(len(self.ListVar)):
self.list1 = []
self.temp = []
for n in range(len(self.ListVar[b])):
if not self.ListVar[b][n] in self.temp:
self.list1.insert(n, self.ListVar[b][n] + '(' +    str(self.ListVar[b].count(self.ListVar[b][n])) + ')')
self.temp.insert(0, self.ListVar[b][n])
self.ListVar[b] = list(self.list1)
return self.ListVar
def new_method(self):
self.ListVar = self.original[:]
for i, inner_lst in enumerate(self.ListVar):
freq_dict = collections.defaultdict(int)
# create frequency dictionary
for e in inner_lst:
freq_dict[e] += 1
temp = set()
ret = []
for e in inner_lst:
if e not in temp:
ret.append(e + '(' + str(freq_dict[e]) + ')')
temp.add(e)
self.ListVar[i] = ret
return self.ListVar
def time_and_confirm(self):
"""
Time the old and new methods, and confirm they return the same value
"""
time_a = time.time()
l1 = self.old_method()
time_b = time.time()
l2 = self.new_method()
time_c = time.time()
# confirm that the two are the same
assert l1 == l2, "The old and new methods don't return the same value"
return time_b - time_a, time_c - time_b
p = Profiler()
print p.time_and_confirm()
```
Lorsque je l'exécute, il devient temps de (15.963812112808228, 0.05961179733276367), c'est environ 250 fois plus rapide, bien que cet avantage dépend de combien de temps les listes et la distribution de fréquence à l'intérieur de chaque liste. Je suis sûr que vous serez d'accord que, avec cet avantage de vitesse, vous n'aurez probablement pas besoin d'utiliser le multitraitement 🙂

(Ma réponse originale à cette question est de gauche ci-dessous pour la postérité)

ETA: Par ailleurs, il est intéressant de noter que cet algorithme est à peu près linéaire en la longueur de la liste, tandis que le code utilisé est quadratique. Cela signifie qu'il effectue avec encore plus de l'avantage le plus grand nombre d'éléments. Par exemple, si vous augmentez la longueur de chaque liste à 1000000, il ne prend que 5 secondes pour s'exécuter. Basée sur l'extrapolation, l'ancien code fallu attendre plus d'une journée 🙂

Il dépend de l'opération que vous effectuez. Par exemple:
```
import time
NUM_RANGE = 100000000
from multiprocessing  import Process
def timefunc(f):
t = time.time()
f()
return time.time() - t
def multi():
class MultiProcess(Process):
def __init__(self):
Process.__init__(self)
def run(self):
# Alter string + test processing speed
for i in xrange(NUM_RANGE):
a = 20 * 20
thread1 = MultiProcess()
thread2 = MultiProcess()
thread1.start()
thread2.start()
thread1.join()
thread2.join()
def single():
for i in xrange(NUM_RANGE):
a = 20 * 20
for i in xrange(NUM_RANGE):
a = 20 * 20
print timefunc(multi) / timefunc(single)
```
Sur ma machine, le multiprocessed opération prend seulement environ 60% du temps de la single thread.

Hey David, merci beaucoup pour le code. Je vais accepter cette réponse. Une chose cependant. peut-être que je n'ai pas été assez clair dans la question. le texte placé entre crochets nombre de chaînes ne doit compter ces chaînes dans chaque liste. par exemple. [['betty', 'harry', 'sam', 'sam'], ['gary', 'larry', 'fed', 'sam'] ...] --- faut-retour --- [['betty(1)', 'harry(1)', 'sam(2)', 'sam(2)'], ['gary(1)', 'larry(1)', 'de la fed(1)', "sam(1)'] ...]. Actuellement, lorsque je apb.set_trace() et l'appel à l'impression par exemple ListVar[0] et trouver une entrée avec '(2)' ou '(3) et de recherche pour le correspondant de la chaîne à l'intérieur de ListVar[0] ... ce n'est pas autre
Dans les deux mon code et le vôtre, il ne prend en compte que les cordes de chaque liste (pas dans l'ensemble, la liste imbriquée). Notez que la fréquence dictionnaire est recréé à chaque inner_lst. Aussi, vous montrer "sam(2)", tel qu'il apparaît deux fois dans votre exemple ici, mais la façon dont vous avez écrit le code, où il vérifie la température de la matrice de ceux qui existent déjà, il semblerait qu'une seule fois: [['betty(1)', 'harry(1)', 'sam(2)'], ['gary(1)', 'larry(1)', 'de la fed(1)', 'sam(1)']]. Les deux ma méthode et la vôtre en retour.
ok merci, votre droit sur le temp de chose qu'il ne devrait être qu'1 sam(2), je vais revérifier qu'il compte correctement de nouveau quand je serai de retour à la maison
oui, vous avez raison. tous les doublons sont supprimés, je ne pouvais pas en trouver un qui est exactement ce dont j'avais besoin. Merci beaucoup

OriginalL'auteur David Robinson
11

Cet exemple est trop petite pour bénéficier de multitraitement.

Il y a BEAUCOUP de surcharge lors du démarrage d'un nouveau processus. Si il y avait de lourdes de traitement impliqués, il serait négligeable. Mais votre exemple n'est vraiment pas intensive, et donc, vous êtes lié pour avis de la surcharge.

Vous auriez sans doute remarqué une grande différence avec de vrais fils, trop mauvais python (bien, Disponible) a des problèmes avec le CPU threading.

quelles seraient, selon vous " gros traitement. J'ai Augmenté la gamme de 100000 pour les deux exemples. Exemple1 finitions en 17sec! Exemple2 finitions en 0sec encore. J'ai essayé d'aller plus haut dans la gamme() mais Exemple1 littéralement n'a pas de retour au bout de 10 minutes
eh bien pour une chose que vous avez vous-même un exemple qui vient mange et mange de la mémoire, qui est lié à causer des problèmes. Réel lié au PROCESSEUR de traitement de code serait comme, je sais pas, la matrice de décomposition ou de quelque chose.
Je suis en essais pour les éléments suivants de l'application. Pour demander une liste de chaînes de caractères (une liste de 17000 chaînes de caractères), si (chaque) les entrées en double. et Si oui, pour ajouter que l'entrée de la chaîne avec le nombre de doublons entre parenthèses ... dois-je utiliser le multitraitement pour cela?
Rhys: vous devriez peut-être poster un extrait de votre code? Il y a peut être d'autres optimisations de performances pourrait nous laisser croire.
permettez-moi de vous donner la plus importante pièce de conseils jamais donné à moi-même: quand il s'agit de l'optimisation, de mesurer, mesurer, mesurer à nouveau. Sauf si vous commencez à courir profileurs de voir exactement où le goulot d'étranglement qui se passe, c'est que spéculation. Les processus n'ont plus de ressources que les threads. C'est un fait. Cependant, je ne peux pas dire avec 100% de confiance quel en sera l'impact de votre code.

OriginalL'auteur Chris Eberle

Multitraitement pourrait être utile pour ce que vous faites, mais pas dans la façon dont vous pensez à l'utiliser. Que vous êtes essentiellement faire quelques calculs sur chaque membre de une liste, vous pouvez le faire en utilisant le multiprocessing.Pool.map méthode, pour faire le calcul sur la liste des membres en parallèle.

Voici un exemple qui montre votre code de la performance à l'aide d'un processus unique et à l'aide de multiprocessing.Pool.map:

from multiprocessing import Pool
from random import choice
from string import printable
from time import time
def build_test_list():
# Builds a test list consisting of 5 sublists of 10000 strings each.
# each string is 20 characters long
testlist = [[], [], [], [], []]
for sublist in testlist:
for _ in xrange(10000):
sublist.append(''.join(choice(printable) for _ in xrange(20)))
return testlist
def process_list(l):
# the time-consuming code
result = []
tmp = []
for n in range(len(l)):
if l[n] not in tmp:
result.insert(n, l[n]+' ('+str(l.count(l[n]))+')')
tmp.insert(0, l[n])
return result
def single(l):
# process the test list elements using a single process
results = []
for sublist in l:
results.append(process_list(sublist))
return results
def multi(l):
# process the test list elements in parallel
pool = Pool()
results = pool.map(process_list, l)
return results
print "Building the test list..."
testlist = build_test_list()
print "Processing the test list using a single process..."
starttime = time()
singleresults = single(testlist)
singletime = time() - starttime
print "Processing the test list using multiple processes..."
starttime = time()
multiresults = multi(testlist)
multitime = time() - starttime
# make sure they both return the same thing
assert singleresults == multiresults
print "Single process: {0:.2f}sec".format(singletime)
print "Multiple processes: {0:.2f}sec".format(multitime)

De sortie:

Building the test list...
Processing the test list using a single process...
Processing the test list using multiple processes...
Single process: 34.73sec
Multiple processes: 24.97sec

Je ne pouvais pas décider à qui donner les points trop :S Vôtre et de David des réponses très bon. Je pensais lui donner les points parce qu'il a de moins en moins, mais je suis sûr que je vais être en utilisant ce code dans l'avenir. Merci j'ai appris pas beaucoup
pas de problème 😉 dès que cela a été utile, j'en suis heureux. (vous pouvez donner des points à plusieurs réponses, mais vous ne pouvez choisir l'un que LA réponse)
yep, j'ai voté pour assurer
C'est une très bonne idée en général, et quelque chose que chaque novice à multiprocessing doit être exposé à la dès que possible... mais il ne fait pas l'adresse de son problème. Il avait déjà la moitié du travail qui est fait sur chaque processus; à moins que les tâches sont très variable dans le temps nécessaire (ce qui ils ne sont pas dans votre exemple, ou son), l'ajout d'une piscine ajoute juste un peu de surcharge. Il peut encore être utile de faire pour des raisons de lisibilité et d'organisation, mais il n'est pas pour des raisons de performances. (Encore une fois, ce n'est pas vrai pour tous les problèmes, juste comme ça.)

OriginalL'auteur mdeous

0

Ce fil de discussion a été très utile!

Juste une petite observation sur la bonne deuxième code fourni par David Robinson ci-dessus (réponse Jan 8 '12 à 5:34), qui est le code plus adapté à mes besoins actuels.

Dans mon cas, j'ai eu les précédents records du temps d'exécution d'une fonction cible sans multiprocessing. Lors de l'utilisation de son code, de mettre en œuvre un traitement multiple fonction de son timefunc(multi) n'ont pas tenu compte de la durée réelle du multi, et il semblent plutôt refléter le temps qui leur est consacré dans le parent.

Ce que j'ai fait a été à l'externalisation de la fonction de chronométrage et le temps que j'ai regardé de plus comme prévu:
```
 start = timefunc()
multi()/single()
elapsed = (timefunc()-start)/(--number of workers--)
print(elapsed)
```
Dans mon cas, avec un double cœur, le temps total est effectuée par 'x' ouvriers à l'aide de la fonction cible a été deux fois plus rapide que l'exécution d'une simple boucle for-dessus de la cible de la fonction " x " des itérations.

Je suis nouveau sur le multitraitement il vous faut donc être prudent avec cette observation.

Vous ne devriez vraiment pas être le timing de cette façon; voir timeit de la bibliothèque de la bonne façon de mesurer l'horloge murale prises par votre code, mais brièvement: elapsed = timeit.timeit(multi, number=100, repeat=3) sera assurez-vous d'utiliser le droit de la fonction horloge, prendre soin des choses que vous ne pensez pas, comme la désactivation de la GC détecteur de cycle, l'exécution de votre code 100 fois, répétez le test 3 fois et prendre la valeur la plus basse de sorte que vous pouvez être sûr qu'il n'y avait pas d'externalités interférant avec le calendrier, etc.

OriginalL'auteur user3675901

Vous devez vous connecter pour publier un commentaire.