Comment obtenir une vitesse plus rapide lors de l'utilisation de multi-threading en python

Maintenant, je suis en train d'étudier comment extraire les données de site aussi vite que possible. Pour obtenir une vitesse plus rapide, im vu de l'utilisation de multi-thread. Voici le code que j'ai utilisé pour tester la différence entre le multi-thread et simple post.

import threading
import time
import urllib
import urllib2


class Post:

    def __init__(self, website, data, mode):
        self.website = website
        self.data = data

        #mode is either "Simple"(Simple POST) or "Multiple"(Multi-thread POST)
        self.mode = mode

    def post(self):

        #post data
        req = urllib2.Request(self.website)
        open_url = urllib2.urlopen(req, self.data)

        if self.mode == "Multiple":
            time.sleep(0.001)

        #read HTMLData
        HTMLData = open_url.read()



        print "OK"

if __name__ == "__main__":

    current_post = Post("http://forum.xda-developers.com/login.php", "vb_login_username=test&vb_login_password&securitytoken=guest&do=login", \
                        "Simple")

    #save the time before post data
    origin_time = time.time()

    if(current_post.mode == "Multiple"):

        #multithreading POST

        for i in range(0, 10):
           thread = threading.Thread(target = current_post.post)
           thread.start()
           thread.join()

        #calculate the time interval
        time_interval = time.time() - origin_time

        print time_interval

    if(current_post.mode == "Simple"):

        #simple POST

        for i in range(0, 10):
            current_post.post()

        #calculate the time interval
        time_interval = time.time() - origin_time

        print time_interval

comme vous pouvez le voir, c'est un code très simple. j'ai d'abord définir le mode "Simple", et je peux obtenir l'intervalle de temps: années 50(peut-être que ma vitesse est un peu lent :(). puis j'ai mis le mode "Multiple", et je obtenir l'intervalle de temps: 35. à partir de ce que je peux voir, multi-thread peut en fait augmenter la vitesse, mais le résultat n'est pas aussi bon que je l'imagine. je veux obtenir une vitesse beaucoup plus rapide.

de débogage, j'ai trouvé que le programme principalement des blocs à la ligne: open_url = urllib2.urlopen(req, self.data), cette ligne de code prend beaucoup de temps pour poster et recevoir les données provenant de ce site web. je suppose que je peux peut-être obtenir une vitesse plus rapide par ajout de time.sleep() et de l'utilisation de multi-threading à l'intérieur de la urlopen fonction, mais je ne peux pas le faire parce que ses le python, la fonction.

si ne pas considérer le prossible limites que le serveur bloque le post de vitesse, que puis-je faire pour obtenir la plus grande vitesse? ou tout autre code, je peux modifier? merci beaucoup!

threading est une mauvaise idée en python, il devient un goulot d'étranglement facilement et peut se faire piéger par le GIL, essayez de multitraitement.
les threads sont un détail de l'implémentation ici, l'accent est d'avoir de multiples connexions ouvertes. Le GIL aspect de threads en Python n'a pas de rôle ici que ce soit.
vous devriez vraiment lire sur GIL et le filetage avant de faire des déclarations comme ça... commencez ici: PyCon 2010: la Compréhension de l'Python GIL

InformationsquelleAutor Searene | 2012-04-14

Dans de nombreux cas, le python de thread n'est pas d'améliorer la vitesse d'exécution très bien... parfois, il fait qu'empirer les choses. Pour plus d'informations, voir David Beazley de PyCon2010 présentation Mondiale de l'Interprète de Verrouillage /Pycon2010 GIL dias. Cette présentation est très instructif, je le recommande fortement à toute personne qui envisage de filetage...

Même si David Beazley parler explique que le trafic réseau qui améliore la planification de Python module threading, vous devez utiliser le module multiprocessing. J'ai inclus cette option dans votre code (voir en bas de ma réponse).

L'exécution de ce sur une de mes anciennes machines (Python 2.6.6):

current_post.mode == "Process"  (multiprocessing)  --> 0.2609 seconds
current_post.mode == "Multiple" (threading)        --> 0.3947 seconds
current_post.mode == "Simple"   (serial execution) --> 1.650 seconds

Je suis d'accord avec TokenMacGuy commentaire et les chiffres ci-dessus comprennent le déplacement des .join() à une autre boucle. Comme vous pouvez le voir, python multitraitement est nettement plus rapide que le filetage.

from multiprocessing import Process
import threading
import time
import urllib
import urllib2
class Post:
def __init__(self, website, data, mode):
self.website = website
self.data = data
#mode is either:
#   "Simple"      (Simple POST)
#   "Multiple"    (Multi-thread POST)
#   "Process"     (Multiprocessing)
self.mode = mode
self.run_job()
def post(self):
#post data
req = urllib2.Request(self.website)
open_url = urllib2.urlopen(req, self.data)
if self.mode == "Multiple":
time.sleep(0.001)
#read HTMLData
HTMLData = open_url.read()
#print "OK"
def run_job(self):
"""This was refactored from the OP's code"""
origin_time = time.time()
if(self.mode == "Multiple"):
#multithreading POST
threads = list()
for i in range(0, 10):
thread = threading.Thread(target = self.post)
thread.start()
threads.append(thread)
for thread in threads:
thread.join()
#calculate the time interval
time_interval = time.time() - origin_time
print "mode - {0}: {1}".format(method, time_interval)
if(self.mode == "Process"):
#multiprocessing POST
processes = list()
for i in range(0, 10):
process = Process(target=self.post)
process.start()
processes.append(process)
for process in processes:
process.join()
#calculate the time interval
time_interval = time.time() - origin_time
print "mode - {0}: {1}".format(method, time_interval)
if(self.mode == "Simple"):
#simple POST
for i in range(0, 10):
self.post()
#calculate the time interval
time_interval = time.time() - origin_time
print "mode - {0}: {1}".format(method, time_interval)
return time_interval
if __name__ == "__main__":
for method in ["Process", "Multiple", "Simple"]:
Post("http://forum.xda-developers.com/login.php", 
"vb_login_username=test&vb_login_password&securitytoken=guest&do=login",
method
)

thx a lot. multitraitement est une bonne idée, son effet un peu plus vite que le multi-threading sur mon ordinateur. merci à vous tous. j'ai appris beaucoup de la question.
Je dirais que 33% d'amélioration de la vitesse est plus qu'un peu plus vite, mais peu importe je vous souhaite bien sur votre projet.
Un code de la mine, que tout s'explique .ods fichiers avec pyexcel_ods bibliothèque et 200 threads / processus (ou 1 si mode simple), un comportement similaire donne: Simple = 16s Multiple = 28s (???) Processus = 6s Merci homme.

InformationsquelleAutor Mike Pennington

8

La plus grande chose que vous faites mal, c'est de blesser votre débit le plus, c'est la façon dont vous appelez thread.start() et thread.join():
```
for i in range(0, 10):
thread = threading.Thread(target = current_post.post)
thread.start()
thread.join()
```
Chaque passage dans la boucle, vous créer un thread, le lancer, et puis attendez la fin de la Avant de passer à la suivante fil. Vous ne faites rien, simultanément, à tous!

Ce que vous devriez probablement faire de la place, c'est:
```
threads = []
# start all of the threads
for i in range(0, 10):
thread = threading.Thread(target = current_post.post)
thread.start()
threads.append(thread)
# now wait for them all to finish
for thread in threads:
thread.join()
```
- Je n'ai même pas regarder si loin vers le bas. Rejoindre après recommencer 🙁
- C'est une amélioration progressive, mais peu importe ce que python threads existants sont terribles. Nous devrions recommander de multitraitement; voir ma réponse.
- ce n'est pas une amélioration à tous; à l'aide du Code MarkZar fourni, Il a amélioré l'exécution dans mes tests à partir d'environ 20 secoonds à moins d'une demi-seconde. cela a du sens, puisque http utilise un minimum d'UC, mais est très sensible à la latence du réseau, et donc à l'aide d' threading au lieu de multiprocessing est une solution raisonnable. Cela va doubler si un Keep-Alive http client ont été utilisés (urlib3 était d'environ 30% plus rapide que la urllib2 dans mon fixe de filetage tests, aucune amélioration du contraire), ce qui ne serait pas disponible à travers le processus.
- HTTP en python peuvent utiliser beaucoup de CPU alors que la requête est analysée. C'est vraiment en outre le point, comme David Beazley la présentation fait très clair. Il n'y a pas de bonne solution de planification entre les threads en Python... comme vous pouvez le voir multitraitement est nettement plus rapide que python threads.
- "En conclusion: Ne pas utiliser cette discussion pour justifier de ne pas utiliser des threads. Les Threads sont un très bon outil de programmation pour de nombreux types de problèmes de concurrence d'accès. Les fils peuvent également offrir d'excellentes performances, même avec le GIL (vous devez l'étudier)." Cf: Comprendre le GIL par David Beazley
- c'est vrai... j'ai utilisé données pour justifier le multitraitement vs fils... je n'ai pas simplement utiliser sa présentation
InformationsquelleAutor SingleNegationElimination
1

Gardez à l'esprit que le seul cas où le multi-threading peut "augmenter la vitesse" en Python, c'est quand vous avez opérations comme celui-ci qui sont fortement I/O bound. Sinon le multi-threading n'augmente pas de "vitesse" car il ne peut pas fonctionner sur plus d'un CPU (non, pas même si vous disposez de plusieurs cœurs, python ne fonctionne pas de cette façon). Vous devez utiliser le multi-threading lorsque vous souhaitez que deux choses à faire en même temps, pas quand vous avez besoin de deux choses pour être parallèle (c'est à dire deux processus en cours d'exécution séparément).

Maintenant, ce que vous êtes en train de faire ne sera pas réellement d'augmenter la vitesse de recherche DNS, mais il permettra aussi de multiples demandes à être tiré en attendant les résultats de certains autres, mais vous devez faire attention à la façon dont beaucoup vous faire ou vous faites juste le temps de réponse encore pire qu'ils ne le sont déjà.

Aussi s'il vous plaît arrêter d'utiliser urllib2, et l'utilisation des Demandes: http://docs.python-requests.org

InformationsquelleAutor Wes
0

Une recherche DNS prend du temps. Il n'y a rien que vous pouvez faire à ce sujet. De grosses latences sont l'une des raisons pour l'utilisation de plusieurs threads en premier lieu - de multiples recherches site de petite annonce GET/POST, peut alors se produire en parallèle.

De vidage de la fonction sleep() - ce n'est pas aider.
- Thx, mais je n'en ai confondu pourquoi time.sleep() est inutile. En effet, il fonctionne aussi bien après dumping sleep(), mais comment peut-il réaliser multi-thread sans sleep()? python exécuter les threads différents intervalles aléatoires automatiquement? si oui, qui est l'utilisation de sleep() fonction?
- Il n'est pas inutile, simplement inapproprié ici. L'utilisation de sommeil il y a des charges. 'Après la mise en marche de la pompe, attendez au moins dix secondes pour que la pression se stabilise avant l'ouverture de la vanne d'alimentation'.
InformationsquelleAutor Martin James

Vous devez vous connecter pour publier un commentaire.