Greenlet Vs. Fils

Je suis nouveau sur gevents et greenlets. J'ai trouvé quelques une bonne documentation sur la façon de travailler avec eux, mais aucun ne m'a donné de justification sur comment et quand faut-il utiliser greenlets!

Ce qu'ils sont vraiment bon?
Est-ce une bonne idée de les utiliser dans un serveur proxy ou pas?
Pourquoi ne pas les threads?

Ce que je ne suis pas sûr de savoir comment ils peuvent nous fournir la simultanéité si ils sont fondamentalement co-routines.

C'est à propos de greenthreads en Java. Ma question est sur le greenlet en Python. Ai-je raté quelque chose ?
Autant que je sache, les threads en python sont en fait pas vraiment concurrentes en raison de la global interprète de verrouillage. Donc, il serait résument à la comparaison entre les frais généraux de ces deux solutions. Même si je comprends qu'il y a plusieurs implémentations de python, de sorte que cela peut ne pas s'appliquer pour tous.
Disponible (et PyPy dès à présent) ne va pas interpréter Python (byte)du code en parallèle (c'est vraiment physiquement dans le même temps sur les deux distinctes de cœurs de PROCESSEUR). Cependant, tout un programme en Python n'est en vertu de la GIL (exemples courants sont les syscalls, y compris les e/S et fonctions C qui, délibérément la libération de la GIL), et un threading.Thread est en fait un OS thread avec toutes les ramifications. Donc, c'est vraiment pas tout à fait aussi simple que cela. Par la voie, Jython n'a pas de GIL autant que je sache, et PyPy essaie de se débarrasser de lui aussi.

InformationsquelleAutor Rsh | 2013-03-21

178

Greenlets fournir la simultanéité, mais pas parallélisme. La simultanéité est lorsque le code peut s'exécuter indépendamment l'un de l'autre code. Le parallélisme est l'exécution de code simultané simultanément. Le parallélisme est particulièrement utile lorsqu'il y a beaucoup de travail à faire dans l'espace utilisateur, et qui est généralement CPU-lourd. La simultanéité est utile pour séparer des problèmes, permettant aux différentes parties pour être planifiée et gérée plus facilement en parallèle.

Greenlets vraiment briller dans la programmation de réseau où les interactions avec un socket peut se produire indépendamment des interactions avec d'autres supports. C'est un exemple classique de la simultanéité. Parce que chaque greenlet s'exécute dans son propre contexte, vous pouvez continuer à utiliser les Api synchrone sans filetage. C'est bien parce que les fils sont très coûteux en termes de mémoire virtuelle du noyau et des frais généraux, de sorte que la simultanéité vous pouvez atteindre avec des threads de l'est nettement moins. En outre, le filetage en Python est plus cher et plus limité que d'habitude en raison de la GIL. Des Alternatives à la simultanéité sont généralement des projets comme Tordu, libevent, libuv, node.js etc, où tous vos partages de codes le même contexte d'exécution, et d'enregistrer les gestionnaires d'événements.

C'est une excellente idée pour utiliser greenlets (avec les réseaux de soutien comme par gevent) pour la rédaction d'un proxy, comme votre traitement des demandes sont en mesure d'exécuter de manière indépendante et doit être écrit en tant que tel.

Greenlets fournir de simultanéité pour les raisons que j'ai donné plus tôt. La simultanéité n'est pas de parallélisme. En dissimulant l'enregistrement d'un événement et l'exécution de la planification pour vous sur les appels qui seraient normalement bloquer le thread en cours, des projets comme gevent exposer cette simultanéité sans avoir à modifier une API asynchrone, et à un coût nettement moins important pour votre système.
- Merci, juste deux petites questions : 1)Est-il possible de combiner cette solution avec le multitraitement de parvenir à un débit plus élevé? 2)je ne sais toujours pas pourquoi jamais utiliser des threads? Peut-on les considérer comme une naïve et mise en place de base de la simultanéité en python standard library?
- 1) Oui, absolument. Vous ne devriez pas le faire prématurément, mais à cause de tout un tas de facteurs au-delà de la portée de cette question, le fait d'avoir plusieurs processus de répondre à des demandes vous donnera un débit plus élevé. 2) OS de threads de manière préventive planifiée, et entièrement parallélisée par défaut. Ils sont par défaut en Python parce que Python expose le natif de l'interface, et les threads sont les mieux pris en charge et plus petit dénominateur commun pour les deux parallélisme et de la simultanéité dans les systèmes d'exploitation modernes.
- Je dois mentionner que vous ne devriez même pas être à l'aide de greenlets jusqu'à ce que les threads ne sont pas satisfaisants (en général, cela se produit parce que le nombre de connexions simultanées que vous êtes la manipulation, et soit le nombre de threads ou le GIL sont en vous donnant le deuil), et même alors, seulement si il n'existe pas une autre option disponible pour vous. Le Python de la bibliothèque standard, et la plupart des bibliothèques tierces attendre simultanéité à être atteint par le biais de fils, de sorte que vous pouvez obtenir un comportement étrange si vous fournissez via greenlets.
InformationsquelleAutor Matt Joiner
18

Prenant @Max de réponse et en ajoutant une certaine pertinence pour la mise à l'échelle, vous pouvez voir la différence. J'ai réalisé cela en modifiant l'Url à être rempli comme suit:
```
URLS_base = ['www.google.com', 'www.example.com', 'www.python.org', 'www.yahoo.com', 'www.ubc.ca', 'www.wikipedia.org']
URLS = []
for _ in range(10000):
    for url in URLS_base:
        URLS.append(url)
```
J'ai dû abandonner le multi process version car il est tombé avant que j'ai eu 500; mais à 10 000 itérations:
```
Using gevent it took: 3.756914
-----------
Using multi-threading it took: 15.797028
```
De sorte que vous pouvez le voir il ya une certaine différence significative dans les I/O à l'aide de gevent
- il est tout à fait incorrect de spawn 60000 natif des threads ou processus pour terminer le travail et ce test ne montre rien (aussi avez-vous pris le délai d'attente hors de la gevent.joinall() l'appel?). Essayez d'utiliser un pool de threads d'environ 50 threads, voir ma réponse: stackoverflow.com/a/51932442/34549
InformationsquelleAutor TemporalBeing
8

C'est assez intéressant à analyser.
Voici un code pour comparer les performances des greenlets contre le multitraitement piscine versus multi-threading:
```
import gevent
from gevent import socket as gsock
import socket as sock
from multiprocessing import Pool
from threading import Thread
from datetime import datetime
class IpGetter(Thread):
def __init__(self, domain):
Thread.__init__(self)
self.domain = domain
def run(self):
self.ip = sock.gethostbyname(self.domain)
if __name__ == "__main__":
URLS = ['www.google.com', 'www.example.com', 'www.python.org', 'www.yahoo.com', 'www.ubc.ca', 'www.wikipedia.org']
t1 = datetime.now()
jobs = [gevent.spawn(gsock.gethostbyname, url) for url in URLS]
gevent.joinall(jobs, timeout=2)
t2 = datetime.now()
print "Using gevent it took: %s" % (t2-t1).total_seconds()
print "-----------"
t1 = datetime.now()
pool = Pool(len(URLS))
results = pool.map(sock.gethostbyname, URLS)
t2 = datetime.now()
pool.close()
print "Using multiprocessing it took: %s" % (t2-t1).total_seconds()
print "-----------"
t1 = datetime.now()
threads = []
for url in URLS:
t = IpGetter(url)
t.start()
threads.append(t)
for t in threads:
t.join()
t2 = datetime.now()
print "Using multi-threading it took: %s" % (t2-t1).total_seconds()
```
voici les résultats:
```
Using gevent it took: 0.083758
-----------
Using multiprocessing it took: 0.023633
-----------
Using multi-threading it took: 0.008327
```
Je pense que greenlet prétend qu'il n'est pas lié par GIL contrairement à la multithreading bibliothèque. En outre, Greenlet doc a dit qu'il est destiné aux opérations de réseau. Pour un réseau intensif de l'opération, le fil de commutation est très bien et vous pouvez voir que l'approche de multithreading est assez rapide.
Aussi il est toujours prefeerable utiliser python officiel de bibliothèques; j'ai essayé d'installer greenlet sur windows et rencontré une dépendance dll problème et j'ai effectué ce test sur une machine virtuelle linux.
Toujours essayer d'écrire un code avec l'espoir qu'il fonctionne sur n'importe quelle machine.
- Notez que getsockbyname met en cache les résultats au niveau de l'OS (du moins sur ma machine, il n'). Lorsqu'il est appelé sur une inconnue ou expiré DNS il va effectuer une requête réseau, qui pourrait prendre un certain temps. Lorsqu'elle est appelée sur un nom d'hôte qui a tout récemment été résolu il sera de retour la réponse beaucoup plus rapide. Par conséquent, votre méthode de mesure est erronée ici. C'est ce qui explique votre étrange résultats gevent ne peut pas vraiment être bien pire que le multithreading - les deux ne sont pas-vraiment-parallèle, au niveau de la VM.
- c'est un excellent point. Vous devez exécuter le test plusieurs fois, et à prendre les moyens, modes et les valeurs de la médiane pour obtenir une bonne image. Notez également que les routeurs cache itinéraire des chemins pour les protocoles et où ils n'ont pas de cache itinéraire des chemins que vous pourriez obtenir gal de différentes dns route chemin de la circulation. Et les serveurs dns fortement cache. Il pourrait être préférable de mesurer le filetage à l'aide de temps.clock (), où les cycles de processeur sont utilisés au lieu d'être réalisée par des temps de latence plus de matériel réseau. Cela pourrait éliminer d'autres services OS se faufiler dans et en ajoutant de temps à partir de vos mesures.
- Oh, et vous pouvez exécuter une flush dns au niveau de l'OS entre ces trois tests mais encore une fois cela ne ferait que réduire le nombre de fausses données à partir de la mise en cache dns local.
- Yup. L'exécution de cette nettoyé version: paste.ubuntu.com/p/pg3KTzT2FG je obtenir à peu près identiques-ish fois... using_gevent() 421.442985535ms using_multiprocessing() 394.540071487ms using_multithreading() 402.48298645ms
- Je pense que OSX est en train de faire la mise en cache dns, mais sur Linux, il n'est pas un "défaut" de chose: stackoverflow.com/a/11021207/34549 , donc oui, à de faibles niveaux de simultanéité greenlets sont encore pire à cause de l'interprète de frais généraux
InformationsquelleAutor max

Correction pour @TemporalBeing 's réponse ci-dessus, greenlets ne sont pas "plus vite" que les threads et c'est une mauvaise technique de programmation pour frayer 60000 fils de résoudre un des problèmes de simultanéité, un petit pool de threads est plutôt approprié. Ici, c'est un plus raisonnable de comparaison (à partir de mon reddit post en réponse aux personnes en citant cette SORTE de post).

import gevent
from gevent import socket as gsock
import socket as sock
import threading
from datetime import datetime
def timeit(fn, URLS):
t1 = datetime.now()
fn()
t2 = datetime.now()
print(
"%s /%d hostnames, %s seconds" % (
fn.__name__,
len(URLS),
(t2 - t1).total_seconds()
)
)
def run_gevent_without_a_timeout():
ip_numbers = []
def greenlet(domain_name):
ip_numbers.append(gsock.gethostbyname(domain_name))
jobs = [gevent.spawn(greenlet, domain_name) for domain_name in URLS]
gevent.joinall(jobs)
assert len(ip_numbers) == len(URLS)
def run_threads_correctly():
ip_numbers = []
def process():
while queue:
try:
domain_name = queue.pop()
except IndexError:
pass
else:
ip_numbers.append(sock.gethostbyname(domain_name))
threads = [threading.Thread(target=process) for i in range(50)]
queue = list(URLS)
for t in threads:
t.start()
for t in threads:
t.join()
assert len(ip_numbers) == len(URLS)
URLS_base = ['www.google.com', 'www.example.com', 'www.python.org',
'www.yahoo.com', 'www.ubc.ca', 'www.wikipedia.org']
for NUM in (5, 50, 500, 5000, 10000):
URLS = []
for _ in range(NUM):
for url in URLS_base:
URLS.append(url)
print("--------------------")
timeit(run_gevent_without_a_timeout, URLS)
timeit(run_threads_correctly, URLS)

Voici quelques résultats:

--------------------
run_gevent_without_a_timeout / 30 hostnames, 0.044888 seconds
run_threads_correctly / 30 hostnames, 0.019389 seconds
--------------------
run_gevent_without_a_timeout / 300 hostnames, 0.186045 seconds
run_threads_correctly / 300 hostnames, 0.153808 seconds
--------------------
run_gevent_without_a_timeout / 3000 hostnames, 1.834089 seconds
run_threads_correctly / 3000 hostnames, 1.569523 seconds
--------------------
run_gevent_without_a_timeout / 30000 hostnames, 19.030259 seconds
run_threads_correctly / 30000 hostnames, 15.163603 seconds
--------------------
run_gevent_without_a_timeout / 60000 hostnames, 35.770358 seconds
run_threads_correctly / 60000 hostnames, 29.864083 seconds

le malentendu tout le monde a au sujet de la non-bloquant IO avec Python est la croyance que l'interpréteur Python peuvent assister aux travaux de l'extraction des résultats à partir de sockets à grande échelle, plus rapide que les connexions réseau eux-mêmes, de retour IO. Tout cela est certainement vrai dans certains cas, il n'est pas vrai presque aussi souvent que les gens pensent, parce que l'interpréteur Python est vraiment, vraiment lent. Dans mon billet de blog ici, je illustrent quelques graphiques qui montrent que, même pour des choses très simples, si vous traitez avec des chips et rapide d'accès au réseau pour des choses comme des bases de données ou des serveurs DNS, ces services peuvent revenir beaucoup plus rapide que le code Python peut assister à plusieurs milliers de ces connexions.

InformationsquelleAutor zzzeek

Vous devez vous connecter pour publier un commentaire.