Threads vs Processus dans Linux

J'ai récemment entendu quelques personnes dire que sous Linux, il est presque toujours préférable d'utiliser des processus au lieu de threads, étant donné que Linux est très efficace dans le traitement des processus, et parce qu'il ya tellement de nombreux problèmes (tels que le verrouillage) associés avec les threads. Cependant, je me méfie, car il semble que les threads pourrait donner un assez gros gain de performances dans certaines situations.

Donc ma question est, lorsqu'ils sont confrontés à une situation que les threads et les processus pourrait à la fois gérer assez bien, dois-je utiliser des threads ou processus? Par exemple, si j'avais écrit un serveur web dois-je utiliser des threads ou processus (ou une combinaison)?

Est-il une différence avec Linux 2.4?
La différence entre les processus et les threads sous Linux 2.4, c'est que les threads partagent plusieurs parties de leur état (espace d'adressage, les descripteurs de fichiers, etc) que sur les processus, qui n'est généralement pas le cas. La NPTL sous Linux 2.6, en fait un peu plus clair, en leur donnant "thread groupes" qui sont un peu comme des "processus" dans win32 et Solaris.
Oui, NPTL est agréable: il fait des choses comme tuer, exec, etc. travailler comme vous pouvez vous attendre dans un programme multi-threadé (l'ancien LinuxThreads comportements de sens compte tenu de la mise en œuvre, mais ont été dégueulasse). Otoh, que d'un "groupe de thread" est juste une collection de "fils", et ne prennent pas vraiment de ressources lui-même, c'est donc un ton plus léger qu'un NT ou Solaris processus.
httpd.apache.org/docs/2.0/mod/worker.html est la valeur par défaut pour le serveur web apache. son multi processus multi-thread de configuration.
La programmation simultanée est difficile. Sauf si vous avez besoin de très haute performance, l'aspect le plus important dans votre compromis sera souvent le difficulté de débogage. Processus pour le beaucoup plus facile de solution à cet égard, parce que toute communication est explicite (facile à vérifier, journal, etc.). En revanche, la mémoire partagée threads crée des gazillions de lieux où un thread peut, à tort, de l'impact de l'autre.
La programmation simultanée peut être multi-thread ainsi que multi-processus. Je ne vois pas pourquoi vous êtes en supposant que la programmation simultanée est multithread seulement. Il pourrait être en raison de certaines limitations de langue, mais en général, il peut être les deux.
Je lien Lutz est simplement indiqué que la programmation simultanée est difficile, selon ce qui est choisi processus ou threads - mais que, parallèlement à la programmation à l'aide de processus facilite le débogage dans de nombreux cas.

InformationsquelleAutor user17918 | 2009-04-30

303

Linux utilise un 1-1 modèle de thread, avec (pour le noyau) pas de distinction entre les processus et les threads -- tout est simplement une tâche exécutable. *

Sur Linux, le système d'appel clone clones d'une tâche, avec une configurables niveau de partage qui sont, entre autres:
- CLONE_FILES: partager le même fichier descripteur de table (au lieu de créer une copie)
- CLONE_PARENT: ne pas configurer une relation parent-enfant entre à la tâche de nouveau et de l'ancien (sinon, l'enfant getppid() = parent getpid())
- CLONE_VM: partager le même espace mémoire (au lieu de créer un VACHE copie)
fork() appels clone(moins de partage) et pthread_create() appels clone(de partage plus). **

forking coûte un tout petit peu plus de pthread_createing en raison de la copie de tables et création de VACHE mappages de la mémoire, mais les développeurs du noyau Linux ont essayé (et réussi) à minimiser les coûts.

De commutation entre les tâches, si elles partagent le même espace mémoire et divers tableaux, sera un tout petit peu moins cher que si ils ne sont pas partagés, car les données peuvent déjà être chargées dans le cache. Cependant, les tâches de commutation est toujours très rapide, même si rien n'est partagé -- c'est autre chose que les développeurs du noyau Linux essayer de faire en sorte (et de réussir à assurer).

En fait, si vous êtes sur un système multi-processeur, pas partage de l'information peut être bénéfique à la performance: si la tâche est en cours d'exécution sur un processeur différent, la synchronisation de la mémoire partagée est cher.

* Simplifié. CLONE_THREAD causes des signaux de livraison à usage en commun (qui doit CLONE_SIGHAND, qui partage le gestionnaire de signal de la table).

** Simplifié. Il existe deux SYS_fork et SYS_clone syscalls, mais dans le noyau, le sys_fork et sys_clone sont à la fois très mince wrappers autour de la même do_fork fonction, qui elle-même est une fine enveloppe copy_process. Oui, les termes process, thread, et task sont plutôt utilisés de façon interchangeable dans le noyau Linux...
- Je pense qu'il nous manque 1 point. Si vous effectuez plusieurs processus de votre serveur web, alors vous devez écrire un autre processus pour ouvrir le socket et le pass 'travail' pour les différents threads. Threading offre un processus unique de plusieurs threads, au design épuré. Dans de nombreuses situations fil est tout à fait naturel et dans d'autres situations, un nouveau processus est tout à fait naturel. Lorsque le problème tombe dans une zone grise de l'autre compromis, comme expliqué par ephemient devient important.
- Pas vraiment. Vous pouvez facilement socket, bind, listen, fork, puis ont de multiples processus accept connexions sur le même socket d'écoute. Un processus peut cesser d'accepter si elle est occupée, et le noyau de la route les connexions entrantes vers un autre processus (si personne n'est à l'écoute, noyau de la file d'attente ou à la baisse, en fonction de listen carnet de commandes). Vous n'avez pas beaucoup plus de contrôle sur la répartition du travail que cela, mais généralement c'est assez bon!
- "les données peuvent déjà être chargé dans le cache" - ce que cache exactement?
- Naxa, le cache qui est visé est celui de la table des pages en cache. La VACHE s'assure que les deux threads partagent la même mémoire - c'est à dire, chaque thread va point à la même place en mémoire pour les données du programme. Cela signifie que le noyau n'a pas eu à effectuer tout échange/de la pagination, car les données sont déjà là, sans doute déjà chargé dans la mémoire principale.
- Il y a une chose que je ne comprends pas à partir de cette réponse: Si les threads et les processus sont les mêmes pour linux, quand et comment pouvons-nous atteindre de partage des ressources pour les threads?
- Tous les processus/threads sous Linux sont créés par le même mécanisme, qui clones un processus/thread. Indicateurs transmis à clone() déterminer les ressources sont partagées. Une tâche peut également unshare() ressources à tout autre point dans le temps.
- Un seul processus peut contenir plusieurs threads et donc comment est-il vrai que les termes de processus, thread, et les tâches sont plutôt utilisés de façon interchangeable dans le noyau Linux. Pouvez vous s'il vous plaît point exactement où il est affirmé dans linux ?
- Dans le noyau lui-même, il y a un task_struct pour chaque tâche. Ceci est souvent appelé un "processus" dans tout le code du noyau, mais il correspond à chaque exécutable fil. Il n'y a pas de process_struct; si un groupe de task_structs sont liés par leur thread_group liste, alors qu'ils sont de la même "processus" à l'espace utilisateur. Il y a un peu de manutention spéciale de "thread"s, par exemple, tous les, de frère, de fils sont arrêtés sur fork et exec, et seul le "principal" fil s'affiche dans ls /proc. Chaque fil est accessible via /proc/pid cependant, si elle n'est répertorié dans /proc ou pas.
- Le noyau prend en charge un continuum de comportement entre les threads et les processus; par exemple, clone(CLONE_THREAD | CLONE_VM | CLONE_SIGHAND)) vous donnerait un nouveau "thread" qui ne partagent pas le répertoire de travail, des fichiers ou des serrures, tandis que clone(CLONE_FILES | CLONE_FS | CLONE_IO) serait de vous donner un "processus" qui ne. Le système sous-jacent crée des tâches par clonage; fork() et pthread_create() sont juste des fonctions de la bibliothèque qui l'invoque, clone() différemment (comme je l'ai écrit dans cette réponse).
- Vous mentionnez que ne partage peut-être bon sur les systèmes multiprocesseurs. Cependant, juste en utilisant le multitraitement ne garantit pas que nous ne seront pas synchronisés. Esp. si l'on utilise de la mémoire partagée et pas de messagerie.
InformationsquelleAutor ephemient
57

Linux (et Unix) vous donne une troisième option.

Option 1 - processus de

Créer un exécutable autonome qui gère une partie (ou de la totalité) de votre application, et de l'invoquer séparément pour chaque processus, par exemple, le programme exécute des copies de lui-même à déléguer des tâches.

Option 2 - fils

Créer un exécutable autonome qui démarre avec un seul fil, et créer des threads supplémentaires pour certaines tâches

Option 3 - fourche

Uniquement disponible sous Linux/Unix, c'est un peu différent. Un fork du processus est vraiment son propre processus avec son propre espace d'adressage - il n'y a rien que l'enfant peut faire (normalement) pour affecter l'un de ses parents ou les frères et sœurs de l'espace d'adresse (contrairement à un fil) - de sorte que vous obtenez une plus grande robustesse.

Cependant, les pages de mémoire ne sont pas copiés, ils sont de copie sur écriture, donc moins de mémoire est généralement utilisé que vous pourriez imaginer.

Envisager un programme de serveur web qui se compose de deux étapes:
1. Lire la configuration et les données d'exécution
2. Servir les demandes de page
Si vous avez utilisé les threads, l'étape 1 serait fait une fois, et l'étape 2 fait dans plusieurs threads. Si vous avez utilisé "traditionnel", les processus, les étapes 1 et 2 devront être répétées pour chaque processus, et de la mémoire pour stocker la configuration de l'exécution et des données dupliquées. Si vous avez utilisé fork(), alors vous pouvez faire l'étape 1 une fois, et puis fork(), laissant les données d'exécution et de configuration en mémoire, intacte et non copié.

Donc il y a vraiment trois choix.
- la fourche n'est pas cool, ça casse beaucoup de bibliothèques, de manière subtile (si vous les utilisez dans le processus parent). Il crée des comportements inattendus qui confond même les programmeurs expérimentés.
- pourriez-vous donner quelques exemples ou d'un lien de comment faire un fork de sauts de bibliothèque et crée un comportement inattendu?
- Si un processus de fourches avec une ouverture de connexion mysql, de mauvaises choses arrivent, comme le support est partagé entre deux processus. Même si un seul processus utilise la connexion, l'autre cesse d'être fermée.
- appel système fork() est spécifiée par POSIX (ce qui signifie qu'il est disponible sur tous les systèmes Unix), si vous avez utilisé le Linux sous-jacent de l'API, qui est le clone() de l'appel système, alors vous avez réellement besoin d'encore plus de choix dans Linux que seulement trois.
- Le partage de la prise est par la conception. En outre, les processus peuvent fermer le socket à l'aide de linux.die.net/man/2/shutdown avant d'appeler close() sur la socket.
InformationsquelleAutor MarkR
50

Qui dépend de beaucoup de facteurs. Les processus sont plus lourdes que les threads, et ont un meilleur démarrage et d'arrêt de coût. Communication interprocessus (IPC) est également plus difficile et plus lente que interthread communication.

À l'inverse, les processus sont plus sécuritaires que les threads, car chaque processus s'exécute dans son propre espace d'adressage virtuel. Si un processus tombe en panne ou a un dépassement de tampon, il n'affecte pas les autres processus à tous, alors que si un thread se bloque, il prend toutes les autres threads du processus, et si un thread a un dépassement de tampon, il ouvre un trou de sécurité dans tous les threads.

Donc, si votre application, les modules peuvent fonctionner essentiellement de façon autonome avec peu de communication, vous devriez probablement utiliser des processus si vous pouvez vous permettre le démarrage et l'arrêt des coûts. L'impact sur les performances de l'IPC sera minime, et vous serez légèrement plus sûr contre les bugs et failles de sécurité. Si vous avez besoin de tous les bits de l'exécution, vous pouvez obtenir ou ont un grand nombre de données partagées (comme les structures de données complexes), aller avec les threads.
- Adam de la réponse pourrait bien servir une information de la haute direction. Pour plus de détails, MarkR et ephemient fournir de bonnes explications. Un très explication détaillée avec des exemples peuvent être trouvés à la cs.cf.ac.uk/Dave/C/node29.html mais il ne semble pas être un peu daté dans les pièces.
- CyberFonic est vrai pour Windows. Comme ephemient dit sous Linux, les processus ne sont pas plus lourds. Et sous Linux, tous les mécanismes disponibles pour la communication entre les threads (futex est,de mémoire partagée, des tuyaux, de l'IPC) est également disponible pour les processus et tournent à la même vitesse.
InformationsquelleAutor Adam Rosenfield
10

D'autres ont discuté de la des considérations.

Peut-être la différence importante est que, dans les processus Windows sont lourdes et coûteuses par rapport aux threads, et dans Linux, la différence est beaucoup plus petit, donc l'équation soldes à un point différent.

InformationsquelleAutor dmckee
8

Une fois, il y a Unix et dans ce bon vieux Unix il y avait beaucoup de frais généraux pour les processus, de sorte à ce que certains gens intelligents n'était de créer des threads, qui permettrait de partager le même espace d'adressage avec le processus parent et ils ont seulement besoin d'une réduction de changement de contexte, ce qui rendrait le changement de contexte plus efficace.

Dans un style contemporain de Linux (2.6.x) il n'y a pas beaucoup de différence de performances entre un changement de contexte d'un processus par rapport à un fil (uniquement la MMU les trucs supplémentaires pour la discussion).
Là est le problème avec l'espace d'adressage partagé, ce qui signifie qu'un mauvais pointeur dans un thread peut corrompre la mémoire du processus parent ou un autre thread dans le même espace d'adressage.

Un processus est protégé par la MMU, donc un mauvais pointeur va juste provoquer un signal de 11 et de la corruption.

En général je dirais utilisation des processus (pas beaucoup de changement de contexte généraux dans Linux, mais la protection de la mémoire en raison de MMU), mais pthreads si j'aurais besoin d'un temps réel planificateur de classe, ce qui est une autre tasse de thé tous ensemble.

Pourquoi pensez-vous que les fils sont un aussi gros gain de performance sur Linux? Avez-vous des données pour cela, ou est-ce qu'un mythe?
- Oui, j'ai quelques données. J'ai couru un test qui crée de 100 000 et des processus de test qui crée de 100 000 threads. Le fil version a couru environ 9 fois plus rapide (17.38 secondes pour les processus, 1.93 pour les threads). Maintenant, ce n'est seulement un test de temps de création, mais de courte durée des tâches, le temps de création peut être la clé.
- Est-il possible pour vous de partager le code utilisé par le calcul ci-dessus mentionné timings ..
- un autre point important, les processus, le noyau de la page créer une table pour chaque processus et theads utiliser qu'une seule page les tables, donc je pense est normal que les fils sont plus rapides, puis les processus de
- Un autre moyen simple de voir les choses est de TCB est assez plus petits que les PCB et ainsi il est évident que le processus de changement de contexte qui implique PCB consomment peu plus de temps que celui de la commutation des threads.
InformationsquelleAutor robert.berger
5

Comment étroitement couplées sont vos tâches?

Si ils peuvent vivre de façon indépendante les uns des autres, puis d'utiliser les processus. Si ils comptent les uns sur les autres, puis utiliser des threads. De cette façon, vous pouvez arrêter et redémarrer un mauvais processus sans interférer avec le fonctionnement des autres tâches.

InformationsquelleAutor Robert
4

Pour compliquer encore les choses, il ya une telle chose comme fil de stockage local, et Unix mémoire partagée.

Thread-local de stockage permet à chaque thread d'avoir une instance distincte des objets globaux. La seule fois où je l'ai utilisé c'était lors de la construction d'un environnement d'émulation sous linux/windows, pour le code de l'application qui a couru dans un RTOS. Dans le RTOS chaque tâche a été un processus avec son propre espace d'adressage, dans l'environnement d'émulation, chaque tâche a un thread (avec un espace d'adressage partagé). À l'aide de TLS pour des choses comme des singletons, nous avons été en mesure d'avoir une instance distincte pour chaque thread, juste comme dans le "vrai" système d'exploitation temps réel de l'environnement.

De la mémoire partagée peut (évidemment), de vous donner les avantages de performance d'avoir plusieurs processus d'accès à la mémoire, mais le rapport coût/risque d'avoir à synchroniser les processus correctement. Une façon de le faire est d'avoir un processus de créer une structure de données dans la mémoire partagée, et ensuite envoyer une poignée pour que la structure via traditionnels de communication inter-processus (comme un tube nommé).
- J'ai utilisé du fil de stockage local pour certains de la collecte des statistiques, la dernière fois que j'écrivais une tige de réseaux programme: chaque thread a écrit à ses propres compteurs, pas de verrous nécessaires, et seulement quand messaged chaque thread combiner ses stats dans les totaux mondiaux. Mais ouais, TLS n'est pas très couramment utilisés ou nécessaires. De mémoire partagée, d'autre part... en plus efficacement l'envoi de données, vous pouvez également partager les sémaphores POSIX entre les processus en les plaçant dans la mémoire partagée. C'est assez incroyable.
InformationsquelleAutor KeyserSoze
3

Je dois d'accord avec ce que vous avez entendu. Lorsque nous comparons notre cluster (xhpl et par exemple), nous avons toujours obtenir de bien meilleures performances, avec des procédés plus de threads. </anecdote>

InformationsquelleAutor eduffy
3

La décision entre thread/processus dépend un peu de ce que vous allez être l'utilisant pour.
L'un des avantage de ce processus est qu'il a un PID et peut être tué sans résiliation de la mère.

Pour un exemple réel d'un serveur web, apache 1.3 utilisé pour prendre en charge uniquement les processus multiples, mais en 2.0 ils ont ajouté une abstraction de sorte que vous pouvez swtch entre les deux. Commentaires semble pour d'accord que les processus sont plus robustes, mais les threads peuvent donner un peu de meilleures performances (à l'exception de windows, où les performances pour les processus suce et que vous souhaitez uniquement utiliser des threads).

InformationsquelleAutor hlovdal
3

Dans mon travail récent avec LINUX, c'est une chose d'être conscient de est les bibliothèques. Si vous êtes à l'aide de threads assurez-vous que toutes les bibliothèques que vous pouvez utiliser dans les threads sont thread-safe. Ce qui m'a brûlée, un couple de fois. Notamment libxml2 n'est pas thread-safe hors de la boîte. Il peut être compilé avec "thread-safe" mais ce n'est pas ce que vous obtenez avec aptitude install.

InformationsquelleAutor aal8
2

Pour la plupart des cas, je préfère que ce processus sur les threads.
les fils peuvent être utiles lorsque vous avez un de relativement petites tâches (processus généraux >> le temps pris par chacune des tâches de l'unité) et il y a un besoin de mémoire de partage entre eux. Pensez d'un grand tableau.
Aussi (hors-sujet), notez que si votre utilisation de l'UC est à 100% ou presque, il n'y a pas d'avantage de multithreading et de transformation. (en fait, il va s'aggraver)
- Qu'entendez-vous pas en profiter? Comment procède à de lourds calculs dans le thread GUI? En les déplaçant vers parallèle thread va être beaucoup mieux à partir d'un point de l'expérience utilisateur, peu importe la façon dont le CPU est chargé.
InformationsquelleAutor neal aise
1

Fils -- > les Fils de partage d'un espace de mémoire,c'est une abstraction de la CPU,il est léger.
Processus --> Processus ont leur propre espace mémoire,c'est une abstraction d'un ordinateur.
Paralléliser les tâches que vous devez abstrait d'un CPU.
Cependant, les avantages de l'utilisation d'un processus sur un thread est de la sécurité,de la stabilité, tandis qu'un thread utilise moins de mémoire que les processus et offre une moindre latence.
Un exemple en termes de web serait de chrome et firefox.
Dans le cas de Chrome chaque onglet est un nouveau procédé d'où l'utilisation de la mémoire de chrome est plus élevé que firefox ,tandis que la sécurité et la stabilité est mieux que firefox.
La sécurité fournie par google chrome est mieux,puisque chaque onglet est un nouveau processus différents onglet ne peut pas snoop dans l'espace mémoire d'un processus donné.

InformationsquelleAutor Jubin Antony Thykattil
1

Je pense que tout le monde a fait un excellent travail pour répondre à votre question. Je suis juste en ajoutant plus d'informations sur fil versus le processus dans Linux afin de clarifier et résumer quelques-uns des réponses précédentes dans le contexte de noyau. Donc, ma réponse est en ce qui concerne le noyau de code spécifique à Linux. Selon Noyau Linux documentation, il n'y a pas de distinction claire entre thread versus le processus, sauf thread utilise partagé l'espace d'adressage virtuel à la différence des processus. A noter aussi, le Noyau Linux utilise le terme "tâche" pour se référer à des processus et des threads en général.

"Il n'y a pas de structures internes, la mise en œuvre de processus ou threads, au lieu de cela il est un struct task_struct qui décrivent un résumé de la planification d'unité de tâche"

Également selon Linus Torvalds, vous ne devriez PAS penser sur les processus plutôt que le fil à tous et parce que c'est trop restrictif et que la seule différence est COE ou le Contexte de l'Exécution en termes de "séparer l'espace d'adressage de la mère" ou de l'espace d'adressage partagé. En fait, il utilise un serveur web exemple de faire de son point de ici (qui recommande fortement la lecture).

Pleine de crédit à le noyau linux documentation

InformationsquelleAutor grepit
-3

Si vous avez besoin de partager des ressources, vous devriez vraiment utiliser des threads.

Aussi considérer le fait que les changements de contexte entre les threads sont beaucoup moins chers que les changements de contexte entre les processus.

Je ne vois aucune raison d'accéder de manière explicite avec des processus séparés, sauf si vous avez une bonne raison de le faire (la sécurité, la performance éprouvée de tests, etc...)
- J'ai la rep à modifier, mais je ne suis pas tout à fait d'accord. Les changements de contexte entre les processus sous Linux est presque aussi bon marché que les changements de contexte entre les threads.
InformationsquelleAutor Yuval Adam

Vous devez vous connecter pour publier un commentaire.

Option 1 - processus de

Option 2 - fils

Option 3 - fourche