Le nombre Optimal de threads par noyau

Disons que j'ai un PROCESSEUR 4 cœurs, et je veux lancer un processus dans le minimum de temps. Le processus est idéalement parallélisables, donc, je peux utiliser des morceaux de celui-ci sur un nombre infini de fils et chaque thread prend la même quantité de temps.

Depuis que j'ai 4 coeurs, je n'ai pas s'attendre à une accélération en cours d'exécution de plus de threads que de cœurs, car un seul core est seulement capable d'exécuter un seul thread à un moment donné. Je ne sais pas beaucoup sur le matériel, si ce n'est qu'une supposition.

Est-il un avantage à utiliser une parallélisables processus sur plus de threads que de cœurs? En d'autres termes, mon processus de finition plus rapide, plus lent, ou dans environ la même quantité de temps si je l'exécute à l'aide de 4000 threads plutôt que 4 threads?

InformationsquelleAutor Juliet | 2009-11-11

cpu parallel-processing

235

Si votre fils de ne pas faire d'e/S, synchronisation, etc., et il n'y a rien d'autre en cours d'exécution, 1 thread par core permettra d'obtenir le meilleur rendement. Cependant que très probablement pas le cas. L'ajout de plus de threads permet habituellement, mais après un certain point, ils provoquent une dégradation des performances.

N'y a pas longtemps, je faisais des tests de performance sur un 2 quad-core de la machine de l'exécution d'une ASP.NET application sur Mono sous un assez décent de charge. Nous avons joué avec le minimum et le nombre maximum de threads et à la fin, nous avons constaté que pour une application particulière dans cette configuration le meilleur débit se situe entre 36 et 40 threads. Rien à l'extérieur de ces limites effectué pire. Leçon apprise? Si j'étais vous, je voudrais tester avec différents nombre de threads jusqu'à ce que vous trouver le bon numéro pour votre application.

Une chose est sûre: 4k fils va prendre plus de temps. C'est beaucoup de changements de contexte.
- Je pense que Gonzalo réponse est bonne. J'aimerais simplement ajouter que vous devez faire des essais et de mesure. Votre programme sera différent de son, ou de la mienne, ou de quelqu'un d'autre et seulement des mesures de votre propre programme du comportement de répondre correctement à vos questions. La performance de parallèle (ou en même temps) des programmes n'est pas une zone où les bonnes conclusions peuvent être tirées à partir des principes seule.
- +1, +réponse: ça m'étonne que le fait d'avoir beaucoup plus de threads que de cœurs de meilleures performances, même si cela a un sens si plusieurs threads moyens plus grande partie du temps de l'action par rapport à la concurrence threads. Il serait bien de mon application peut détecter des différences dans les performances et d'automatiquement à se régler sur le nombre optimal de threads.
- Il ne devrait pas vous surprendre dans un scénario réel. Blocs de Threads en attente pour IO ressources comme l'accès au disque, réseau, etc. Et également en attente pour les non IO ressources comme les autres threads pour finir à l'aide de variables partagées. Vraiment ce que vous voulez atteindre est au minimum le nombre de threads qu'au moins un thread par core peut toujours être en cours d'exécution.
- 1 thread par cœur n'est pas à l'optimum. Il doit être un peu plus, de préférence deux fois que, depuis cela va permettre à un autre thread à exécuter si un thread est bloqué temporairement. Même si c'est de la mémoire. C'est plus importnat si vous avez des systèmes (P4,I7, Roche-Soleil, etc) qui disposent de SMT/HT)
- D'où le "C'est très probablement pas le cas" dans ma réponse. Trouver le bon nombre dépend de l'application et de l'architecture, il fonctionne sur.
- Si vous traitez un grand nombre de threads (tâches) en parallèle, puis vous avez aussi de nombreux "tâches en attente". Toutes les tâches (en supposant qu'ils prennent la même époque) prendra fin à la même heure sur l'horloge du mur afin d'avoir attendu environ le même temps. Juste des sons... mais, si vous en premier proces de tâche de fond, il ne participera pas à attendre plus. La prochaine tâche deux est traitée et lorsque tout est prêt, aussi n'attendez plus. En fin de compte le temps TOTAL attendu compté comme la somme des temps d'attente par la tâche est plus faible. Alors, à part le temps perdu en raison du contexte swichting, gardez à l'esprit que le traitement parallèle signifie aussi en parallèle d'attente.
InformationsquelleAutor Gonzalo
121

Je suis d'accord avec @Gonzalo de réponse. J'ai un processus qui ne fait pas de I/O, et voici ce que j'ai trouvé:

Noter que tous les threads de travail sur un tableau, mais les différentes gammes (les deux fils n'ont pas accès au même indice), de sorte que les résultats peuvent différer si ils ont travaillé sur les différents tableaux.

La 1.86 machine est un macbook air avec un SSD. Les autres mac est un iMac avec un HDD normal (je pense que c'est un 7200 tr /min). Les fenêtres de la machine dispose également d'un 7200 tr /min disque dur.

Dans ce test, le nombre optimal est égal au nombre de cœurs de la machine.
- +1 pour le graphique. Clairement 1 thread par core est le meilleur, mais il est intéressant de noter que le système quad core semble pas plus élevé de fil numéros (<100 de toute façon) la façon dont les autres le faire.
- D'accord. Je suppose que c'est lié à la façon dont le système d'exploitation gère les threads au lieu de les caractéristiques de votre matériel.
- -1 pour le graphique! Des courbes lisses grâce à une valeur entière de x-coordonnées? Un sauvage saut à partir de la 1 2 3 10 20 30 50 100? Et y des coordonnées qui sont des multiples de 10 + 2 pour faire bonne mesure. C'est Excel de le faire, n'est-ce pas?
- Oui, il est. Les courbes lisses ont beaucoup mieux à mon humble avis. 😀
- +1 pour le soutien de vos réponse avec des données. -1 pour l'affichage de vos données dans un mauvais (mais pas terrible) graphique.
- Pourquoi vous n'utilisez échelle logarithmique pour graphique.. haha Mais je suis intéressé, comment avez-vous ces mesures? les compteurs de performance? quel est le temps? temps total ou de débit?
- Devrait "Nombre de threads" être "Nombre de threads par cœur"..?
- Ce qui est si mal à propos le graphique? Nous le savons tous, de toute façon ils sont des entiers et j'aime toujours à quoi il ressemble 🙂 c'Était en effet Excel?
- Le problème n'est pas qu'elle est jolie, c'est tromper au premier coup d'œil. Tout d'abord l'axe des y commence au 42, en exagérant la différence apparente entre l'testé les machines. Deuxièmement, le bizarre de la progression de l'axe des abscisses les valeurs suggèrent que le "temps-prise", ne l'est pas de façon linéaire avec le nombre de threads, ce qui est particulièrement vrai pour la ligne bleue. Je pense que le problème d'autres (moi y compris) ont, avec elle, c'est qu'il déforme les données.
- La critique sur le graphique est la chose la plus ridicule que j'ai rencontré au cours des dernières 24 heures. Le graphique aide à. Beaucoup. Période. Aurait-on pu faire mieux? Personne ne se soucie. Courbe lisse au lieu des discret? C'est votre problème???? Je suppose que, tous, vous ne serait jamais inclure un tel graphe dans leur réponse parce que vous n'avez pas le temps/l'énergie pour le faire paraître de bonne. C'est mon point de vue.
- Je suis d'accord avec @pauluss86, c'est tromper sur bien des points.Recommandée lire: The Visual Display of Quantitative Information par Edward Tufte
- Je me demande si windows s'exécute de la même façon.
- Le programme qui utilise pour faire ce graphique? J'ai besoin d'une application qui monitorize exactement ce que
InformationsquelleAutor Motasim
46

Je sais que cette question est un peu vieux, mais les choses ont évolué depuis 2009.

Il y a deux choses à prendre en compte: le nombre de cœurs, et le nombre de threads qui peuvent s'exécuter à l'intérieur de chaque cœur.

Avec les processeurs Intel, le nombre de threads est définie par la fonction Hyperthreading, qui est à seulement 2 (lorsque disponible). Mais l'Hyperthreading réduit votre temps d'exécution par deux, même lorsque vous n'utilisez pas 2 fils! (c'est à dire 1 pipeline partagé entre deux processus -- ce est bon quand vous avez plus de processus, mais pas autrement. Plus de cœurs sont définitivement mieux!)

Sur d'autres processeurs, vous pouvez avoir 2, 4 ou même 8 threads. Donc, si vous avez 8 cœurs de chacun de soutien 8 threads, vous pourriez avoir 64 processus s'exécutant en parallèle, sans changement de contexte.

"Pas de changement de contexte" n'est évidemment pas vrai, si vous exécutez un système d'exploitation standard qui va faire le changement de contexte pour toutes sortes d'autres choses hors de votre contrôle. Mais c'est l'idée principale. Certains Systèmes d'exploitation vous permettent d'allouer des processeurs de sorte que seul votre application a accès ou à l'utilisation dudit processeur!

À partir de ma propre expérience, si vous avez beaucoup d'I/O, plusieurs threads est bon. Si vous avez de très lourds de la mémoire de travail intensif (lire la source 1, lecture de la source 2, rapide calcul, écriture) puis avoir plus de threads n'aide pas. Encore une fois, cela dépend de la quantité de données en lecture/écriture simultanément (si vous utilisez de l'ESS 4.2 et lire 256 valeurs de bits, qui s'arrête tous les threads dans leur démarche... en d'autres mots, 1 thread est probablement beaucoup plus facile à mettre en œuvre et sans doute à peu près aussi rapide sinon plus rapide. Cela dépendra de votre process & architecture de la mémoire, certains serveurs d'avancées de gérer des plages de mémoire pour séparer les noyaux afin de séparer les fils sera plus rapide en supposant que vos données sont correctement classés,... c'est pourquoi, sur certaines architectures, 4 processus sera exécuté plus rapidement que 1 processus avec 4 fils.)
- qui transformateurs de 2, 4 ou même 8 threads par core?????
- Il y a probablement d'autres, mais la seule que je connaisse est la PUISSANCE du processeur d'IBM. Ils avaient systèmes avec 4 ou 8 threads par les transformateurs. Maintenant, ils peuvent manivelle en plus de cœurs, de sorte qu'ils offrent des 2 threads par cœur au lieu...
- C'est vieux, mais la plupart d'Intel i5,i7 a multi thread cpu comme par exemple i7 cpu ont généralement de 4 cœurs, mais 8 threads.
- Les processeurs n'ont pas de fils. Ils ont physique et logique des noyaux. Avec l'hyperthreading, un seul des fonctions de base comme deux cœurs logiques. J'ai eu un tech qui insistait sur le fait que les transformateurs ayant des threads est une chose réelle, donc j'ai dessiné une image sur le tableau blanc, d'un processeur avec la tige de fil de colle hors de lui.
- Jetez un oeil à cette intel.com/content/www/us/en/processors/core/... , peut-être vous pouvez vous adresser à intel et à dessiner les fils trop.
- Je pense que je vais plutôt vous envoyer quelques manuels de l'école primaire anglais. Nulle part ils disent que leurs processeurs ont des fils, mais plutôt de la liste le nombre de threads en corrélation avec le nombre de cœurs, ce qui est précisément ce que j'ai dit.
- Les versions ultérieures de SPARC 8 threads par noyau.
InformationsquelleAutor Alexis Wilke
23

Le rendement réel dépendra de la façon dont beaucoup volontaire de rendement de chaque thread va faire. Par exemple, si les fils ne sont PAS d'I/O à tous et utilisez pas de système de services (c'est à dire qu'ils sont à 100% de cpu-bound) puis 1 thread par core qui est optimal. Si les fils ne sont tout ce qu'il faut attendre, alors vous aurez à faire des essais pour déterminer le nombre optimal de threads. 4000 fils engager d'importantes surcharge de planification, de sorte que c'est probablement pas optimale non plus.

InformationsquelleAutor Jim Garrison
18

La réponse dépend de la complexité des algorithmes utilisés dans le programme. Je suis venu avec une méthode pour calculer le nombre optimal de threads en utilisant les deux mesures de temps de traitement des Tn et Tm pour les deux arbitraire nombre de threads ‘n’ et ‘m’. Pour les algorithmes linéaires, le nombre optimal de threads sera N = sqrt ( (mn(Tm*(n-1) Tn*(m-1)))/(nTn-mTm) ) .

Veuillez lire mon article concernant les calculs du nombre optimal pour les différents algorithmes: pavelkazenin.wordpress.com
- Pourquoi est-il downvoted ? Je suis désolé, mais c'est la meilleure réponse à cette question. gonzalo adresses le gras une partie de la question, et pkazen adresses le titre. Les deux réponses sont très utiles, mais pkazen réponse est pertinente parce que nous avons une méthode systématique permettant de rapprocher le nombre de thread. Il donne même la formule pour linea algorithmes.
- Je n'ai pas downvote, mais si je le faisais, ce serait sur la base du fait qu'il n'y a pas de véritable explication de pourquoi ou comment le nombre optimal de threads peut être lié à la complexité de l'algorithme, les enregistrer par la lecture de l'intégralité de l'article lié, qui est une lecture longue (en raison de la complexité de l'article). Au-delà, certains aspects de l'article ne sont pas clair pour moi, plus important encore, comment les résultats expérimentaux confirment la théorie.
- Aussi, je crois que ce calcul suppose que vous avez un nombre infini de cœurs de PROCESSEUR. Bien que cela soit certainement de précieuses informations, la question est de savoir en se référant à de véritables machines avec un petit nombre de cœurs.
InformationsquelleAutor pkazen
7

4000 threads en même temps est assez élevé.

La réponse est oui et non. Si vous faites beaucoup de blocage I/O dans chaque thread, alors oui, vous pouvez afficher des accélérations significatives faire jusqu'à probablement 3 ou 4 threads par logique de base.

Si vous ne faites pas beaucoup de bloquer les choses mais dans ce cas, les frais généraux supplémentaires avec filetage, va juste le rendre plus lent. Il faut donc utiliser un générateur de profils et de voir où les goulets d'étranglement dans chacun parallèle pièce. Si vous faites de lourds calculs, plus de 1 thread par CPU ne va pas aider. Si vous faites beaucoup de transfert de mémoire, il ne va pas aider non plus. Si vous faites beaucoup d'I/O, mais comme pour les accès disque ou d'accès à internet, alors oui plusieurs threads vont aider jusqu'à un certain point, ou au moins de rendre l'application plus réactive.

InformationsquelleAutor Earlz
7

Je pensais ajouter un autre point de vue ici. La réponse dépend de la question est en supposant que la faiblesse de la mise à l'échelle ou une forte mise à l'échelle.

De Wikipédia:

La faiblesse de la mise à l'échelle: la façon dont la solution varie avec le nombre de processeurs pour une correction d'un problème de taille par processeur.

Forte de mise à l'échelle: la façon dont la solution varie avec le nombre de processeurs pour un total fixe problème de taille.

Si la question est en supposant que la faiblesse de la mise à l'échelle, puis @Gonzalo réponse suffit. Toutefois, si la question est en supposant une forte mise à l'échelle, il y a quelque chose de plus à ajouter. Forte de mise à l'échelle vous êtes en supposant un fixe de la charge de travail de taille donc, si vous augmenter le nombre de threads, la taille des données que chaque thread a besoin de travailler sur des baisses. Sur les Processeurs modernes les accès à la mémoire sont chers et serait préférable de maintenir la localité en conservant les données dans les caches. Il est donc probable qu'un nombre optimal de threads peut être trouvé lorsque le jeu de données de chaque thread s'adapte dans chaque cœur du cache (je ne vais pas rentrer dans les détails de la question de savoir s'il en L1/L2/L3 cache(s) du système).

Cela est vrai même lorsque le nombre de threads dépasse le nombre de cœurs. Par exemple supposer il y a 8 arbitraire de l'unité (ou AU) de travail dans le programme, qui sera exécuté sur un 4 core de la machine.

Cas 1: courir avec quatre threads où chaque thread doit remplir 2AU. Chaque thread prend 10s pour terminer (avec beaucoup de défauts de cache). Avec quatre coeurs, le montant total de temps sera 10s (10s * 4 threads /4 cœurs).

Cas 2: courir avec huit threads où chaque thread doit remplir 1AU. Chaque thread ne prend que 2 (au lieu de 5 à cause de la la réduction de la quantité de cache). Avec huit cœurs le temps total sera 4s (2s * 8 threads /4 cœurs).

J'ai simplifié le problème et ignoré les frais généraux mentionnés dans d'autres réponses (p. ex., changements de contexte), mais j'espère que vous obtenez le point qu'il pourrait être avantageux de disposer d'un plus grand nombre de threads que le nombre de cœurs en fonction de la taille des données que vous avez affaire.

InformationsquelleAutor someneat
6

De référence.

J'aimerais commencer à augmenter le nombre de threads d'une application, en commençant à 1, puis aller pour quelque chose comme 100, exécuter trois à cinq essais pour chaque nombre de threads, et vous construire un graphique de la vitesse de fonctionnement est fonction du nombre de threads.

Vous devriez que les quatre thread cas est optimal, avec des légères hausses dans l'exécution une fois, mais peut-être pas. Il se peut que votre application est la largeur de bande limitée, c'est à dire, l'ensemble de données que vous êtes en train de charger dans la mémoire est énorme, vous obtenez beaucoup de défauts de cache, etc, de sorte que 2 threads sont optimales.

Vous ne pouvez pas savoir jusqu'à ce que vous testez.

InformationsquelleAutor mmr
3

Vous trouverez le nombre de threads que vous pouvez exécuter sur votre machine en cours d'exécution htop ou de la commande ps, qui retourne le numéro de processus sur votre ordinateur.

Vous pouvez utiliser la page de man à propos de 'ps' de la commande.
```
man ps
```
Si vous voulez calculer le nombre de tous les utilisateurs, vous pouvez utiliser l'une de ces commandes:
1. ps -aux| wc -l
2. ps -eLf | wc -l
Calcul du nombre de processus utilisateur:
1. ps --User root | wc -l
Aussi, vous pouvez utiliser "htop" [Référence]:

Installation sur Ubuntu ou Debian:
```
sudo apt-get install htop
```
L'installation de Redhat ou CentOS:
```
yum install htop
dnf install htop      [On Fedora 22+ releases]
```
Si vous voulez compiler htop à partir du code source, vous trouverez qu'il ici.

InformationsquelleAutor Saeed Zahedian Abroodi
2

L'idéal est de 1 thread par cœur, tant qu'aucun des fils ne bloque.

Un cas où ce ne peut pas être vrai: il y a d'autres threads en cours d'exécution sur la base, dans ce cas, plus de threads peuvent donner à votre programme une part plus importante du temps d'exécution.
- Cela dépend si vous voulez que les utilisateurs processus d'arrière-plan à exécution comme de la merde pendant que votre application est en cours d'exécution puis. Pour cette question, vous pourriez tout simplement une priorité en temps réel pour chaque thread et d'obtenir le maximum de puissance. Mais les utilisateurs telles que le multitâche.
- Eh bien, nous avons affaire à un magique idéalement parallélisables application. Si jamais j'ai créé une telle chose que je me sens le droit de monopoliser la CPU autant que je veux.
InformationsquelleAutor patros
2

Un exemple de beaucoup de fils ("pool de threads") vs un par cœur, c'est que de la mise en œuvre d'un serveur web sous Linux ou Windows.

Depuis sockets sont interrogés dans Linux beaucoup de threads peuvent augmenter la probabilité de l'un des bureaux de la prise droite au bon moment - mais dans l'ensemble, le coût sera très élevé.

Dans Windows, le serveur sera mis en œuvre à l'aide de I/O Ports de fin d' - IOCPs - qui permettra à l'application event driven: si une e/S est terminée le système d'exploitation lance un thread pour traiter. Lorsque le traitement est terminé (généralement avec une autre opération d'e/S comme dans une requête-réponse paire) le fil revient à l'IOCP port (file d'attente) pour attendre le prochain achèvement.

Si aucune e/S est terminée il n'y a pas de traitement à faire et pas de thread est lancé.

En effet, Microsoft recommande de ne pas plus d'un thread par core dans IOCP implémentations. I/O peut être joint à l'IOCP mécanisme. IOCs peuvent également être affichées par l'application, si nécessaire.
- Je ne sais pas qui Linux, vous êtes en train de parler, mais mes blocs jusqu'à ce qu'une connexion arrive. Je vous suggère de lire quelques choses à propos de select() et FD_SET() et des fonctions similaires/macros.
- Ok, donc il n'y a pas de forme asynchrone qui renvoie immédiatement?
- De select() de la page de manuel: timeout is an upper bound on the amount of time elapsed before select() returns. If both fields of the timeval structure are zero, then select() returns immediately. (This is useful for polling.) If timeout is NULL (no timeout), select() can block indefinitely.
InformationsquelleAutor Olof Forshell
0

parlant de mémoire et de calcul lié point de vue (calcul scientifique) 4000 fils fera de l'exécution de l'application vraiment très lent. Une partie du problème est d'un très haut dans le ciel de la commutation de contexte et les plus susceptibles de mauvaise localité de mémoire.

Mais cela dépend aussi de votre architecture. D'où j'ai entendu Niagara processeurs sont censés être en mesure de gérer plusieurs threads sur un seul core à l'aide de une sorte de pointe pipelining technique. Cependant, je n'ai aucune expérience avec ces processeurs.

InformationsquelleAutor Anycorn
0

Espérons que cela a du sens, Vérifier le CPU et l'utilisation de la Mémoire et de mettre la valeur de seuil. Si la valeur de seuil est franchi,ne permettent pas de créer un nouveau thread d'autre permettent...

InformationsquelleAutor M. Gopal

Vous devez vous connecter pour publier un commentaire.