Coût approximatif pour accéder à différents caches et mémoire principale?
Quelqu'un peut-il me donner le temps approximatif (en nanosecondes) pour accéder à L1, L2 et L3 cache ainsi que la mémoire principale Intel i7?
Alors que ce n'est pas spécialement une question de programmation, la connaissance de ces types d'informations de vitesse est nécessaire pour certains à faible latence à des défis de programmation.
- mechanical-sympathy.blogspot.com/2013/02/...
- Comment puis-je convertir des ns de cycles? Si je divise 100 ns par 2,3 GHz, je reçois 230 cycles. Est-ce correct?
- Je suis curieux de savoir: Dans quelle situation est la distance L3 cache plus lent que la distance DRAM? Le nombre ci-dessus indique qu'il peut être 1.6 x plus lent.
- Merci de ne pas modifier la question mais au lieu de poster une réponse avec ces détails. L'auto-répondeur est ok sur DONC.
- Existe-il des valeurs approximatives pour la consommation d'énergie pour l'accès à la mémoire de chaque niveau?
- vous multipliez par
2.3 cyc/1 ns
(parce que1 s = 10^9 ns
,1 Hz = 1 / 1 s
etG = 10^9
).
Vous devez vous connecter pour publier un commentaire.
Voici un Guide d'Analyse de la Performance pour le i7 et Xeon gamme de processeurs. Je tiens à souligner, c'est ce que vous avez besoin et plus (par exemple, voir la page 22 pour certains timings & cycles par exemple).
En outre, cette page a quelques détails sur les cycles d'horloge etc. Le second lien servi aux numéros suivants:
EDIT2
:Le plus important est l'avis en vertu de la cité de la table, en disant:
EDIT: je tiens aussi à souligner que, ainsi que le calendrier/cycle de l'information, ci-dessus intel document traite de beaucoup plus (très) utiles, les détails de l'i7 et Xeon gamme de processeurs (à partir d'un point de vue des performances).
Les numéros de tout le monde devrait savoir
À partir de:
À l'origine par Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
Coût d'accès à divers souvenirs dans une jolie page
Sommaire
Valeurs ayant diminué, mais se sont stabilisées depuis 2005
Encore quelques améliorations, de prévision pour 2020
Voir également les autres sources
Vieux mais toujours d'une excellente profondeur d'explication à propos de la mémoire matérielle et logicielle de l'interaction.
Voir aussi
Pour plus de compréhension, je vous conseille l'excellent présentation de moderne cache architectures (juin 2014) à partir de Gerhard Wellein, Hannes Hofmann et Dietmar Fey à L'Université De Erlangen-Nürnberg.
Francophones, les gens peuvent apprécier un article par SpaceFox comparant un processeur avec un développeur tant d'attente pour obtenir les informations nécessaires pour continuer à travailler.
[A]
publié ci-dessous.Juste pour un souci de 2015 de l'examen des prévisions pour 2020:
Juste pour un souci de CPU et de GPU latence paysage de comparaison:
Pas une tâche facile de comparer, même la plus simple PROCESSEUR /cache /DRAM files d'attente ( même dans un uniforme d'accès à la mémoire de modèle ), où DRAM-la vitesse est un facteur dans la détermination de la latence, et chargé de latence (saturés système), où le dernier des règles et est quelque chose que les applications d'entreprise sera une expérience de plus d'un inactif entièrement déchargés système.
GPU-moteurs ont reçu un grand nombre de techniques de marketing, tandis que la profondeur de dépendances internes sont des clés pour comprendre à la fois les vraies forces et les faiblesses de ces architectures de l'expérience dans la pratique ( généralement très différent de celui du marketing agressive, siffla-up attentes ).
Compréhension internalities est donc beaucoup plus important que dans les autres domaines, où les architectures sont publiés et de nombreux repères librement disponibles. Merci beaucoup pour GPU-micro-testeurs, qui 'ai passé du temps et de la créativité afin de libérer la vérité du réel les programmes de travail à l'intérieur de la boîte noire approche testée GPU appareils.
Mes excuses pour une "plus grande image", mais temps de latence demasking a aussi le cardinal limites imposées à partir de sur-puce smREG/L1/L2-capacités et hit/miss-prix.
La ligne de fond?
Tout à faible latence motivé la conception de a à de l'ingénierie inverse sur les "I/O-hydraulique" ( comme 0 1-Virmt sont incompressibles par la nature ) et les latences de la règle de l'enveloppe de rendement pour tout GPGPU solution soit de calcul intensif ( lire: d'où des coûts de traitement pardonner un peu plus d'une latence faible Virmt ... ) ou non ( lire: où ( peut-être à quelqu'un de la surprise ) CPU-s sont plus rapides en fin de traitement, que les GPU de tissus (les citations sont disponibles] ).
Regarder cet "escalier" de la parcelle, illustrant parfaitement les différents temps d'accès (en termes de tics d'horloge). Avis le rouge CPU, un "step", probablement parce qu'il a L4 (alors que d'autres ne le font pas).
Prises à partir de ce Extremetech article.
En informatique, cela s'appelle "I/O de la complexité".