Comment faire pour accélérer la multiplication de matrice en C++?

Je suis d'effectuer la multiplication de matrice avec cet algorithme simple. Pour être plus souple, j'ai utilisé des objets de la matricies qui contiennent dynamicly créé des tableaux.

Comparant cette solution pour mon premier avec des tableaux statiques, c'est 4 fois plus lent. Que puis-je faire pour accélérer l'accès aux données? Je ne veux pas modifier l'algorithme.

 matrix mult_std(matrix a, matrix b) {
 matrix c(a.dim(), false, false);
 for (int i = 0; i < a.dim(); i++)
  for (int j = 0; j < a.dim(); j++) {
   int sum = 0;
   for (int k = 0; k < a.dim(); k++)
    sum += a(i,k) * b(k,j);
   c(i,j) = sum;
  }

 return c;
}

MODIFIER

J'ai corrigé ma Question avove! J'ai ajouté le code source complet ci-dessous et essayé quelques-uns de vos conseils:

échangé k et j itérations de boucle -> l'amélioration de la performance
déclaré dim() et operator()() comme inline -> l'amélioration de la performance
passage des arguments par référence const -> perte de performance! pourquoi? donc je ne l'utilise pas.

La performance est maintenant de plus près le même qu'il était dans l'ancien porgram. Peut-être il devrait y avoir un peu plus d'amélioration.

Mais j'ai un autre problème: j'obtiens une erreur de mémoire dans la fonction mult_strassen(...). Pourquoi?

terminate called after throwing an instance of 'std::bad_alloc' what(): std::bad_alloc

ANCIEN

principal.c http://pastebin.com/qPgDWGpW

c99 main.c -o matrix -O3

NOUVEAU PROGRAMME

la matrice.h http://pastebin.com/TYFYCTY7

matrix.cpp http://pastebin.com/wYADLJ8Y

main.cpp http://pastebin.com/48BSqGJr

g++ main.cpp matrix.cpp -o matrix -O3.

MODIFIER

Voici quelques résultats. La comparaison entre l'algorithme standard (std), échangé ordre de j et k de la boucle (swap) et bloqué algortihm avec une taille de bloc 13 (bloc).
Comment faire pour accélérer la multiplication de matrice en C++?

Avez-vous l'intention d'écrire une matrice de multiplier qui ne fonctionne que sur les matrices carrées? Multipliez est défini en tant que les dimensions intérieures sont égaux.
Vous êtes de passage a et b par référence, non? Vous n'êtes pas la copie de deux matrices juste d'appeler cette fonction?
Vous pouvez également utiliser Propre, qui est particulièrement bien adaptée. (Ne laissez pas la licence LGPL vous faire peur - c'est un en-tête de la seule bibliothèque, et le "virale" termes de la licence LGPL ne pas tenir. Voir FAQ.)
les copies sont gommés par le compilateur, le passage par valeur est aussi rapide, voire plus rapide que par référence.
Qui n'est pas universellement vrai. Avez-vous vu le constructeur de copie de code pour class matrix? Si non, vous êtes juste de faire une sauvage deviner.
Je ne veux pas inventer la whell un deuxième temps. C'est un projet pour tester un algorithme de multiplication de matrice. Je commence la mise en œuvre en C, et a obtenu ces pertes de performances maintenant en C++. Je ne veux pas utiliser cet algorithme, je veux juste mesure de la performance. Je n'ai pas besoin d'une bibliothèque.
Pouvez-vous passé le code en question. Les liens ne sont plus de travail pour moi.
OK. J'ai une copie du code. C'est comme comparer des pommes à des oranges. 1) Mettre le code dans le même harnais de test. 2) effectuer les mêmes opérations (Dans la version C++ vous n'êtes pas simplement en multipliant vous êtes également l'allocation de mémoire).
J'ai trouvé le problème principal. Votre code C a un énorme dépassement de la mémoire tampon. C'est de réinitialiser le dim variable globale à l'origine de votre multiplication de sortie précoce.
York: Désolé, c'était une erreur, parce que des tests de différentes gammes.
Vous avez des fuites de mémoire toute la place dans ce code, qui est une grande partie de la raison passe-par-valeur est plus rapide que de passer par-const-référence. Est mult_strassen votre mise en œuvre de la "bloquer l'accès de la tendance" je l'ai suggéré, ou n'avez-vous pas posté ce code?

InformationsquelleAutor multiholle | 2010-11-29

arrays benchmarking c++matrix-multiplication

Passer des paramètres par référence const pour commencer:

matrix mult_std(matrix const& a, matrix const& b) {

Pour vous donner plus de détails, nous avons besoin de connaître les détails des autres méthodes utilisées.

Et pour répondre à pourquoi la méthode originale est 4 fois plus rapide que nous aurions besoin de voir la méthode d'origine.

Le problème est sans doute la vôtre, car ce problème a été résolu un million de fois avant.

Aussi quand vous posez ce type de question TOUJOURS fournir compilable source appropriée des intrants afin que nous puissions réellement construire et exécuter le code et de voir ce qui se passe.

Sans le code, nous sommes juste deviner.

Modifier

Après la fixation de la principale bug dans le code en C d'origine (un tampon plus-run)

J'ai mis à jour le code pour exécuter le test côte à côte dans une comparaison équitable:

 //INCLUDES -------------------------------------------------------------------
#include <stdlib.h>
#include <stdio.h>
#include <sys/time.h>
#include <time.h>
//DEFINES -------------------------------------------------------------------
//The original problem was here. The MAXDIM was 500. But we were using arrays
//that had a size of 512 in each dimension. This caused a buffer overrun that
//the dim variable and caused it to be reset to 0. The result of this was causing
//the multiplication loop to fall out before it had finished (as the loop was
//controlled by this global variable.
//
//Everything now uses the MAXDIM variable directly.
//This of course gives the C code an advantage as the compiler can optimize the
//loop explicitly for the fixed size arrays and thus unroll loops more efficiently.
#define MAXDIM 512
#define RUNS 10
//MATRIX FUNCTIONS ----------------------------------------------------------
class matrix
{
public:
matrix(int dim)
: dim_(dim)
{
data_ = new int[dim_ * dim_];
}
inline int dim() const {
return dim_;
}
inline int& operator()(unsigned row, unsigned col) {
return data_[dim_*row + col];
}
inline int operator()(unsigned row, unsigned col) const {
return data_[dim_*row + col];
}
private:
int dim_;
int* data_;
};
//---------------------------------------------------
void random_matrix(int (&matrix)[MAXDIM][MAXDIM]) {
for (int r = 0; r < MAXDIM; r++)
for (int c = 0; c < MAXDIM; c++)
matrix[r][c] = rand() % 100;
}
void random_matrix_class(matrix& matrix) {
for (int r = 0; r < matrix.dim(); r++)
for (int c = 0; c < matrix.dim(); c++)
matrix(r, c) = rand() % 100;
}
template<typename T, typename M>
float run(T f, M const& a, M const& b, M& c)
{
float time = 0;
for (int i = 0; i < RUNS; i++) {
struct timeval start, end;
gettimeofday(&start, NULL);
f(a,b,c);
gettimeofday(&end, NULL);
long s = start.tv_sec * 1000 + start.tv_usec / 1000;
long e = end.tv_sec * 1000 + end.tv_usec / 1000;
time += e - s;
}
return time / RUNS;
}
//SEQ MULTIPLICATION ----------------------------------------------------------
int* mult_seq(int const(&a)[MAXDIM][MAXDIM], int const(&b)[MAXDIM][MAXDIM], int (&z)[MAXDIM][MAXDIM]) {
for (int r = 0; r < MAXDIM; r++) {
for (int c = 0; c < MAXDIM; c++) {
z[r][c] = 0;
for (int i = 0; i < MAXDIM; i++)
z[r][c] += a[r][i] * b[i][c];
}
}
}
void mult_std(matrix const& a, matrix const& b, matrix& z) {
for (int r = 0; r < a.dim(); r++) {
for (int c = 0; c < a.dim(); c++) {
z(r,c) = 0;
for (int i = 0; i < a.dim(); i++)
z(r,c) += a(r,i) * b(i,c);
}
}
}
//MAIN ------------------------------------------------------------------------
using namespace std;
int main(int argc, char* argv[]) {
srand(time(NULL));
int matrix_a[MAXDIM][MAXDIM];
int matrix_b[MAXDIM][MAXDIM];
int matrix_c[MAXDIM][MAXDIM];
random_matrix(matrix_a);
random_matrix(matrix_b);
printf("%d ", MAXDIM);
printf("%f \n", run(mult_seq, matrix_a, matrix_b, matrix_c));
matrix a(MAXDIM);
matrix b(MAXDIM);
matrix c(MAXDIM);
random_matrix_class(a);
random_matrix_class(b);
printf("%d ", MAXDIM);
printf("%f \n", run(mult_std, a, b, c));
return 0;
}

Les résultats aujourd'hui:

$ g++ t1.cpp
$ ./a.exe
512 1270.900000
512 3308.800000
$ g++ -O3 t1.cpp
$ ./a.exe
512 284.900000
512 622.000000

À partir de cela, nous voyons que le code C est deux fois plus rapide que le code C++ lorsqu'il est entièrement optimisé. Je ne peux pas voir la raison dans le code.

Faute, doit être: (const matrice& a, const matrice& b)
Pas de son tout à fait correct.
souhaitez vitesse? le passage par valeur: cpp-next.com/archive/2009/08/want-speed-pass-by-value
comme l'OP dit dans le édité question, const référence s'est avéré être plus lent. Il vaut toujours la peine d'essayer, mais il interagit avec tant de différentes optimisations du compilateur que c'est loin d'être une valeur sûre. Parfois il est plus rapide, il est parfois plus lent.
Je suis également d'accord avec vos commentaires en général, mais dans ce cas précis c'est un problème avec le code soumis.
Inverse: Veuillez lire l'article plus attentivement. Je suis totalement d'accord avec l'article et l'utilisation de la copie par valeur est vraiment vraiment vraiment utile, en particulier lorsque le compilateur fait RVO et NRVO. MAIS ce n'est pas pertinente ici, car nous avons besoin de faire un nouveau tableau pour être retourné (on ne peut pas optimiser cette distance le résultat est un NOUVEAU groupe).
Cet article fournit un résumé en ligne: <citation>Orientation: Ne copiez pas vos arguments de la fonction. Au lieu de cela, passer par valeur et laisser le compilateur faire la copie.</citation> Aucune copie des arguments de la fonction sont en train d'être fait, donc l'article ne prescrit PAS passé par valeur.
Je pense que le principal problème est la surcharge en raison de l'utilisation de classes.
En C++ il n'y a guère de frais généraux en utilisant des classes.

InformationsquelleAutor Martin York

27

En parlant de vitesse, votre fonction sera de plus de cache-friendly si vous modifiez l'ordre de la k et j itérations de boucle:
```
matrix mult_std(matrix a, matrix b) {
matrix c(a.dim(), false, false);
for (int i = 0; i < a.dim(); i++)
for (int k = 0; k < a.dim(); k++)
for (int j = 0; j < a.dim(); j++)  //swapped order
c(i,j) += a(i,k) * b(k,j);
return c;
}
```
C'est parce que k index dans le plus intérieur de la boucle, va provoquer un cache miss dans b à chaque itération. Avec j comme à l'intérieur de la plupart de l'index, à la fois c et b sont accessibles de manière contiguë, tandis que a reste en place.
- +1 pour la mention de caches!
InformationsquelleAutor chrisaycock
4

Vous dites que vous ne voulez pas modifier l'algorithme, mais ça signifie quoi exactement?

N'en déroulant le nombre de boucles que "la modification de l'algorithme"? Que penser de l'utilisation de l'ESS/VMX selon instructions SIMD sont disponibles sur votre CPU? Qu'en employant une forme de blocage d'améliorer la localité de cache?

Si vous ne voulez pas de restructurer votre code à tous les, je doute qu'il ya plus que vous pouvez faire que les modifications que vous avez déjà fait. Tout le reste devient un compromis de modifications mineures apportées à l'algorithme pour obtenir un gain de performance.

Bien sûr, vous devez toujours prendre un coup d'oeil à l'asm généré par le compilateur. Qui vais vous en dire beaucoup plus sur ce qui peut être fait pour accélérer le code.
- Utilisation de blocage des vitesses de l'algorithme, la grande!
InformationsquelleAutor jalf
3

Assurez-vous que les membres dim() et operator()() sont déclarées en ligne, et que l'optimisation du compilateur est allumé. Puis de jouer avec des options comme -funroll-loops (sur gcc).

Quelle est la taille de a.dim() de toute façon? Si une ligne de la matrice ne rentre pas dans juste un couple de lignes de cache, vous seriez mieux avec un bloc d'accès au lieu d'une ligne à la fois.

InformationsquelleAutor Ben Voigt
3
- Utilisation SIMD si vous le pouvez. Vous devez absolument utiliser quelque chose comme VMX registres si vous n'vaste vecteur de mathématiques en supposant que vous utilisez une plate-forme qui est capable de le faire, sinon vous aurez à subir un énorme gain de performance.
- Ne passe pas des types complexes comme matrix en valeur l'utilisation const référence.
- Ne pas appeler une fonction dans chaque itération de la mémoire cache de dim() à l'extérieur de votre boucles.
- Bien que les compilateurs généralement d'optimiser efficacement, il est souvent une bonne idée de demander à l'appelant de fournir une matrice de référence pour votre fonction à remplir plutôt que de retourner une matrice par type. Dans certains cas, cela peut entraîner une coûteuse opération de copie.
- VMX? Savons-nous qu'il est en cours d'exécution sur PowerPC?
- D'où mon commentaire, "en supposant que vous utilisez une plate-forme qui est capable c'est de le faire". Ma vision est un peu assombri - je suis presque exclusivement de programmation sur PPC ces jours, et certains de mes réponses ici obtenir des regards étranges.
- Ah, gotcha. Je n'étais pas sûr, parce que d'abord vous avez mentionné SIMD (en général), ce qui fait sens, et puis vous rétréci vers le bas à VMX seulement.
- Ouais, certainement une erreur de ma part. J'ai légèrement modifié la réponse pour faire plus de sens 🙂 Merci pour cette remarque, je sais que je suis en train de vivre dans une grotte parfois!
- Par la manière, vous ne savez pas si vous le savez (mais d'autres personnes qui lisent votre réponse ne peut pas): le x86 "équivalent" de VMX est appelé ESS
InformationsquelleAutor EboMike

Voici ma mise en œuvre rapide, simple algorithme de multiplication pour la place de flotteur de matrices (tableaux 2D). Il devrait être un peu plus rapide que chrisaycock code, car il permet de préserver une partie des incréments.

static void fastMatrixMultiply(const int dim, float* dest, const float* srcA, const float* srcB)
{
memset( dest, 0x0, dim * dim * sizeof(float) );
for( int i = 0; i < dim; i++ ) {
for( int k = 0; k < dim; k++ ) 
{
const float* a = srcA + i * dim + k;
const float* b = srcB + k * dim;
float* c = dest + i * dim;
float* cMax = c + dim;
while( c < cMax ) 
{   
*c++ += (*a) * (*b++);
}
}
}
}

InformationsquelleAutor Rusty Horse

0

Je suis un sauvage suppose ici, mais si vous alloue dynamiquement les matrices de fait une énorme différence, peut-être le problème, c'est la fragmentation. Encore une fois, je n'ai aucune idée de comment la matrice sous-jacente est mis en œuvre.

Pourquoi ne pas allouer de la mémoire pour les matrices à la main, en s'assurant qu'il est contigu, et de construire le pointeur de la structure-vous?

Aussi, ne l'dim() méthode supplémentaire de la complexité? Je voudrais déclarer en ligne, aussi.

InformationsquelleAutor slezica

Vous devez vous connecter pour publier un commentaire.