Paralléliser imbriqués pour la boucle avec openMP

Je suis en train d'optimiser le imbriqués pour la boucle dans la fonction generate_histogram() ci-dessous avec openMP. J'ai essayé beaucoup avec les différentes combinaisons de pragmas fondée sur ce que j'ai lu dans cela SE post.

Le problème est que le imbriqués pour la boucle effectue plus rapidement sans openMP qu'avec openMP!

Si j'essaie de paralléliser mon code avec réduction de la place de la atomique pragma, je me retrouve avec netchunk échoue. Quelqu'un sait d'une fantaisie tweak pour ce que c'est? Je suis en train de données d'emplacement dans un histogramme. Ainsi, le histogramme est de taille variable dans le code réel, contrairement à l'extrait ci-dessous.

#include<stdio.h>
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
#define float_t float
#include <time.h>
#include <omp.h>
float_t generate_histogram(float_t **matrix, int *histogram, int mat_size, int hist_size)
{
int i,j,k,count;
float_t max = 0.;
float_t sum;
//set histogram to zero everywhere
for(i = 0; i < hist_size; i++)
histogram[i] = 0;
//matrix computations
#pragma omp parallel for private(i) shared(histogram,j,k,max) schedule(dynamic)
//#pragma omp parallel for schedule(runtime)
for (i = 1; i < (mat_size-1); i++)
{
#pragma omp parallel for private(j,k) shared(histogram,max) schedule(dynamic)
//pragma omp prallel for schedule(dynamic)
for(j = 1; j < (mat_size-1); j++)
{
//assign current matrix[i][j] to element in order to reduce memory access
sum = fabs(matrix[i][j]-matrix[i-1][j]) + fabs(matrix[i][j] - matrix[i+1][j])
+ fabs(matrix[i][j]-matrix[i][j-1]) + fabs(matrix[i][j] - matrix[i][j+1]);
//compute index of histogram bin
k = (int)(sum * (float)mat_size);
#pragma omp atomic
histogram[k] += 1;
//keep track of largest element
if(sum > max)
max = sum;
}//end inner for
}//end outer for
return max;
}
main()
{
int i,j,N,boxes;
N = 10000;
float_t **matrix;
int* histogram;
boxes = N / 2;
//allocate a matrix with some numbers
matrix = calloc(N, sizeof(float_t **));
for(i = 0; i < N; i++)
matrix[i] = calloc(N, sizeof(float_t *));
for(i = 0; i < N; i++)
for(j = 0; j < N; j++)
matrix[i][j] = 1./(float_t) N * (float_t) i;
histogram = malloc(boxes * sizeof(int));
generate_histogram(matrix, histogram, N, boxes);
}

Qu'entendez-vous par double? Je ne peux pas vous saisir but.
J'ai édité. Désolé, c'était totalement flou. Mieux maintenant?

OriginalL'auteur seb | 2013-05-25

c for-loop openmp parallel-processing

C'est un problème intéressant. J'ai corrigé ton code. @KunHuang avait la bonne idée, mais vous avez plusieurs problèmes avec la vie privée et des variables partagées.

Votre ancienne fonction est appelée generate_histogram dont j'ai commenté l'omp choses. La nouvelle qui utilise OpenMP est appelé generate_histogram_omp.
L'ancien code se termine dans le temps 0.67 secondes sur mon système (ivy bridge dual core) et le nouveau code se termine dans 0.32 secondes.

Aussi, j'ai essayé de fusion de votre boucle, mais il a réalisé la performance bien pire (sans doute un problème de cache) donc je ne paralléliser la première boucle et je reçois toujours une vitesse 2x sur deux cores avec le code actuel, de toute façon. J'ai quitté la fusion de code en commentaire si vous voulez jouer avec elle.

Enfin, vos valeurs initiales de la matrice ne sont pas vraiment remplir l'histogramme beaucoup c'est à dire seulement quelques bacs sont remplis.

J'ai compilé avec

g++ hist.cpp -o hist -fopenmp -O3

Le code:

#include<stdio.h>
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
#define float_t float
#include <time.h>
#include <omp.h>
float_t generate_histogram(float_t **matrix, int *histogram, int mat_size, int hist_size)
{
int i,j,k,count;
float_t max = 0.;
float_t sum;
//set histogram to zero everywhere
for(i = 0; i < hist_size; i++)
histogram[i] = 0;
//matrix computations
//#pragma omp parallel for schedule(runtime)
for (i = 1; i < (mat_size-1); i++)
{
//pragma omp prallel for schedule(dynamic)
for(j = 1; j < (mat_size-1); j++)
{
//assign current matrix[i][j] to element in order to reduce memory access
sum = fabs(matrix[i][j]-matrix[i-1][j]) + fabs(matrix[i][j] - matrix[i+1][j])
+ fabs(matrix[i][j]-matrix[i][j-1]) + fabs(matrix[i][j] - matrix[i][j+1]);
//compute index of histogram bin
k = (int)(sum * (float)mat_size);
histogram[k] += 1;
//keep track of largest element
if(sum > max)
max = sum;
}//end inner for
}//end outer for
return max;
}
float_t generate_histogram_omp(float_t **matrix, int *histogram, int mat_size, int hist_size) {
float_t max = 0.;
//set histogram to zero everywhere
int i;
for(i = 0; i < hist_size; i++)
histogram[i] = 0;
//matrix computations
#pragma omp parallel 
{
int *histogram_private = (int*)malloc(hist_size * sizeof(int));
int i;
for(i = 0; i < hist_size; i++)
histogram_private[i] = 0;
float_t max_private = 0.;
int n;
int j;
#pragma omp for
for (i = 1; i < (mat_size-1); i++) {
for(j = 1; j < (mat_size-1); j++) {
//  for (n=0; n < (mat_size-2)*(mat_size-2); n++) {
//     int i = n/(mat_size-2)+1;
//     int j = n%(mat_size-2)+1;
float_t sum = fabs(matrix[i][j]-matrix[i-1][j]) + fabs(matrix[i][j] - matrix[i+1][j])
+ fabs(matrix[i][j]-matrix[i][j-1]) + fabs(matrix[i][j] - matrix[i][j+1]);
//compute index of histogram bin
int k = (int)(sum * (float)mat_size);
histogram_private[k] += 1;
//keep track of largest element
if(sum > max_private)
max_private = sum;
}
}
#pragma omp critical
{
for(i = 0; i < hist_size; i++)
histogram[i] += histogram_private[i];
if(max_private>max)
max = max_private;
}
free(histogram_private);
}
return max;
}
int compare_hists(int *hist1, int *hist2, int N) {
int i;
int diff = 0;
for(i =0; i < N; i++) {
int tmp = hist1[i] - hist2[i];
diff += tmp;
if(tmp!=0) {
printf("i %d, hist1 %d, hist2  %d\n", i, hist1[i], hist2[i]);
}
}
return diff;
}
main() {
int i,j,N,boxes;
N = 10000;
float_t **matrix;
int* histogram1;
int* histogram2;
boxes = N / 2;
//allocate a matrix with some numbers
matrix = (float_t**)calloc(N, sizeof(float_t **));
for(i = 0; i < N; i++)
matrix[i] = (float_t*)calloc(N, sizeof(float_t *));
for(i = 0; i < N; i++)
for(j = 0; j < N; j++)
matrix[i][j] = 1./(float_t) N * (float_t) i;
histogram1 = (int*)malloc(boxes * sizeof(int));
histogram2 = (int*)malloc(boxes * sizeof(int));
for(i = 0; i<boxes; i++) {
histogram1[i] = 0;
histogram2[i] = 0;
}
double dtime;
dtime = omp_get_wtime();
generate_histogram(matrix, histogram1, N, boxes);
dtime = omp_get_wtime() - dtime;
printf("time %f\n", dtime);
dtime = omp_get_wtime();
generate_histogram_omp(matrix, histogram2, N, boxes);
dtime = omp_get_wtime() - dtime;
printf("time %f\n", dtime);
int diff = compare_hists(histogram1, histogram2, boxes);
printf("diff %d\n", diff);
}

wow! c'est beaucoup de travail que vous avez fait là! merci, je vais aller à travers elle!

OriginalL'auteur

2

Il n'est pas possible de réduire d'un tableau ou d'une structure dans OpenMP, qui est mentionné ici: https://computing.llnl.gov/tutorials/openMP/#REDUCTION.

Je pense que vous pouvez déclarer plusieurs copies de histogram, chacun de qui est utilisée dans un thread. Après avoir ensuite utiliser un autre OpenMP boucle de l'ajouter.

ahhh :-). c'est une bonne idée. Je vais essayer.

OriginalL'auteur konjac

Vous devez vous connecter pour publier un commentaire.