并行计算实验报告（高性能计算与网格技术） - 图文

更新时间：2023-10-05 22:03:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

并行计算与高性能计算 pdf推荐度：
相关推荐

高性能计算和网格技术

实验报告

实姓学专指助所

验题目名号业

OpenMP和MPI编程

计算机系统结构

导教师教

在学院计算机科学与工程学院

论文提交日期

一、实验目的

本实验的目的是通过练习掌握 OpenMP 和MPI 并行编程的知识和技巧。

1、熟悉 OpenMP 和MPI 编程环境和工具的使用； 2、掌握并行程序编写的基本步骤； 3、了解并行程序调试和调优的技巧。

二、实验要求

1、独立完成实验内容； 2、了解并行算法的设计基础；

3、熟悉OpenMP和MPI的编程环境以及运行环境； 4、理解不同线程数，进程数对于加速比的影响。

三、实验内容

3.1、矩阵LU分解算法的设计：

参考文档sy6.doc所使用的并行算法：

在LU分解的过程中，主要的计算是利用主行i对其余各行j，(j>i)作初等行变换，各行计算之间没有数据相关关系，因此可以对矩阵A按行划分来实现并行计算。考虑到在计算过程中处理器之间的负载均衡，对A采用行交叉划分：设处理器个数为p，矩阵A的阶数为n，

m??n/p?，对矩阵A行交叉划分后，编号为i(i=0,1,…,p-1)的处理器存有

A的第i, i+p,…, i+(m-1)p行。然后依次以第0,1,…,n-1行作为主行，将

其广播给所有处理器，各处理器利用主行对其部分行向量做行变换，这实际上是各处理器轮流选出主行并广播。若以编号为my_rank的处理器的第i行元素作为主行，并将它广播给所有处理器，则编号大于等于my_rank的处理器利用主行元素对其第i+1,…,m-1行数据做行变换，其它处理器利用主行元素对其第i,…,m-1行数据做行变换。

根据上述算法原理用代码表示如下（关键代码）：

for(k = 0;k

rc = pthread_create(&pid[i], NULL, work, (void*)&thread_data_arrray[i]);

… } for (i = 0; i < THREADS_NUM; i++){ //等待线程同步 rc = pthread_join(pid[i], &ret); } }

void *work(void *arg)

{

…

struct thread_data *my_data;

my_data = (struct thread_data*)arg; int myid = my_data->thread_id; //线程ID int myk = my_data->K_number; //外层循环计数K float mychushu = my_data->chushu; //对角线的值

int s, e; int i, j;

s = (N-myk-1) * myid / THREADS_NUM; //确定起始循环的行数的相对位置 e = (N-myk-1) * (myid + 1) / THREADS_NUM;//确定终止循环的行数的相对位置

}

for (i = s+myk+1; i < e+myk+1; i++) //由于矩阵规模在缩小，找到偏移位置 { a[i][myk]=a[i][myk]/mychushu; for (j = myk+1; j < N; j++) a[i][j]=a[i][j]-a[i][myk]*a[myk][j]; }

//printMatrix(a); return NULL;

第一部分为入口函数，其创建指定的线程数，并根据不同的线

程id按行划分矩阵，将矩阵的不同部分作为参数传递给线程，在多处理器电脑上，不同的线程并行执行，实现并行计算LU分解。

在LU分解的过程中，主要的计算是利用主行i对其余各行j，（j）i）做初等行变换，由于各行计算之间没有数据相关关系，因此可以对矩阵按行划分来实现并行算法。

考虑到计算过程中处理器负载的均衡，对矩阵采用行交叉划分；假设处理器个数为p，矩阵的阶数为n，则每个处理器处理的行数为

m??n/p?。

由于在OpenMP和MPI中并行算法的实现不太一样，所以接下来的两小节中我将分别针对两个编程环境设计LU分解的并行实现。

3.2、OpenMP编程

因为OpenMP是基于线程的编程模型，所以设计了一个基于多

线程的OpenMP的LU分解算法，关键代码如下：

for(k = 0;k

位置 } }

tid=omp_get_thread_num(); //当前线程ID int myid = tid;

printf(\int myk = k;

float mychushu = A[k][k]; int s, e; int i, j;

s = (N-myk-1) * myid / THREADS_NUM;//确定起始循环的行数的相对位置 e = (N-myk-1) * (myid + 1) / THREADS_NUM;//确定终止循环的行数的相对

for (i = s+myk+1; i < e+myk+1; i++) //由于矩阵规模在缩小，找到偏移位置 { A[i][myk]=A[i][myk]/mychushu; for (j = myk+1; j < N; j++) A[i][j]=A[i][j]-A[i][myk]*A[myk][j]; //对行进行初等行变换 }

其主要思想为：外层设置一个列循环，在每次循环中开设THREAD _NUMS个线程，每个线程处理的矩阵A的行为上述的m，一次循环过后则完成对应列的变换，这样在N此循环过后便可完成矩阵A的LU分解。即L为A[k][j]中k>j的元素，其对角线上元素为1.0，其它为0，U为A[k][j]中k<=j的元素，其余为0。

这里如果我们使用的是一般的多线程编程，则在开启THREAD _NUMS个线程后，在下次循环开始之前，需要手动配置等待线程同步，不然可能出现错误。但由于OpenMP使用Fork-Join并行执行模型，其会在线程队执行完以后才转到主线程执行，所以不需要等待线程同步。详细的代码请参看附带源程序。

本文来源：https://www.bwwdw.com/article/udpd.html

相关文章：

正在阅读：

并行计算实验报告（高性能计算与网格技术） - 图文10-05

星火英语听力下载,英语听力mp3教程下载02-08

《阁夜》导学案12-29

星雨阁201-21

上一篇：建设工程施工合同纠纷诉讼点2018-2019年度精心整编后首发下一篇：中考语文标点符号专题训练复习教案