异构平台上基于OpenCL的矩阵乘并行算法

肖汉; 肖诗洋; 李彩林; 周清雷

doi:10.13718/j.cnki.xdzk.2020.11.017

异构平台上基于OpenCL的矩阵乘并行算法

1.
郑州师范学院信息科学与技术学院，郑州 450044

2.
东北林业大学土木工程学院，哈尔滨 150040

3.
山东理工大学建筑工程学院，山东淄博 255000

4.
郑州大学信息工程学院，郑州 450001

基金项目: 国家自然科学基金项目(41601496，41701525，61572444)；山东省自然科学基金项目(ZR2017LD002)；山东省重点研发计划项目(2018GGX106002)

详细信息

作者简介:
肖汉(1970-)，男，教授，博士后，主要从事大规模并行算法研究与设计、遥感大数据并行处理的研究 .

通讯作者: 李彩林，博士，硕士研究生导师;

中图分类号: TP311

AMatrix Multiplication Parallel Algorithm Based on OpenCL on Heterogeneous Platforms

1.
School of Information Science and Technology, Zhengzhou Normal University, Zhengzhou 450044, China

2.
School of Civil Engineering, Northeast Forestry University, Harbin 150040, China

3.
School of Civil and Architectural Engineering, Shandong University of Technology, Zibo, Shandong 255000, China

4.
School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China

摘要: 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上，从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法，并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示，与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比，基于OpenCL架构的矩阵乘并行算法效率更高.
- 矩阵乘 /
- 图形处理器 /
- 开放式计算语言 /
- 并行算法
Abstract: Based on an analysis of the underlying hardware architecture of Open Computing Language (OpenCL) platform, this paper optimizes the matrix multiplication algorithm from several different angles, such as the data localization, the computing resource utilization ratio and the utilization ratio of the memory bandwidth, and realizes the acceleration of matrix multiplication algorithm in OpenCL architecture. The experimental data show that the matrix multiplication parallel algorithm based on OpenCL architecture is more efficient than the single thread algorithm based on CPU, the multi-thread algorithm based on Open Multi-Processing (OpenMP) and theparallel algorithm based on Compute Unified Device Architecture (CUDA).
- matrix multiplication /
- graphic processing unit (GPU) /
- open computing language (OpenCL) /
- parallel algorithm .

图 1 矩阵乘并行算法执行模式

下载: 全尺寸图片幻灯片

图 2 不同计算平台下矩阵乘并行算法的加速比对比

下载: 全尺寸图片幻灯片

算法  OpenCL架构上的矩阵乘法算法
   输入：矩阵A_n×n，B_n×n.
   输出：矩阵C_n×n.
   Begin
     for all S_x×S_y par-do
        for i=0 to S_x-1 do
          for j=0 to S_y-1 do
            C_i，j=0
            for k=0 to S_x-1 do
              C_i，j=C_i，j+A_{i， k}*B_k，j
           end for
         end for
       end for
     end for
   End

下载: 导出CSV

表 1 工作组大小对运算速度的影响

工作组中的工作项数	运行时间/ms
64	7.726
96	5.621
128	5.484
160	4.213
192	3.182
224	3.282
256	3.434

下载: 导出CSV

表 2 不同计算平台下矩阵乘算法执行时间

矩阵大小	串行处理时间/s	并行处理时间/s
矩阵大小	串行处理时间/s	OpenMP	CUDA	AMD OpenCL	NVIDIA OpenCL
100×100	0.006	0.003	0.002	0.002	0.002
200×200	0.057	0.018	0.010	0.013	0.010
400×400	0.461	0.088	0.066	0.080	0.055
600×600	3.182	0.583	0.228	0.228	0.203
800×800	8.789	1.598	0.517	0.459	0.429
1 000×1 000	20.362	3.695	1.031	1.012	0.898
1 400×1 400	57.796	10.321	2.793	2.599	2.353

下载: 导出CSV

表 3 不同计算平台下矩阵乘并行算法性能对比

序号	矩阵大小	加速比				相对加速比1	相对加速比2
序号	矩阵大小	OpenMP	CUDA	AMD OpenCL	NVIDIA OpenCL	相对加速比1	相对加速比2
1	100×100	2.00	3.00	3.00	3.00	1.50	1.00
2	200×200	3.17	5.70	4.38	5.70	1.80	1.00
3	400×400	5.24	6.99	5.76	8.38	1.60	1.20
4	600×600	5.46	13.96	13.96	15.67	2.87	1.12
5	800×800	5.50	17.00	19.15	20.49	3.73	1.21
6	1 000×1 000	5.51	19.75	20.12	22.67	4.11	1.15
7	1 400×1 400	5.60	20.69	22.24	24.56	4.39	1.19

下载: 导出CSV

[1]	HOSSEINI RAD M, PATOOGHY A, FAZELI M. An Efficient Programming Skeleton for Clusters of Multi-Core Processors [J]. International Journal of Parallel Programming, 2018, 46(6): 1094-1109. doi: 10.1007/s10766-017-0517-y
[2]	FIALKO S. Parallel Direct Solver for Solving Systems of Linear Equations Resulting from Finite Element Method on Multi-Core Desktops and Workstations [J]. Computers & Mathematics with Applications, 2015, 70(12): 2968-2987.
[3]	CABRERA W, ORDONEZ C. Scalable Parallel Graph Algorithms with Matrix-Vector Multiplication Evaluated with Queries [J]. Distributed and Parallel Databases, 2017, 35(3-4): 335-362. doi: 10.1007/s10619-017-7200-6
[4]	PARK S M, CHANG K Y, HONG D, et al. Subquadratic Space Complexity Multiplier Using Even Type GNB Based on Efficient Toeplitz Matrix-Vector Product [J]. IEEE Transactions on Computers, 2018, 67(12): 1794-1805. doi: 10.1109/TC.2018.2836425
[5]	LIMA F A, MORENO E D, DIAS W R A. Performance Analysis of a Low Cost Cluster with Parallel Applications and ARM Processors [J]. IEEE Latin America Transactions, 2016, 14(11): 4591-4596. doi: 10.1109/TLA.2016.7795834
[6]	ACER S, TORUN T, AYKANAT C. Improving Medium-Grain Partitioning for Scalable Sparse Tensor Decomposition [J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 29(12): 2814-2825. doi: 10.1109/TPDS.2018.2841843
[7]	LIANG Y, TANG W T, ZHAO R Z, et al. Scale-Free Sparse Matrix-Vector Multiplication on Many-Core Architectures [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2017, 36(12): 2106-2119. doi: 10.1109/TCAD.2017.2681072
[8]	KRUCHININA A, RUDBERG E, RUBENSSON E H. Parameterless Stopping Criteria for Recursive Density Matrix Expansions [J]. Journal of Chemical Theory and Computation, 2016, 12(12): 5788-5802. doi: 10.1021/acs.jctc.6b00626
[9]	ZHENG D, MHEMBERE D, LYZINSKI V, et al. Semi-External Memory Sparse Matrix Multiplication for Billion-Node Graphs [J]. IEEE Transactions on Parallel and Distributed Systems, 2017, 28(5): 1470-1483. doi: 10.1109/TPDS.2016.2618791
[10]	崔翔, 李晓雯, 陈一峯.基于Parray数组类型的矩阵乘法实现[J].计算机学报, 2014, 37(12): 2564-2573.
[11]	周磊涛, 陶耀东, 刘生, 等.基于FPGA的Systolic乘法技术研究[J].计算机工程与科学, 2015, 37(9): 1632-1636.
[12]	刘沛华, 鲁华祥, 龚国良, 等.基于FPGA的全流水双精度浮点矩阵乘法器设计[J].智能系统学报, 2012, 7(4): 302-306.
[13]	朱敏, 唐波, 赵娟, 等.布尔矩阵乘的分布式异构并行优化[J].计算机工程与科学, 2017, 39(4): 634-640.
[14]	LASTOVETSKY A, REDDY MANUMACHU R. New Model-Based Methods and Algorithms for Performance and Energy Optimization of Data Parallel Applications on Homogeneous Multicore Clusters [J]. IEEE Transactions on Parallel and Distributed Systems, 2017, 28(4): 1119-1133. doi: 10.1109/TPDS.2016.2608824
[15]	王云龙, 吴瑛.基于GPU的相关干涉仪算法实现[J].信息工程大学学报, 2015, 16(1): 41-45.
[16]	张梦元.基于CUDA的矩阵乘法的并行实现[J].信息通信, 2012(2): 20-21.
[17]	BERI T, BANSAL S, KUMAR S. The Unicorn Runtime: Efficient Distributed Shared Memory Programming for Hybrid CPU-GPU Clusters [J]. IEEE Transactions on Parallel and Distributed Systems, 2017, 28(5): 1518-1534. doi: 10.1109/TPDS.2016.2616314
[18]	龙卓群, 王晓瑜, 王昌明.基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J].自动化与仪表, 2017, 32(7): 16-21.
[19]	刘鹏, 王学奎, 黄宜华, 等.基于Spark的极限学习机算法并行化研究[J].计算机科学, 2017, 44(12): 33-37.
[20]	GU R, TANG Y, TIAN C, et al. Improving Execution Concurrency of Large-Scale Matrix Multiplication on Distributed Data-Parallel Platforms [J]. IEEE Transactions on Parallel and Distributed Systems, 2017, 28(9): 2539-2552. doi: 10.1109/TPDS.2017.2686384

图( 2) 表( 4)

计量

文章访问数: 939
HTML全文浏览数: 939
PDF下载数: 277
施引文献: 0

全文HTML

矩阵乘法是科学计算中最基本的操作之一^[1-2].然而，由于矩阵乘法运算数据量大、计算密集度高，许多传统数据处理方法都难以满足实时性要求.如何进行大数据量的快速处理，降低运算时间，提高整体应用系统的时效性已显得尤为重要^[3].

近年来，随着并行算法技术与并行处理构架的发展，多核CPU，FPGA，GPU等新型加速平台开始被研究和运用^[4-7].开放式计算语言(open computing language，OpenCL)是一种通用的国际标准，可用来在不同架构CPU，GPU，FPGA等设备上使用统一的接口来设计，包括编程语言规则、程序设计语言、函数库、应用编程接口等^[8].

目前，国内外研究学者在矩阵乘算法的加速和优化方面已有一些代表性工作^[9-20]，但是算法本身加速效果均不明显.本文将根据矩阵乘算法的运算特性和GPU架构特征，实现OpenCL加速的矩阵乘并行算法.同时，通过性能参数传递机制，实现了该算法在不同计算平台上的性能移植.

3. 结束语

为使矩阵乘并行算法在异构处理平台下充分利用GPU的处理能力，本文针对OpenCL模型采用基于工作组和工作项两级并行计算方式，通过分析GPU构架特性，合理安排工作项组织结构，并对GPU的本地存储器的分配进行了优化.实验数据显示，与基于CPU的单线程算法、基于OpenMP多线程多核CPU并行算法和基于CUDA架构的并行算法相比，利用OpenCL加速的矩阵乘并行算法效率更高，实现了对大数据集的跨GPU计算平台实时处理.

参考文献 (20)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

异构平台上基于OpenCL的矩阵乘并行算法

1.
郑州师范学院信息科学与技术学院，郑州 450044

2.
东北林业大学土木工程学院，哈尔滨 150040

3.
山东理工大学建筑工程学院，山东淄博 255000

4.
郑州大学信息工程学院，郑州 450001

作者简介:
肖汉(1970-)，男，教授，博士后，主要从事大规模并行算法研究与设计、遥感大数据并行处理的研究 .

通讯作者: 李彩林，博士，硕士研究生导师;

AMatrix Multiplication Parallel Algorithm Based on OpenCL on Heterogeneous Platforms

计量

异构平台上基于OpenCL的矩阵乘并行算法

通讯作者: 李彩林，博士，硕士研究生导师;

English Abstract

AMatrix Multiplication Parallel Algorithm Based on OpenCL on Heterogeneous Platforms

Corresponding author: LI Cai-lin ;

全文HTML

1.1. 并行算法描述

1.2. 并行算法执行模式

1.3. 矩阵乘并行算法在OpenCL上的实现

1.3.1. 并行算法设计

1.3.2. 计算核心的启动配置

1.3.3. 数据坐标变换

1.4. 针对GPU架构特性的优化

2.1. 测试环境和数据记录

2.2. 并行算法性能分析

目录

留言板

异构平台上基于OpenCL的矩阵乘并行算法

1. 郑州师范学院 信息科学与技术学院，郑州 450044 2. 东北林业大学 土木工程学院，哈尔滨 150040 3. 山东理工大学 建筑工程学院，山东 淄博 255000 4. 郑州大学 信息工程学院，郑州 450001

作者简介: 肖汉(1970-)，男，教授，博士后，主要从事大规模并行算法研究与设计、遥感大数据并行处理的研究 .

通讯作者: 李彩林，博士，硕士研究生导师;

AMatrix Multiplication Parallel Algorithm Based on OpenCL on Heterogeneous Platforms

计量

出版历程

异构平台上基于OpenCL的矩阵乘并行算法

通讯作者: 李彩林，博士，硕士研究生导师;

English Abstract

AMatrix Multiplication Parallel Algorithm Based on OpenCL on Heterogeneous Platforms

Corresponding author: LI Cai-lin ;

全文HTML

1.1. 并行算法描述

1.2. 并行算法执行模式

1.3. 矩阵乘并行算法在OpenCL上的实现

1.3.1. 并行算法设计

1.3.2. 计算核心的启动配置

1.3.3. 数据坐标变换

1.4. 针对GPU架构特性的优化

2.1. 测试环境和数据记录

2.2. 并行算法性能分析

目录

1.
郑州师范学院信息科学与技术学院，郑州 450044

2.
东北林业大学土木工程学院，哈尔滨 150040

3.
山东理工大学建筑工程学院，山东淄博 255000

4.
郑州大学信息工程学院，郑州 450001

作者简介:
肖汉(1970-)，男，教授，博士后，主要从事大规模并行算法研究与设计、遥感大数据并行处理的研究 .