矩阵乘法——基于GPU的并行编程模型CUDA程序设计

2023-11-11

矩阵乘法——基于GPU的并行编程模型CUDA程序设计

在这里插入图片描述

1 题目描述

题目1:编写一个矩阵乘法的GPU并行程序,并且与对应规模的串行程序进行运行时间的比对(n=500,1000,1500,2000,3000,5000),画出规模和时间对比图。
矩阵A(n,n)
矩阵B(n,n)
C = A x B
要求:
  1、完成程序的开发并验证其正确性,完成一个实验报告(程序源代码、变量和语句的详细说明;
  2、在实验报告中通过图表说明CPU串行和GPU并行在各种规模的运行时间;
  3、在实验报告中通过图表说明GPU并行不同的数据分配在各种规模的运行时间

2 设计思路

  CPU串行程序:对于矩阵A(n,n),矩阵B(n,n)做矩阵乘运算得到C = A x B。矩阵乘的基本操作为:元素Cij=A的第i行x B的第j列。所以我们通过三层for循环嵌套来计算矩阵的乘法。

  CUDA并行程序:矩阵相乘过程中,结果矩阵C中的每个元素都是可以独立计算的,即彼此之间并无依赖性。所以我们可以让矩阵C中的每个元素都有一个单独的线程去计算,这样将会显著地提高矩阵相乘的计算效率。但是实际中通常不可能有像矩阵元素那么多的线程和处理器资源,这时我们就应该把矩阵分块,分成一个个的子矩阵,让每个线程去计算每个子矩阵,最后再把每个线程得到的结果组合起来就可以得到矩阵相乘的最终结果。

实验环境

操作系统:Windows10
开发环境:Visual Studio 2019 + CUDA Toolkit 11.0

3 源码

3.1 串行程序

矩阵乘法的CPU程序

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include <iomanip>
#include "ctime"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

using namespace std;

#define MATRIX_SIZE 500
//构造矩阵
void BuildMatrix(float* a, int n) {
    for (int i = 0; i < n * n; i++) {
        a[i] = 2.0;
    }
    return;
}

//输出矩阵
void printfMatrix(float* a, int n) {
    for (int i = 0; i < n * n; i++) {
        printf("%lg\t", a[i]);
        if ((i + 1) % n == 0)
            printf("\n");
    }
    return;
}


int main() {
    float* a, * b, * c, * d;
    int n = MATRIX_SIZE;
    //分配内存
    a = (float*)malloc(sizeof(float) * n * n);
    b = (float*)malloc(sizeof(float) * n * n);
    c = (float*)malloc(sizeof(float) * n * n);
    d = (float*)malloc(sizeof(float) * n * n);

    BuildMatrix(a, n);
    BuildMatrix(b, n);
    //printfMatrix(a, n);
    //printfMatrix(b, n);

    /*CPU矩阵乘法,存入矩阵d*/
    //cpu计时开始
    cudaEvent_t cpustart, cpustop;
    float cpuelapsedTime = 0.0;
    cudaEventCreate(&cpustart);
    cudaEventCreate(&cpustop);
    cudaEventRecord(cpustart, 0);

    clock_t begin_time, end_time;

    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            double t = 0;
            for (int k = 0; k < n; k++) {
                t += a[i * n + k] * b[k * n + j];
            }
            d[i * n + j] = t;
        }
    }


    //cpu计时结束
    cudaEventRecord(cpustop, 0);
    cudaEventSynchronize(cpustop);
    cudaEventElapsedTime(&cpuelapsedTime, cpustart, cpustop);
    cudaEventDestroy(cpustart);    
    cudaEventDestroy(cpustop);

    double cputime = cpuelapsedTime;

   cout << setiosflags(ios::fixed) << setprecision(6) << "CPU time: " << (cputime) / 1000 << " s" << endl;

    return 0;
}

3.2 并行程序

矩阵乘法的GPU程序并用CPU计算结果进行结果检验

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include<iomanip>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

using namespace std;

#define THREAD_NUM 256
#define MATRIX_SIZE 500

const int blocks_num = (MATRIX_SIZE * MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;

//构造矩阵
void BuildMatrix(float* a, int n)
{
	for (int i = 0; i < n * n; i++)
	{
		a[i] = 2.0;
	}
	return;
}
//输出矩阵
void printfMatrix(float* a, int n) {
	for (int i = 0; i < n * n; i++) {
		printf("%lg\t", a[i]);
		if ((i + 1) % n == 0)
			printf("\n");
	}
	return;
}


// __global__ 函数 并行计算矩阵乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c, int n)
{

	//表示目前的 thread 是第几个 thread(由 0 开始计算)线程
	const int tid = threadIdx.x;
	//表示目前的 thread 属于第几个 block(由 0 开始计算)块
	const int bid = blockIdx.x;
	//从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
	const int idx = bid * THREAD_NUM + tid;
	const int row = idx / n;
	const int column = idx % n;

	//计算矩阵乘法
	if (row < n && column < n)
	{
		float t = 0;
		for (int i = 0; i < n; i++)
		{
			t += a[row * n + i] * b[i * n + column];
		}
		c[row * n + column] = t;
	}
	return;
}

int main()
{
	float* a, * b, * c, * d;
	int n = MATRIX_SIZE;
	//分配内存
	a = (float*)malloc(sizeof(float) * n * n);
	b = (float*)malloc(sizeof(float) * n * n);
	c = (float*)malloc(sizeof(float) * n * n);
	d = (float*)malloc(sizeof(float) * n * n);

	BuildMatrix(a, n);
	BuildMatrix(b, n);
	//printfMatrix(a, n);
	//printfMatrix(b, n);

	/*CUDAgpu并行开始 a*b=c */
	//cudaMalloc 取得一块显卡内存
	float* cuda_a, * cuda_b, * cuda_c;
	cudaMalloc((void**)&cuda_a, sizeof(float) * n * n);
	cudaMalloc((void**)&cuda_b, sizeof(float) * n * n);
	cudaMalloc((void**)&cuda_c, sizeof(float) * n * n);
	//cudaMemcpy 将产生的矩阵复制到显卡内存中:cudaMemcpyHostToDevice - 从内存复制到显卡内存,cudaMemcpyDeviceToHost - 从显卡内存复制到内存
	cudaMemcpy(cuda_a, a, sizeof(float) * n * n, cudaMemcpyHostToDevice);
	cudaMemcpy(cuda_b, b, sizeof(float) * n * n, cudaMemcpyHostToDevice);

	//CUDA计时开始
	cudaEvent_t gpustart, gpustop;
	float gpuelapsedTime = 0.0;
	cudaEventCreate(&gpustart);
	cudaEventCreate(&gpustop);
	cudaEventRecord(gpustart, 0);

	// 在CUDA 中执行函数 语法:函数名称<<<block 数目, thread 数目>>>(参数...);
	matMultCUDA << < blocks_num, THREAD_NUM >> > (cuda_a, cuda_b, cuda_c, n);
	cudaDeviceSynchronize();//同步CPU和gpu,否则测速结果为cpu启动内核函数的速度

	//CUDA计时结束
	cudaEventRecord(gpustop, 0);
	cudaEventSynchronize(gpustop);
	cudaEventElapsedTime(&gpuelapsedTime, gpustart, gpustop);
	cudaEventDestroy(gpustart);
	cudaEventDestroy(gpustop);
	double gputime = gpuelapsedTime;

	//cudaMemcpy 将结果从显存中复制回内存
	cudaMemcpy(c, cuda_c, sizeof(float) * n * n, cudaMemcpyDeviceToHost);
	//释放内存
	cudaFree(cuda_a);
	cudaFree(cuda_b);
	cudaFree(cuda_c);
	cudaFree(time);

	/*CPU矩阵乘法,存入矩阵d*/
	//cpu计时开始
	cudaEvent_t cpustart, cpustop;
	float cpuelapsedTime = 0.0;
	cudaEventCreate(&cpustart);
	cudaEventCreate(&cpustop);
	cudaEventRecord(cpustart, 0);

	for (int i = 0; i < n; i++)
	{
		for (int j = 0; j < n; j++)
		{
			double t = 0;
			for (int k = 0; k < n; k++)
			{
				t += a[i * n + k] * b[k * n + j];
			}
			d[i * n + j] = t;
		}
	}

	//cpu计时结束
	cudaEventRecord(cpustop, 0);
	cudaEventSynchronize(cpustop);
	cudaEventElapsedTime(&cpuelapsedTime, cpustart, cpustop);
	cudaEventDestroy(cpustart);
	cudaEventDestroy(cpustop);
	double cputime = cpuelapsedTime;

	/*验证正确性与精确性*/
	float max_err = 0;
	float average_err = 0;
	for (int i = 0; i < n; i++)
	{
		for (int j = 0; j < n; j++)
		{
			if (d[i * n + j] != 0)
			{
				//fabs求浮点数x的绝对值
				float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);
				if (max_err < err) max_err = err;
				average_err += err;
			}
		}
	}

	/*输出结果*/
	cout << setiosflags(ios::fixed) << setprecision(6) << "MAX ERROR: " << max_err << endl;
	cout << setiosflags(ios::fixed) << setprecision(6) << "AVERAGE ERROR: " << average_err / (n * n) << endl;
	cout << setiosflags(ios::fixed) << setprecision(6) << "GPU time: " << (gputime) / 1000 << " s" << endl;
	//cout << setiosflags(ios::fixed) << setprecision(6) << "CPU time: " << (cputime) / 1000 << " s" << endl;

	return 0;
}

3.3 性能对比与分析

  CPU串行和GPU并行(ThreadsPerBlock=256,ThreadsPerBlock:每个线程块所拥有的线程数量)在各种规模的运行时间如图1所示。在数据规模N比较小时,CPU串行和GPU并行程序运行消耗的时间相差不大。当数据规模N逐步增大时,CPU串行程序运行消耗时间的增长速度远远超过GPU并行程序运行消耗时间的增长速度。
  当数据规模N=5000时,CPU串行程序运行消耗时间已经是GPU并行程序运行消耗时间的12.41倍,消耗的时间达到了693.44s。而从图2中可以预见的是CPU串行程序运行消耗的时间将会很大很大,很有可能呈现指数级增长趋势

图1 CPU串行和GPU并行在各种规模的运行时间
图1 CPU串行和GPU并行在各种规模的运行时间

在这里插入图片描述
图2 CPU串行和GPU并行在各种规模的运行时间趋势图

  GPU并行不同的数据分配(ThreadsPerBlock:每个线程块所拥有的线程数量)在各种规模下的运行时间如图3所示。在数据规模N比较小的时候,不同的数据分配方式下程序运行消耗时间没有显著差异。随着数据规模N的增大,不同的数据分配方式下程序运行消耗时间的差异开始显现。
  当数据规模N=5000时,我们可以明显的看出在ThreadsPerBlock=256时程序运行消耗时间比在其他条件下小。程序运行消耗时间呈两边高,中间低的趋势,每个线程块所拥有的线程数量最少和最多的程序运行消耗的时间分别是最多的和次多的。
在这里插入图片描述
图3 GPU并行不同的数据分配在各种规模的运行时间

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

矩阵乘法——基于GPU的并行编程模型CUDA程序设计 的相关文章

  • Nvcc 的版本与 CUDA 不同

    我安装了 cuda 7 但是当我点击 nvcc version 时 它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库 但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
  • __syncthreads() 死锁

    如果只有部分线程执行 syncthreads 会导致死锁吗 我有一个这样的内核 global void Kernel int N int a if threadIdx x
  • 加速Cuda程序

    要更改哪一部分来加速此代码 代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
  • 使用 CUDA 进行逐元素向量乘法

    我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量 向量乘法 内核代码插入如下 multiplyElementwise 它工作正常 但由于我注意到其他看似简单的操作 如缩放向量 在 CUBLAS 或 CULA 等库中进行了
  • 如何在cmake中添加cuda源代码的定义

    我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译 例如 CMakeLists txt project Test add definitions D WINDOW
  • 在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗?

    CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
  • CUDA、NPP 滤波器

    CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像 但不断出现错误 我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
  • CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

    与 CUDA 的任何事情一样 最基本的事情有时也是最难的 所以 我只想将变量从 CPU 复制到 GPUconstant变量 我很难过 这就是我所拥有的 constant int contadorlinhasx d int main int
  • 内联 PTX 汇编代码强大吗?

    我看到一些代码示例 人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大 为什么会这样呢 如果我们在 C 代码中使用这样的代码 我们会得到什么好处 内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
  • OS X 10.8 上的 PyCuda / 多处理问题

    我正在开发一个项目 将计算任务分配给多个 python 进程 每个进程都与其自己的 CUDA 设备关联 生成子进程时 我使用以下代码 import pycuda driver as cuda class ComputeServer obje
  • PyInstaller 是否包含 CUDA

    我正在开发一个Python脚本 我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件 我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
  • 云或烟雾的粒子系统

    我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统 如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现 我现在遇到的一些问题是 颗粒聚集成一个大球 粒子扩散到无限远 粒子突然弹射离开 我已经完成
  • Bank 在字长方面存在冲突

    我读过一些关于共享内存的好文章 但我对银行冲突有初步疑问 据说 如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突 但如果他们访问不同的单词 就会出现银行冲突 但我的问题是不同的单词如何可以驻留在一个银行中 由于bank
  • C 中的 CUDA:如何使用 cudaMemcpyAsync 修复错误 11

    我目前正在尝试使用 CUDA 运行一个简单的多 GPU 程序 它的基本作用是将一个包含一些虚拟数据的大型数组复制到 GPU GPU 进行一些数学计算 然后将结果数组复制回来 我在 VS2017 的输出中没有收到任何错误 但我设置的一些错误消
  • CUDA 8 编译错误 -std=gnu++11

    我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题 我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
  • NVCC 警告级别

    我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
  • CUDA 的嵌套循环

    我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
  • 为什么 cudaGLSetGLDevice 失败,即使它是在 main 函数的第一行中调用的

    我想使用 OpenGL 和 CUDA 之间的互操作性 我知道 正如一些教程所说 第一步是选择设备 但是 当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时 程序退出并显示信息 cudaSafeCall 运行时 API 错
  • CUDA 代码会损坏 GPU 吗?

    在测试包含内存错误的 CUDA 时 我的屏幕被冻结了 重新启动后我无法再检测到显卡 我的代码是否有可能物理损坏该卡 这发生在 Ubuntu 14 04 下 我不知道该卡的型号 因为我无法检测到它 但我记得它是一张相当新的卡 感谢所有的评论我
  • goto 指令对 CUDA 代码中扭曲内发散的影响

    对于CUDA中简单的warp内线程发散 我所知道的是SM选择一个重新收敛点 PC地址 并在两个 多个路径中执行指令 同时禁用未采用该路径的线程的执行效果 例如 在下面的代码中 if threadIdx x lt 16 A do someth

随机推荐

  • 数字化转型成熟度模型介绍

    中关村信息技术和实体经济融合发展联盟提出了一种数字化转型成熟度模型系列标准 目前已经被众多央企采用 作为数字化转型战略框架和评价的依据 用友作为全球领先的数智化服务商 也参与了这一系列标准的制定 今天我们就来介绍一下这套成熟度模型 并讨论对
  • k8s基础概念:port ,targetport,nodeport

    在Kubernetes中 有三种类型的端口与Service相关 port targetPort和NodePort 它们分别用于不同的用途 port port字段定义了Service暴露给集群内部和外部的端口号 当你创建一个Service时
  • web前端职业规划(转)

    关于一个WEB前端的职业规划 其实是有各种的答案 没有哪种答案是完全正确的 全凭自己的选择 只要是自己选定了 坚持去认真走 就好 在这里 我只是简要说一下自己对于这块儿内容的理解 有一个观点想要分享给大家的是 任何规划和目标的实现都依赖于知
  • 矩阵连乘问题C++实现

    矩阵连乘问题C 1 认真审阅题目 明确题目的已知条件和求解的目标 2 问题建模 3 算法设计 4 编码实现 1 认真审阅题目 明确题目的已知条件和求解的目标 给定n个矩阵 A1 A2 A3 An 其中Ai与Ai 1 i 1 2 3 4 n
  • 从0到1带你构建——低代码开发入门案例

    个人简介 个人主页 前端杂货铺 学习方向 主攻前端方向 也会涉及到服务端 Node js 个人状态 在校大学生一枚 已拿多个前端 offer 秋招 未来打算 为中国的工业软件事业效力 n 年 推荐学习 前端面试宝典 Vue2 Vue3 Vu
  • 目标检测:锚点介绍及应用

    目标检测 锚点介绍及应用 介绍 应用 生成锚点图 步骤 锚点匹配 步骤 介绍 锚点相当于在待预测的特征数据上预设出可能的物体边界框 即预设出特征数据可能代表的物体区域 每个区域通常由两个属性构成 尺度 scale或size 和比例 rati
  • laravel实战项目搭建及代码管理

    本文目录 前言 一 安装laravel和装插件 1 1 安装laravel 1 2 安装开发插件 二 运行项目及配置 2 1 配置虚拟主机与绑定hosts文件 2 2 配置数据库连接 2 3 本地化配置 2 4 删除默认文件或目录 三 gi
  • 算法训练Day11

    目录 LeetCode232 用栈实现队列 1 思路 2 代码实现 3 复杂度分析 4 思考 LeetCode225 用队列实现栈 1 思路 2 代码实现 3 复杂度分析 4 思考 LeetCode20 有效的括号 方法一 使用栈和字典 1
  • Ubuntu18配置ssh免密登录

    安装配置 sudo apt get install openssh server cd ssh 若没有该目录 请先执行一次 ssh localhost ssh keygen t rsa 会有提示 都按回车就可以 cat id rsa pub
  • JSON注入与CSRF漏洞原理与复现

    JSON注入与CSRF漏洞原理与复现 1 JSON JavaScript Object Notation JavaScript对象表示法 2 它是一种数据格式 而不是一种编程语言 3 JSON的语法 有三种类型的值 简单值 对象 数组 关于
  • 【深度学习】 Python 和 NumPy 系列教程(十六):Matplotlib详解:2、3d绘图类型(2)3D散点图(3D Scatter Plot)

    目录 一 前言 二 实验环境 三 Matplotlib详解 1 2d绘图类型 2 3d绘图类型 0 设置中文字体 1 线框图 Wireframe Plot 2 3D散点图 3D Scatter Plot 一 前言 Python是一种高级编程
  • Qt for Android——关于版本的选择(ABI和CPU版本)

    1 前景介绍 之前在开发Qt for Android程序的时候 不知道如何选择套件的版本 乱选一通 经常是程序开发完 到了运行选择设备的时候告诉我设备不匹配 不支持这个ABI 下面就来讲讲这些版本 2 Qt中套件对应的版本 在我们安装Qt的
  • JTest

    接到parasoft公司一位先生打来的电话 说下个月第二周到上海来 希望顺便给我们组培训一下JTest和C Test的使用 我是用java的 自然对JTest更感兴趣一些 上网一搜 原来JTest这么出名 自己的确孤陋寡闻了 看了一下价格
  • 如何下载微信支付证书(API证书)

    一 登录微信商户平台 1 商户平台登陆网址 微信支付 中国领先的第三方支付平台 微信支付提供安全快捷的支付方式http pay weixin qq com 2 登录方式 扫码登录登录 二 进入微信商户平台下载证书 1 点击账户中心 账户设置
  • Vue简易登陆页面

    目录 1 效果展示 2 Vue代码 3 存点图片 1 效果展示 2 Vue代码
  • selenium练习实例

    1 项目流程 2 中心调度 中心调度 defmain try total search total int re compile d search total group 1 fori inrange 2 total 1 next page
  • 一分钟解决Chrome浏览器主页被hao123、360和2345篡改简单有效方法

    当你打开浏览器看到各种首页跳转的页面 对于强迫症的我是不能接受的 各种情况都碰到了 现在给出解决方法 按照下面的方式去排查就可以一定能解决你的问题 如果不行的话你来打我呀 如果问题解决了希望你能推荐给其他人 提示 检查下杀毒软件有没有绑定浏
  • Raft一致性算法分析与总结

    Raft简介 Raft是一个用于日志复制 同步的一致性算法 它提供了和Paxos一样的功能和性能 但是它的算法结构与Paxos不同 这使得Raft相比Paxos更好理解 并且更容易构建实际的系统 为了强调可理解性 Raft将一致性算法分解为
  • 跨平台传输结构体的注意事项

    1 什么是跨平台 1 这里的平台是按照CPU的位数来划分 分为32位CPU和64位CPU 不同位数CPU的差异会影响到结构体的解析 2 在实际嵌入式开发中 存在 主芯片 从芯片 的多CPU的产品 或者数据需要在不同位数CPU的机器上传输 3
  • 矩阵乘法——基于GPU的并行编程模型CUDA程序设计

    矩阵乘法 基于GPU的并行编程模型CUDA程序设计 目录 矩阵乘法 基于GPU的并行编程模型CUDA程序设计 1 题目描述 2 设计思路 实验环境 3 源码 3 1 串行程序 3 2 并行程序 3 3 性能对比与分析 1 题目描述 题目1