如何用cublas计算逆矩阵？

2023-11-15

cublas的文档中提供了一个用LU分解求逆矩阵的方法，需要用到两个函数:

cublas<t>getriBatched()

第一个函数用于做LU分解，第二个函数把LU分解的结果变为逆矩阵。

但官方文档对这两个函数的用法语焉不详，我花了几个小时才把这个问题搞定。主要遇到两个问题：

函数有一个参数是 const float *[] 类型，直接把 float **指针传进去的话编译通不过，以前没接触过这个类型的指针，费了不少功夫，上网查了些资料才搞定。

编译通过后，又遇到第二个问题：运行两个函数都会提示:

unspecified launch failure

这是显存变量越界造成的。但仔细检查代码，也没找到问题。后来翻墙到http://stackoverflow.com/看看有没有人遇到过类似问题，不得不说国外的社区就是强大，果然有人遇到过类似问题，别且找到了症结所在。

原来，CUDA 的指针的指针（例如 float **）就像普通数据一样，也分为 host和 device, host上的，例如：

float ** hostPrt = (float **)malloc(sizeof(float *));//这是host上的定义方法
float ** devicePrt ;
cudaMalloc((void **) & devicePrt, sizeof(float *));//这是device上的定义方法。

而这两个函数参数中，接受的float * [] 参数都是 device指针，传入host指针就出出错。

解决了这个问题后，用cublas求逆矩阵就顺利通过了。

但最后又遇到一个问题：

我测试了用cublas计算逆矩阵的时间，和CPU上用EIGEN计算用的时间，(我的显卡是GTX980ti 算是不错的显卡了），计算矩阵大小是1000 x 1000。结果cublas用的时间是CPU的5倍！！！看来用cublas计算逆矩阵，毫无速度优势。我又想是不是矩阵不够大？就改为2000 x 2000的矩阵试试看，结果是显卡直接罢工了（cublas的文档上就说求逆的矩阵不宜过大），而EIGEN也只是用了0.6秒左右的时间。究其原因，应该是求逆矩阵并不是一个可以通过并行方法解决的问题（求特征矩阵也是如此）。

那么为何cublas为何还要提供一个求逆矩阵的函数呢?

因为cublas提供的这两个函数，并非计算单个逆矩阵，而是可以计算逆矩阵组，比如你有几十个相同大小的矩阵需要求逆，就可以发挥并行运算的威力，可能计算几十个的时间比计算一个的时间多不了太多，这样GPU的优势就显示出来了。毕竟在实际应用中，求一系列矩阵的逆矩阵的情况还是常见的，比如做岭回归分析的时候。

最后，我就把用这两个函数计算逆矩阵组的代码贴出来，供大家参考:

	cublasHandle_t handle;
	cublasCreate(&cublasHandle);
	int  size = 50; //矩阵的行和列
	int num = 100;//矩阵组的矩阵个数
	int * info ;//用于记录LU分解是否成功
	int * pivo;//用于记录LU分解的信息
	cudaMalloc((void **) & info, sizeof(int)  * num);
	cudaMalloc((void **) & pivo, sizeof(int) * size * num);
	float ** mat = new float *[num];//待求逆的矩阵组
	float ** invMat = new float *[num];//存放逆矩阵的矩阵组
	for(int i = 0; i< num; i++){
		cudaMalloc((void **) & mat[i], sizeof(float)  * size * size);
		cudaMalloc((void **) & invMat[i], sizeof(float)  * size * size);
		/*
		这里将矩阵的数据载入mat[i]中,这里假设矩阵的数据在内存中是连续存放的
		*/
	}
	float  ** gpuMat;
	cudaMalloc((void **) & gpuMat, sizeof(float *)  * num);
	cudaMemcpy(gpuMat, mat, sizeof(float *) * num,  cudaMemcpyHostToDevice);
	//以上三步的目的是把host上的float ** 指针转变为 device上的 float ** 指针

	cublasSgetrfBatched(handle, size,  gpuMat, size ,  pivo, info, num);//第四个参数是矩阵的主导维，由于这里假设数据在内存中的存放是连续的，所以是size

	const float ** constMat;
	cudaMalloc((void **) & constMat,  sizeof(float *)  * num);
	cudaMemcpy(constMat,  gpuMat, sizeof(float *) * num,  cudaMemcpyDeviceToDevice);
	//以上三步的目的是把 float ** 指针转变为 float *[]指针

	float  ** gpuInvMat;
	cudaMalloc((void **) & gpuInvMat, sizeof(float *)  * num);
	cudaMemcpy(gpuInvMat, invMat, sizeof(float *) * num,  cudaMemcpyHostToDevice);
	
	//以上三步的目的是把host上的float ** 指针转变为 device上的 float ** 指针

	cublasSgetriBatched(handle, size, constMat, size,  pivo, gpuInvMat, size, info, num);	

	cudaFree(info);
	cudaFree(pivo);
	cudaFree(mat);
	cudaFree(gpuMat);
	cudaFree(gpuInvMat);
	cudaFree(constMat);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何用cublas计算逆矩阵？的相关文章

CentOS 8 最新阿里YUM源

前文由于CentOS8 已停止服务相关源已经停止前期官方自带的源和前期阿里清华网易等等的源都已无法再使用需要更换源安装程序时报错 Failed to synchronize cache for repo AppStrea
【Spring源码系列】Bean生命周期-Bean销毁

文章目录前言一 Bean销毁介绍 bean销毁的时机 spring注册DestroyBean时机定义bean销毁方式以及源码调试使用 PreDestroy注解实现DisposableBean或者AutoCloseable接口手动
使用Redisson实现Java分布式锁

在分布式系统中实现并发控制是一个重要的问题分布式锁是一种常见的解决方案它可以确保在分布式环境下只有一个进程能够访问共享资源 Redis是一种流行的内存数据存储系统它提供了分布式锁的功能在Java中可以使用Redisson库来集成
SpringBoot(三):集成Mybatis

1 Mybatis逆向工程逆向工程即为通过数据库逆向生成model类和mapper文件以及接口文件步骤如下 1 1在pom文件中加入mybatis相关依赖
Android系列开发博客资源汇总

CSDN博客本期热文推荐为您介绍有关Android应用开发的10个博客分享他们的日积月累的宝贵经验希望这些文章对Android开发者们能有所启发和帮助 1 张国威 Android从入门到提高系列前面写了十四篇关于界面的入门文章大家
Ansible自动化运维工具之playbook剧本编写

内容预知目录内容预知 1 playbook的相关知识 1 1 playbook 的简介 1 2 playbook的各部分组成 2 基础的playbook剧本编写实例实例1 playbook编写 apache的yum安装部署剧本实例
数据治理体系解决方案（附PPT下载）

下载方式迎加入星球下载所有资料转发朋友圈截图回复666亦可下载加入星球好资料一直有推荐阅读世界的真实格局分析地球人类社会底层运行原理不是你需要中台而是一名合格的架构师附各大厂中台建设PPT 亿级无限级并发没那么难论
java基于微信小程序的四六级英语学习测试系统 uinapp 计算机毕业设计

通过本课题的研究与分析能够建立一种基于微信小程序的四六级助手系统以MySQL为数据库后端采用Java语言SSM框架并对系统中的各个模块功能及它们之间相互协调工作进行了详细的分析与设计尤其是对实现方法和过程进行了细致的设计与实现最
Python动态的拼接变量名

1 可以通过python的内置函数locals 来完成 locals是python的内置函数他可以以字典的方式去访问局部和全局变量 python里面用名字空间记录着变量就像javascript的window一样他记录着各种全局变量每
R语言数据可视化之初级绘图（上）

1 条形图barplot 条形图通过垂直的或者水平的条形展示了类别型变量的频数分布 barplot 可实现条形图的绘制其调用格式为 barplot x xlab yalb horiz F barplot x xlab ylab besid
3.when表达式

val week 0 Java的 if 语句 KT的 if 是表达式有返回值的 val info when week 1 gt 今天是星期一非常忙碌的一天开会 2 gt 今天是星期二非常辛苦的写需求 3 gt 今天是星期三努力写Bu
GirdLayout布局实现九宫格

利用GirdLayout布局显示3 3布局的9张图片每张图片宽度为屏幕的1 3
oracle 列相同编号,Oracle查询结果中：一列中相同的值或一列中重复的值，只显示一次...

http www itpub net thread 1768915 1 1 html 问题 CREATE TABLE test ob id VARCHAR 32 ob name VARCHAR 32 INSERT INTO test VAL
Ioc容器refresh总结(2)--- Spring源码从入门到精通（三十二)

上篇文章介绍了refresh里beanFactory的创建预准备工作 refresh获取到的beanFactory是先刷新创建在getBeanFactory获取到的之后再给他配置忽略自动装配的依赖接口和配置自动装配的组件 Ioc容器r
IAR修改字体大小，source insight中文乱码
Gradle学习笔记使用插件

前面说了不少内容但是我看了一下Gradle官方文档内容太多太详细其中大部分内容其实我们不需要知道一般情况下我们应用一部分插件就可以了自己编写Gradle任务的情况并不多见 Java插件在build gradle文件中添加以下一句
搭建GitHub授权登录

功能搭建功能实现GitHub授权获取用户在GitHub的有关信息搭建注册app 在GitHub的setting gt Developer Settings 开发者设置中点击New OAuth App 新建OAuth应用根据
WebService 四种发布方式总结

1 CXF方式 CXF与spring搭建webservice是目前最流行的方式但是传闻cxf与jdk1 5有些不兼容我没有遇到过我遇到的问题是cxf与was6 1 1不兼容表现在cxf必须的jar包 wsdl4j 1 6 2 jar
C++11 constexpr简单用法

关键字 constexpr 是C 11中引入的关键字声明为constexpr类型的变量编译器会验证该变量的值是否是一个常量表达式声明为constexpr的变量一定是一个常量而且必须用常量表达式初始化 constexpr int mf
如何使用GPT-4：一步步指南

人工智能技术的发展让自然语言处理成为了一个备受关注的领域其中 GPT 4是当今最先进的自然语言处理模型之一本文将详细介绍如何使用GPT 4进行自然语言生成第一步了解GPT 4 GPT 4是由OpenAI开发的自然语言处理模型它采

随机推荐

Linux笔记--Shell编程入门

查看当前环境下使用的shell 可以使用 echo SHELL 运行shell shell脚本是纯文本文件通常以 sh作为后缀名方便系统识别文件类型但不是必需的脚本文件中的第一行要指明系统使用哪种shell解释该shell文件如
计算机不显示桌面文件夹,电脑保存文件路径不显示桌面怎么办

摘要腾兴网为您分享电脑保存文件路径不显示桌面怎么办掌上电力信达期货小米手环天翼购等软件知识以及晒课网国寿e门店鼠标同步器奇人怪事之谜江西农村信用社 e视网三星3200打印机驱动超级人脉晒黑的图片烟花flash
kettle案例11-排序记录

参考 ETL数据整合与处理任务3 1 排序是对数据中心的无序记录按照自然或客观规律根据关键字段大小递增或递减的次序对记录重新排列的过程为了得出学生的成绩排名需要对 2019年11月月考数学成绩 xls 文件使用排序记录组件
JavaWeb图表插件的小研究

背景最近的一个项目中对数据的统计分析有很大的要求这就要求有一款很强大的报表图表插件因此组长给分了任务让我们各自去研究不同的图表插件用了一两天的时间对java这块的图表插件做了一个简单的研究 java方向的图报表还是有很多很
小熊派BearPi-HM nano开发板 -- 前期准备

课前准备 1 小熊派BearPi HM nano开发板 2 E53农业案例拓展版 3 学习资料 Ubuntu20 04版本学习视频学习课件案例等等安装教程 Ubuntu20 04安装及配置开发环境Windows和Ubuntu的配置
STM32CubeMX ADC采样的坑

1 选用了ADC1 IN15 ADC1 IN16 ADC1 IN17 ADC1 IN18会发现有的通道不能用解决方法把Sequencer设置为not fully configurable 这样子的弊端是无法再设置采样的先后优先级但是
NBIOT模块连接巴法云实践（SIM7020）

使用NBIOTSIM7020模块连接巴法云并进行数据通信一前期准备 1 巴法云新建主题这里使用TCP协议因此创建TCP设备云 2 模块使用前焊接好模块天线 3 SIM卡物联专用卡 4 USB UART接口 5 杜邦线4根 6 串
Ubuntu软件源、pip源大全，国内网站网址，阿里云、网易163、搜狐、华为、清华、北大、中科大、上交、山大、吉大、哈工大、兰大、北理、浙大

文章目录一企业镜像源 1 阿里云 2 网易163 3 搜狐镜像 4 华为二高校镜像源 1 清华源 2 北京大学 3 中国科学技术大学源 USTC 4 上海交通大学 5 山东大学 6 吉林大学开源镜像站 7 哈尔滨工业大学开源镜像站
像素鸟代码 html,2021-04-05像素鸟代码

html gt Document margin 0 padding 0 game width 800px height 600px background url images sky png position relative overfl
umi页面跳转定位问题

突然发现在umi页面中如果没有设置页面定位那么在页面中部或者底部点击跳转到下一页会默认跳转到该页面对应的中部或者下部的位置那么如果想要在跳转时直接定位到页面的头部应该怎么做呢首先确定需求目前项目的需求是无论从上一页的
Access&Trunk&单臂路由

一实验要求要求 1 pc1属于vlan10 配置静态IP地址192 168 1 2 24 2 pC2属于vlan20 配置静态IP地址192 168 2 2 24 3 LSw1交换机上配置PC1和PC2的网关地址分别为192 168
免费版对象存储【minIO】CentOS部署实践记录 2021

之前一直用的七牛不过是收费的然后有些定制化需求可能比较看重预算然后就有了这篇开源方式 minio 一简介官方文档 http docs minio org cn docs MinIO 是一个基于Apache License v2
react打包成html5,create-react-app项目打包相关问题

Q1 yarn build打包生成的文件直接点击index html报错打不开导致的问题是yarn build打包生成的文件部署到服务器时只能在服务器根目录如果在其他文件夹里面会报错 A1 默认情况下 index html中引入js和
XSS-5注入靶场闯关(小游戏)——第五关

一首先先尝试查看源代码可以看到他前面有一个引号并且
做出刷屏文字的6大哲学

title 做出刷屏文字的6大哲学 date 2019 09 05 23 39 16 tags 刷屏文字哲学 published true hideInList false feature https s2 ax1x com 2019
遥感影像语义分割论文笔记（二）Category Boundary Detection Network

A semantic segmentation method with category boundary for Land Use and Land Cover LULC mapping of Very High Resolution V
配置 gitlab https 访问

文章目录 1 备份 2 生成SSL证书 3 配置文件 4 重启 5 访问 1 备份 docker exec ti gitlab ce gitlab rake gitlab backup create 2 生成SSL证书 yum instal
药物 3D 打印新突破：圣地亚哥大学用机器学习筛选喷墨打印生物墨水，准确率高达 97.22%

内容一览药物喷墨打印是一种高度灵活和智能化的制药方式据相关报告统计该领域市场规模将在不久的未来呈现指数级增长过往筛选合适生物墨水的方法费时且费力因此也成为药物喷墨打印领域面临的主要挑战之一为解决这一问题国际药剂学期刊 Int
高斯牛顿法求非线性最小二乘的步骤和c++代码实现

slam图优化的本质是一个非线性优化问题 Gauss Newton求解步骤 1 线性化误差函数 2 构建线性系统 3 求解线性系统 4 更新解并不断迭代直至收敛一个简单的代码实现一维参数xy 高维变为对应的矩阵即可 include
如何用cublas计算逆矩阵？

cublas的文档中提供了一个用LU分解求逆矩阵的方法需要用到两个函数 cublas

如何用cublas计算逆矩阵？

如何用cublas计算逆矩阵？ 的相关文章

随机推荐

热门标签

如何用cublas计算逆矩阵？的相关文章