目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

2023-10-30

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

环境：

系统：Win10
环境：Opencv3.4.0/4.1.0
显卡：1080ti

问题

实际项目中使用了一个GPU程序，在双卡1080ti机器上运行，程序会自动搜寻并使用0号和1号GPU卡。性能测试要求程序只运行在一张GPU卡上，但程序没有参数设置GPU的地方。

解决方式

采取CUDA环境变量CUDA_VISIBLE_DEVICES来限定程序运行的GPU设备解决问题

// CUDA_VISIBLE_DEVICES设置说明，设置device对程序可见
CUDA_VISIBLE_DEVICES=1       // 仅使用device1 (即卡一)
CUDA_VISIBLE_DEVICES=0,1     // 仅使用device 0和 device1
CUDA_VISIBLE_DEVICES="0,1"	 // 同上, 仅使用device 0和 device1
CUDA_VISIBLE_DEVICES=0,2,3   // 仅使用device 0, device2和device3
CUDA_VISIBLE_DEVICES=2,0,3   // 仅使用device0, device2和device3

#那么最后两条的区别是什么呢？
CUDA_VISIBLE_DEVICES后面的参数依次是设置gpu[0]，gpu[1], gpu[2]...等的device编号。
所以区别在于： 0,2,3意思是gpu[0]指向device0, gpu[1], 指向devcie2, gpu[2]指向device3；
而2,0,3意思是gpu[0]指向device2, gpu[1], 指向devcie0, gpu[2]指向device3；

再举例说明，如果当前主机有5张显卡，默认情况下5个device对程序都可以见，默认排序device0 - 4。
如果现在我们只希望使用第一张和第三张显卡，并且程序代码里看到的分别对应0，1。
那么设置应该如下：
CUDA_VISIBLE_DEVICES=0，2

上述设置参数含义应该已经明晰了，那么下面说明两种设置生效方法：

永久设置, 在环境变量中设置

linux环境：
vim ~/.bash.rc，在最后添加上CUDA_VISIBLE_DEVICES=0，2
然后source ~/.bash.rc使之生效即可。

windows环境：
直接添加CUDA_VISIBLE_DEVICES=0，2进环境变量

临时设置，在程序启动脚本中添加：

linuxa环境：
export CUDA_VISIBLE_DEVICES=0，2

windows环境:
set CUDA_VISIBLE_DEVICES=0，2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备的相关文章

无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
CUDA 模型 - 什么是扭曲尺寸？

最大工作组大小和扭曲大小之间有什么关系假设我的设备有 240 个 CUDA 流处理器 SP 并返回以下信息 CL DEVICE MAX COMPUTE UNITS 30 CL DEVICE MAX WORK ITEM SIZES 512
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
如何降级cuda版本

我目前使用的是 cuda 版本 4 2 但我需要将其更改为 3 1 是否可以卸载当前版本 4 2 版然后安装以前的版本 3 1 版编辑请参阅我的操作系统是linux ubuntu 10 04 64位编辑我找到了如何获取 3 1 版
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl
如何使用 Visual Studio 2008 调试 CUDA 内核代码？

嘿我正在使用带有 CUDA 3 2 的 Visual Studio 2008 我正在尝试调试具有此签名的函数 MatrixMultiplication Kernel lt lt

随机推荐

嵌入式开发中常用文件系统介绍（ cramfs、 JFFS2、 NFS、 initrd、 yaffs2、 ext4以及squashfs）

1 存储介质的分类 1 是否需要初始化分为Nand flass和Nor flash Nor flash不需要初始化就可以工作可以在Nor flash上运行代码从而节省内存但是写入和擦除速度慢且单位容量成本高适用于小型穿戴设备 Nan
superset出现乱码怎么解决

第一步点击source 第二步点击Database 第三步点击编辑记录第四步在url后面设置字符集编码为utf8
【正点原子I.MX6U-MINI移植篇】kernel移植过程详解（二）

一下载Linux内核这里使用NXP官方提供的Linux源码将其移植到正点原子I MX6U MINI开发板上 NXP官方原版Liux源码路径为 1 例程源码 gt 4 NXP官方原版Uboot和Linux gt linux imx re
原码、反码、补码的转换。

计算机是以补码的方式进行存储数据的一般补码是通过原码反码补码的转换求得注 1 此篇以8位二进制为例讲解即byte类型 2 byte所占位数8位取值范围为 2 7 2 7 1 or 128 127 3 此篇都为十进制转二进制先
关于STM32库中超时函数tick溢出的分析

STM32的官方库文件stm32f1xx hal c部分摘录如下 IO uint32 t uwTick brief This function is called to increment a global variable uwTick
基于纹理缓冲实现OpenGL和CUDA的交互

基于缓冲对象的交互要实现OpenGL和CUDA交互最常用便捷的方式就是在OpenGL中创建缓冲对象将其注册并绑定到一个内存指针将这个指针传入CUDA核函数中进行读写关于这点可以参考笔者之前的文章基于C 与CUDA的N卡GPU
第二章 Maven聚合工程创建微服务项目

1 创建聚合工程 xdclass cloud 修改pom文件注意记得删除聚合工程src目录
M.2、mSATA、NGFF、miniPCI-e接口引脚定义

http bbs pceva com cn thread 96050 1 1 html NGFF M 2 以下下简称M2 和SATA Express 以下下简称SATAe 是用以替代当前MiniPCI Express 以下下简称MIni P
微信小程序引入WeUI组件库（详细成功案例，带图）

微信小程序引入WeUI组件库详细成功案例带图本章选择官方引入组件库的方式为第二种通过第一种方式引入WeUI通道第一步确定位置在小程序的根目录下 pages文件夹点击右键选择在资源管理器中显示第二步初始化npm 进入根目录
使用hightopo完成基本图元旋转和闪烁

1 完成矩形自转假设矩形标签设置为 Rect 获取矩形元素 var rect window graphView getDataModel getDataByTag Rect 设置旋转 setInterval function var ol
马尔科夫链(Markov chain)5分钟简单入门

数学表达条件一概率向量状态向量条件二转移概率矩阵例子附录 1 马尔科夫假设的概率理解 2 参考数学表达详细的数学表达还是建议看这里马克科夫链是一个随机系统必须满足两个条件系统任意时刻可以用有限个可能状态之一来描述系
解决java.lang.UnsatisfiedLinkError: dalvik.system.PathClassLoader couldn't find "libDatabaseOp.so"

本来前几天运行的好好的不知道为什么今天一运行就报错可能和手机有关这个错误 java lang UnsatisfiedLinkError dalvik system PathClassLoader DexPathList zip fil
Python真就无所不能？居然还能开发APP软件。

前言 Python是脚本语言可以说它是万能的只有你想不到没有它做不到虽然用它来开发app还是显得有点不对路但用Python开发的app应当是作为编码练习自娱自乐所用加上目前这方面的模块还不是特别成熟 bug比较多总而言之大
NIST原子光谱数据库使用说明

目录一简单使用二高级使用图形输出设置输出高级设置参考一简单使用做波长标定实验在校准光谱仪需要最新的氦和汞灯的光谱曲线数据作为参考数据来源美国国家标准与技术研究院 NIST 的官网输入元素符号直接回车就可以看到对应元
给你n个整数，求他们中所有奇数的乘积。

include
计算机网络第4章网络层（3）最长前缀匹配使用二叉线索查找路由表网际控制报文协议 ICMPPING 的应用举例自治系统 AS内部网关协议 IGP外部网关协议EGP路由选择协议

关注公众号凡花花的小窝收获更多的考研计算机专业编程相关的资料例4 4 已知互联网和路由器 R1 中的路由表主机 H1 向 H2 发送分组试讨论 R1 收到 H1 向 H2 发送的分组后查找路由表的过程主机 H1 首先将本子网的子网
PageHelper.startPage和new PageInfo(list)的一些探索和思考

平常我们使用分页插件的时候都是很机械的套用 PageHelper startPage 1 10 Example example new Example Employee class example createCriteria andEq
字符串转html失败,从字符串转换成日期失败

Java中怎么把字符串转换成日期格式啊就像 2005 06 09 怎么才能让它输出2005年6月9日呢我用SimpleDateForma希望将日期输出成2005年6月9日我们可以这么写 SimpleDateFormat sdf new
uniapp新手必须的知道的坑

有学过微信小程序开发和vue的 uniapp开发成本低但是还是不能忽视了注意事项别给自己带来麻烦以下是我从官网上抽取的希望接下来的开发能够顺利进行文字有点多但细看益处多多 go 开发工具下载标准版在运行或发行uni app时
目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

目的使用CUDA环境变量CUDA VISIBLE DEVICES来限定CUDA程序所能使用的GPU设备环境系统 Win10 环境 Opencv3 4 0 4 1 0 显卡 1080ti 问题实际项目中使用了一个GPU程序在双卡10

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

环境：

问题

解决方式

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备 的相关文章

随机推荐

热门标签

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备的相关文章