解读CUDA Compiler Driver NVCC - Ch.5

2023-11-17

前言

前面几篇文章，我们了解了NVCC的作用，nvcc编译的two stage, 每个stage做了什么，怎么去选择虚拟架构和真实架构，JIT编译的原理，好处和弊端以及解决方案。本文我们将了解几个实际的nvcc编译命令。

Base Notation

nvcc提供了选项--gpu-architecture和--gpu-code。

--gpu-architecture只能选择一个值，用来指定虚拟架构的名称，如下：

--gpu-architeture=compute_50

--gpu-code可以选择一系列的真实GPU架构，如下：

--gpu-code=sm_50,sm_52

nvcc命令

nvcc x.cu --gpu-architecture=compute_50 --gpu-code=sm_50,sm_52

Shorthand

nvcc提供了一些缩写来简化命令。

Shorthand1

--gpu-code 参数可以是虚拟架构。在这种情况下，这种虚拟架构将省略第 2 阶段转换，而是嵌入第 1 阶段 PTX 结果 (即x.ptx文件)。在应用程序启动时，如果驱动程序没有找到更好的替代方案，驱动程序将使用 PTX 作为输入调用第 2 阶段编译。

nvcc x.cu --gpu-architecture=compute_50 --gpu-code=compute_50,sm_50,sm_52

Shorthand2

--gpu-code可以被省略。只有在这种情况下，--gpu-architecture可以接收真实架构的值。--gpu-code 值默认为由 --gpu-architecture 指定的 GPU 实现的最接近的虚拟架构，加上 --gpu-architecture 值本身。

如

nvcc x.cu --gpu-architecture=sm_52

等效于

nvcc x.cu --gpu-architecture=compute_52 --gpu-code=sm_52,compute_52

最接近的虚拟架构被用作 --gpu-architecture值。如果 --gpu-architecture 值是虚拟架构，它也用作有效的 --gpu-code 值。又如

nvcc x.cu --gpu-architecture=compute_50

等效于

nvcc x.cu --gpu-architecture=compute_50 --gpu-code=compute_50

Shorthand3

--gpu-architecture 和--gpu-code都可被省略。

nvcc x.cu

等效于

nvcc x.cu --gpu-architecture=compute_52 --gpu-code=sm_52,compute_52

Extended Notation

选项 --gpu-architecture 和 --gpu-code 可用于使用通用虚拟架构(common virtual architecture)为一个或多个 GPU 生成代码的所有情况。这将导致 nvcc 阶段 1（即虚拟 PTX 汇编代码的预处理和生成）的单个调用，然后是编译阶段 2（二进制代码生成，即x.cubin），编译阶段2会为每个特定GPU重复编译.

使用一个通用虚拟架构，意味着，对于整个 nvcc 编译，所有假定的 GPU 功能都是固定的。

比如说，以下 nvcc 命令假定 sm_50 代码和 sm_53 代码均不支持半精度浮点运算：

nvcc x.cu --gpu-architecture=compute_50 --gpu-code=compute_50,sm_50,sm_53

有时需要为划分到不同的架构时执行不同的 GPU 代码生成步骤。这个时候就需要使用--generate-code，而不是使用--gpu-architecture和--gpu-code的组合。

与--gpu-architecture不同，--generate-code可能被nvcc命令重复执行。--generate-code需要子选项arch和code. 如果使用重复架构编译，那么设备代码必须使用基于架构识别宏( architecture identification macro )__CUDA_ARCH__的值的条件编译.

比如说，以下假设不支持 sm_50 和 sm_52 代码的半精度浮点运算，但完全支持 sm_53：

nvcc x.cu \--generate-code arch=compute_50,code=sm_50 \--generate-code arch=compute_50,code=sm_52 \--generate-code arch=compute_53,code=sm_53

或者，将实际的 GPU 代码生成留给 CUDA 驱动程序中的 JIT 编译器：

nvcc x.cu \--generate-code arch=compute_50,code=compute_50 \--generate-code arch=compute_53,code=compute_53

代码子选项可以与稍微复杂的语法结合使用：

nvcc x.cu \--generate-code arch=compute_50,code=[sm_50,sm_52] \--generate-code arch=compute_53,code=sm_53

Virtual Architecture Identification Macro

在为compute_xy 编译的每个nvcc 编译阶段1 期间，体系结构标识宏__CUDA_ARCH__ 被分配一个三位数的值字符串xy0（以0 结尾）。

该宏可用于 GPU 函数的实现，以确定当前正在编译的虚拟架构。主机代码（非 GPU 代码）不能依赖它。

总结

至此，我们已经了解了nvcc命令的原理和基本使用。本文剩下两个章节分别是Using Separate Compilation in CUDA和Miscellaneous NVCC Usage。这两章节涉及了更多其他NVCC应用的内容，但我打算将来真正涉及到相关使用的时候再来介绍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nvcc

解读CUDA Compiler Driver NVCC - Ch.5 的相关文章

使用 nvcc 的时候出现“helper_cuda.h”: No such file or directory错误该怎么办（其他xxx.h也是同样的解决方法）

今天在命令行中使用nvcc的时候 xff0c 出现了 helper cuda h No such file or directory错误这个错误信息表示 xff1a 在编译的时候 xff0c 找不到helper cuda h头文件 xff
解读CUDA Compiler Driver NVCC - Ch.5

前言前面几篇文章我们了解了NVCC的作用 nvcc编译的two stage 每个stage做了什么怎么去选择虚拟架构和真实架构 JIT编译的原理好处和弊端以及解决方案本文我们将了解几个实际的nvcc编译命令 Base Notati
CUDA nvcc编译器设置Ubuntu 12.04

我在 64 位 Ubuntu 12 04 机器上成功安装了 cuda 5 的 nvidia 驱动程序和工具包但不是示例即使我之前运行过示例也无法安装 sudo apt get install freeglut3 dev build e
CUDA：如何使用 -arch 和 -code 以及 SM 与 COMPUTE

我仍然不确定在使用 nvcc 构建时如何正确指定代码生成的体系结构我知道我的二进制文件中嵌入了机器代码和 PTX 代码并且可以通过控制器开关进行控制 code and arch 或两者的组合使用 gencode 现在根据this除了两
是否有 NVCC 的“#pragma nv_exec_check_disable”和/或“#pragma hd_warning_disable”的任何文档？

一些项目使用 pragma nv exec check disable and or pragma hd warning disable 消除 NVCC 的警告 warning calling a host function from a
pycuda; nvcc 致命：找不到 Visual Studio 配置文件“(null)”

我正在尝试奔跑pycuda入门教程安装 Visual C Express 2010 和各种 Nvidia 驱动程序 SDK 等后我可以 mod SourceModule global void doublify float a int i
如何设置 nvcc 以使用 Windows SDK 7.1 中的 Visual C++ Express 2010 x64？

我正在使用 Windows SDK 7 1 扩展的 Visual C Express 2010 构建 64 位应用程序以添加 64 位编译器当我在 32 位模式下使用 nvcc 时它运行良好当我在 64 位模式下使用它时出现以下错
CUDA/PTX 32 位与 64 位

CUDA 编译器可以选择生成 32 位或 64 位 PTX 这些有什么区别呢是不是像 x86 一样 NVidia GPU 实际上也有 32 位和 64 位 ISA 还是仅与主机代码有关指针肯定是最明显的区别 http docs nvid
检查 makefile 中 nvcc 是否可用

我的应用程序中有两个版本的函数一个在 CUDA 中实现另一个在标准 C 中实现它们位于不同的文件中比方说cudafunc h and func h 实施是在cudafunc cu and func c 我想在编译应用程序时提供两个选
出现错误：“nvlink 错误：未定义对‘_ZN8Strategy8backtestEPddd’的引用”

我在运行时收到以下错误make对于我的 CUDA v7 5 应用程序 nvlink error Undefined reference to ZN8Strategy8backtestEPddd 我不知道为什么我的 Makefile 似乎有
由于 gcc 编译器版本不受支持，Caffe 编译失败

我挣扎着Caffe http caffe berkeleyvision org 汇编不幸的是我没能编译它 Steps http caffe berkeleyvision org installation html cmake compil
CUDA 编译器 (nvcc) 宏

是否有我可以使用的 CUDA 的 define 编译器 nvcc 宏如 Windows 的 WIN32 等我需要这个用于 nvcc 和 VC 编译器之间通用的头代码我知道我可以继续定义我自己的并将其作为参数传递给 nvcc 编译器 D
为什么 nvcc 无法使用 boost::spirit 编译 CUDA 文件？

我正在尝试将 CUDA 集成到使用 boost spirit 的现有应用程序隔离问题后我发现以下代码无法使用 nvcc 编译 main cu include
使用 nvcc 编译给出“没有这样的文件或目录”

我正在尝试在 Ubuntu 上使用 nvcc 编译 CUDA 代码但是当我这样做时我得到以下输出 gt make usr local cuda bin nvcc m64 ptxas options v gencode arch com
如何隐藏 NVCC 的“函数已声明但从未引用”警告？

当编译使用Google Test的CUDA程序时 nvcc将发出误报警告函数已声明但从未被引用 An MCVE test cu include
指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n

随机推荐

【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信特征抽取 TF IDF TF IDF是两个统计量的乘积即词频 Term Frequency TF 和逆向文档频率 Inverse Document Frequency IDF 它们各自有不同
QT笔记- 对QSring字符串内容进行过滤筛选或对QLineEdi的可输入内容进行控制，使其不含某些字符、只含某些字符或只含特定格式的字符串，如只含字母数字和下划线

QSring字符串内容的过滤筛选 QString类函数contains 用于判断字符串中是否含有某些字符其有两个重载函数第一个是简单筛选第二个是使用正则表达式之后有解释进行筛选两函数原型为 bool QString conta
protocol buffer 编解码

平时的开发中使用pb格式协议较多大致了解了一下pb的编解码即序列化和反序列化本文参考官方文档 https developers google com protocol buffers docs encoding hl zh cn 先看
Word去除多余的页眉

word去除多余的页眉 1 在正式页眉开始的页面点击鼠标此时光标位于要删除页眉下划线页的首部 2 单击上方菜单栏的页面布局分隔符分节符下一页 3 在正式页眉开始的地方双击鼠标进入页眉编辑状态 4 单击页眉和页脚将链接到
SVN时代...

SourceForge开始全面支持Subversion 这真是个好消息这预示着CVS独霸天下的时代快要结束 SVN时代就要来临和CVS比起来 SVN的确很强大这就像它的出现就是为了取代CVS一样它的目标快要实现了具体的功能特性大家
Cocos2d-x 3.17.1 Android Studio环境搭建和创建编译项目和真机调试

eclipse NDK参考 https www cnblogs com l d d p 6531557 html 最近项目上需要用Cocos2d x在Android智能硬件上进行开发很早之前搭建过Cocos2d x3 15 1 Eclip
利用IDM实现百度云满速下载

一 IDM Internet Download Manager 简称 IDM 是一种将下载速度提高5倍的工具可以恢复和安排下载由于连接丢失网络问题计算机关机或意外停电等原因全面的错误恢复和恢复功能将重新启动中断或中断的下载简单的
MATLAB绘制正弦函数与余弦函数的线性组合曲线

h0 figure toolbar none position 200 150 450 350 name 实例11 x 0 pi 20 2 pi y1 sin x y2 cos x h1 stem x y1 y2 画出线性组合的图 hold
SQL注入——学生选课系统注入

目录前言一实验环境二实验步骤 1 万能密码 2 堆叠注入 3 报错注入 4 时间盲注前言本次实验利用教师指定的学生选课管理系统进行SQL注入包含万能密码登录堆叠注入报错注入和时间盲注一实验环境 Windows10虚拟
QT 15--获取任何种类文件的某些文件属性：大小、创建时间、上次修改时间等等

1 首先说一些如果是mainwindow的QT工程如果打算做自己手写ui 界面的话该如何将自己写的内容添加到mainwindow界面呢方法为新建一个widget类然后将所有零件都用布局布置好后只需将总布局添加到widet 然后
KMP时间复杂度分析

比较过程分析比较次数比较次数红色蓝色蓝色部分是相比暴力求解节省下的比较次数周期从比较次数可以看出呈现 1 1 1 1 5 这样的周期一个周期内的比较次数 8 周期长度 5 周期个数 n 5 比较总次数周期个数一个周期
学成在线笔记+踩坑（10）——课程搜索、课程发布时同步索引库。

导航黑马Java笔记踩坑汇总 JavaSE JavaWeb SSM SpringBoot 瑞吉外卖 SpringCloud 黑马旅游谷粒商城学成在线牛客面试题 java黑马笔记目录 1 检索模块需求分析 1 1 全文检索介绍
H3 GPIO笔记

NanoPi NEO Core最近买了一块这个板子使用全志H3 查看H3的数据手册把GPIO这部分做个笔记 H3有7组GPIO 如下分别是PA PC PD PE PF PG PL 没有PB这一组 PA有22个端口 PC有19个端口 P
【LeetCode题解】1475、商品折扣后的最终价格

题目给你一个数组 prices 其中 prices i 是商店里第 i 件商品的价格商店里正在进行促销活动如果你要买第 i 件商品那么你可以得到与 prices j 相等的折扣其中 j 是满足 j gt i 且 prices j
CSS动画：Transition与Animation

本文总结CSS3中两个用来做动画的属性一个是transition 另一个是animation 差异比较 CSS3 差异 transition 在给定的持续时间内平滑地更改属性值从一个值到另一个值也就是只需要指定开始与结束的参数参数改
让汽车的全景环视更智能更安全！

随着现代汽车安全技术的进步我们看到诸如全景环视等先进驾驶辅助 ADAS 技术成为现代汽车的新标准本演示展示了如何通过精确的实时反射和AI来检测障碍以提升全景环视系统的性能让汽车驾驶更安全尤其是当全景环视系统内嵌Imaginati
cesium-添加点并且可以编辑

完整代码
05_Numpy任意行&列的删除方法（numpy.delete）

05 Numpy任意行列的删除方法 numpy delete 函数Numpy delete 可以删除ndarray数组中任意的行或者列指定要删除的轴维度和要删除的位置行号列号也可以通过切片或列表选择多个行或者列的编号对以下的
【Unity Shaders】抖音变身漫画1

先来看一下手机拍出来的效果我们发现有一张人像变成了卡通漫画脸其它的只是做了一些图像处理你可以再拍几张看一下会发现千篇一律的大眼小嘴有没有你想的没错这个是AI换脸技术抖音特效里有很多了把这个漫画脸再加上对图像的漫画处理最后
解读CUDA Compiler Driver NVCC - Ch.5

前言前面几篇文章我们了解了NVCC的作用 nvcc编译的two stage 每个stage做了什么怎么去选择虚拟架构和真实架构 JIT编译的原理好处和弊端以及解决方案本文我们将了解几个实际的nvcc编译命令 Base Notati

解读CUDA Compiler Driver NVCC - Ch.5

解读CUDA Compiler Driver NVCC - Ch.5 的相关文章

随机推荐

热门标签