OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

2024-05-20

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息，因为 nvcc 编译器给出了相同的使用信息nvcc --ptxas-options=-vCUDA 内核代码的标志。

我还从 AMD GPU for OpenCL kernel 获得了相同的信息.isa file导出后运行程序时生成GPU_DUMP_DEVICE_KERNEL=3。我也在 Nvidia GPU 上尝试过同样的事情，但没有成功.isa file。我的第二个问题是为什么 Nvidia GPU 不生成.isa file ?

谷歌搜索后，我发现在 Nvidia GPU 上获取 OpenCL 内核的寄存器和共享内存使用信息的方法是使用cl-nv-verbose字符串标志进入 clBuildProgram() 函数调用。然后读取编译后的内核代码的“二进制”信息。我的第三个问题是在 Nvidia GPU 上获取寄存器使用信息的正确方法吗？其他获得相同方法的方法是什么？

//构建程序...

clBuildProgram(program, 1, &device_id, "-cl-nv-verbose", NULL, NULL);

构建程序后我使用了两个常量CL_PROGRAM_BINARY_SIZES and CL_PROGRAM_BINARIES进入 clGetProgramInfo() 函数以获取已编译内核代码的二进制文件。

// 打印编译后的内核代码的二进制文件...

cl_uint program_num_devices, ret;
    size_t t;
    ret = clGetProgramInfo(program, CL_PROGRAM_NUM_DEVICES, sizeof(cl_uint), &program_num_devices, NULL);
    if(program_num_devices == 0) {
            printf("No valid device was found \n");
            return ;
    }
    size_t binary_sizes[program_num_devices];
    char **binaries = (char **) malloc(program_num_devices * sizeof(char* ));
    //first call to get size of ISA binary file...
    ret = clGetProgramInfo(program, CL_PROGRAM_BINARY_SIZES, program_num_devices * sizeof(size_t), &binary_sizes, NULL);
    for(t = 0; t < program_num_devices; t++) {
            binaries[t] = (char *) malloc((binary_sizes[t] + 1) * sizeof(char));
    }
    //second call to get ISA info....
    ret = clGetProgramInfo(program, CL_PROGRAM_BINARIES, program_num_devices * sizeof(size_t), binaries, NULL);
    for(t = 0; t < program_num_devices; t++) {
            binaries[t][binary_sizes[t]] = '\0';
            printf("Binary ISA Info%s : %lu \n", binaries[t], binary_sizes[t]);
    }
    printf("ProgramNumDevices:: %u\n", program_num_devices);
    for(t = 0; t < program_num_devices; t++) {
            free(binaries[t]);
    }

这是打印我编译的 OpenCl 内核代码的“二进制文件”。但它不显示寄存器和共享内存使用的信息。为什么？

请分享一些有用的信息。

提前致谢！！！！

从快速搜索来看，在使用以下命令构建程序后看起来是这样的-cl-nv-verbose，你会得到详细的输出clGetProgramBuildInfo(...,CL_PROGRAM_BUILD_LOG,...).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？的相关文章

iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？

我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D 我重写了该库以使用 Nvidia nvision 执行立体 3D 我将 OpenGL 与 GLUT 一起使用并使用 glutInitDisplayMode
如何在 Emgu CV 项目中利用 OpenCL

我是使用 Emgu CV 的新手并开始创建小型示例项目例如面部检测眼睛检测等如果我可以利用 OpenCL 来加速使用 GPU 的过程那就太好了否则当我降低scaleFactor时它会导致大量的CPU利用率我怎样才能做到这一
如何使用 Tensorflow-GPU 和 Keras 修复低易失性 GPU-Util？

我有一台 4 GPU 机器在上面运行带有 Keras 的 Tensorflow GPU 我的一些分类问题需要几个小时才能完成 nvidia smi returns Volatile GPU Util which never exceeds
错误：分配具有形状的张量时出现 OOM

在使用 Apache JMeter 进行性能测试期间我面临着初始模型的问题错误分配形状为 800 1280 3 和类型的张量时出现 OOM 通过分配器浮动在 job localhost replica 0 task 0 device
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
尽管有障碍，Open CL 仍不同步

我刚刚开始通过 Python 的 PyOpenCL 接口使用 OpenCL 我尝试创建一个非常简单的循环程序其中每个内核中每个循环的结果取决于上一个循环周期的另一个内核的输出但我遇到了同步问题 kernel void part1 g
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
在 open CL 中将结构数组传递给内核

你好我正在尝试在 open CL 中实现距离向量程序基本上我在将结构数组作为参数传递到内核时遇到问题我的结构定义是这样的 typedef struct int a nodes 4 node node srcA 为此分配内存后我使用此
用 OpenCL C 编写快速线性系统求解器

我正在编写一个 OpenCL 内核它将涉及求解线性系统目前我的内核太慢了提高线性系统部分的性能似乎是一个不错的起点我还应该注意我并没有尝试使我的线性求解器并行我正在研究的问题在宏观层面上已经是令人尴尬的并行以下是我编写的 C
HUGE_VALF 和 INFINITY 常量之间的区别

在 OpenCL 中有两个代表无穷大的浮点数学常数其中之一很简单INFINITY 另一个 HUGE VALF 求值为无穷大这两者有什么区别求值至无穷大是什么意思 HUGE VALF是一个旧名称允许不支持无穷大的浮点系统例如
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
需要 TensorFlow 依赖项。如何在 Windows 上运行 TensorFlow

我有兴趣让 TensorFlow 在 Windows 上运行但目前我意识到这是不可能的因为某些依赖项无法在 Windows 上使用例如巴泽尔之所以出现这种需求是因为据我目前了解从 TensorFlow 访问 GPU 的唯一方法是
Mxnet - 缓慢的数组复制到 GPU

我的问题我应该如何在 mxnet 中执行快速矩阵乘法我的具体问题数组复制到 GPU 的速度很慢对此我们能做些什么呢我创建随机数组将它们复制到上下文中然后相乘 import mxnet as mx import mxnet nd
PyOpenCL：如何创建本地内存缓冲区？

这里可能是非常简单的问题但我已经搜索了几个小时但没有任何结果我有这段代码我希望有一个 256 位 8 uint32 bitstring gpu 作为设备中的本地内存指针 def Get Bitstring GPU Buffer ctx

随机推荐

在为 Android 实现 Google 登录时，任务“:app:transformClassesWithDexForDebug”执行失败

我正在尝试为 Android 实现 Google 登录并且我正在按照以下说明进行操作 https developers google com identity sign in android start integrating https
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
是否可以在不改变作为框架一部分的 DDD 模型的情况下使用 NHibernate

我挖掘了很多关于DDD方法无处不在的语言聚合存储库等我认为与我读到的很多内容相反实体应该有行为而不是不可知论我看到的所有例子都倾向于呈现实体虚拟自动属性 and an 空构造函数受保护或最糟糕的是公开就是这样我认为这种对
如何在 TextField 中垂直居中不同大小的hintText？

我有一个TextField像这样输入文本和提示文本的大小不同 TextField style Theme of context textTheme subhead copyWith fontSize 70 0 decoration Inp
如何确保应用程序在 Linux 上持续运行

我试图确保脚本在开发服务器上保持运行它会整理统计数据并提供网络服务因此它应该会持续存在但一天中有几次它会因未知原因而消失当我们注意到时我们只需再次启动它但这很麻烦并且某些用户没有权限或专有技术来启动它作为一名程序员我
使用 JS 合并具有相同值的相邻 HTML 表格单元格

我已经为此苦苦挣扎了一段时间我有一个根据一些 JSON 数据自动生成的表该数据可能会有所不同我想合并第一列中具有相同值的相邻单元格例如此表中的鱼和鸟 table tr td fish td td salmon td tr tr
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何使JavaScript函数在Eclipse“大纲视图”中可见？

我有这样的代码但如果它在匿名函数中定义则无法打开函数大纲类没有问题我该如何概述something2 请分享一些提示我可以将所有函数标记为构造函数但这是无效的方法 start of track event required deb
如何从 Visual Studio Community for Mac 安装本地 NuGet 包 (.nupkg)？

我已经使用 nugget CLI 创建了一个包但找不到从 IDE 安装它的方法 Mac 版本中不提供包管理器控制台并且 nuget CLI 尝试从 Internet 检索包读取 nupkg 文件我有 VS Community for
流星内存不足

我正在使用流星来制作报废引擎我必须执行一个 HTTP GET 请求这会向我发送一个 xml 但这个 xml 大于 400 ko 我得到一个异常内存不足 result Meteor http get http SomeUrl com 致
捕获 Unicode 文本（西里尔文）并将其插入 MS Access 数据库

我继承了一个旧的 Web 应用程序该应用程序使用经典 ASP 将表单中收集的数据写入 Access 2007 数据库现在他们需要它能够收集西里尔字母的输入我完全不熟悉代码页字符集也不熟悉非拉丁字母我尝试将输入表单页面上的字符集更
Wirecloud 中的 Oauth2

在运营商中实施 OAuth2 授权的最佳方式是什么我们已经使用 PEP 代理保护我们的后端 API 并且我们需要一个有效的令牌用户登录后 wirecloud 是否提供任何访问它的方法例如 MashupPlatform context
在Android Studio中更改项目主题？

我使用浅色主题创建了一些项目现在我想将其更改为深色但我不知道该怎么做顺便说一句我不是问如何在代码中做到这一点只是问如何更改项目的默认主题在 AndroidManifest xml 的 application 标签下您可以设置您
VBA Excel：将范围值分配给新范围

我在将一个工作簿范围中的值分配给当前工作簿中的某个范围时遇到问题当我使用 Range A1 C1 分配我的范围时此代码工作正常但是当我使用 Range Cells 1 1 Cells 1 3 定义我的范围时该函数会失败 Sub Co
文件位置 Rails 7 中的 Javascript 与样式表

在使用导入映射功能的新默认 Rails 7 应用程序中 Javascript 存储在app javascript 而 CSS 位于app assets stylesheets 它们不仅位于不同的层次结构级别而且javascript是奇异的
已达到网络 BIOS 命令限制

我的 ASP Net 应用程序从另一台 Windows 服务器上的共享文件夹获取文件当请求增加时我收到以下错误 The network BIOS command limit has been reached 我已按照以下步骤操作微软 K
从所有会话中注销

我有一个注销选项这是我的代码 session start session destroy setcookie key time 60 60 24 setcookie username time 60 60 24 我想添加另一个选项来注销所
如何从网站下载 .EXE 文件？

我正在编写一个应用程序需要从网站下载 exe 文件我正在使用 Visual Studio Express 2008 我正在使用以下代码 private void button1 Click object sender EventArgs
解析输入，除了 System.in.read() 之外不使用任何东西

我很难找到具体的细节System in read 有效也许有人可以帮助我似乎扫描仪会更好但我不允许使用它我被分配了一个任务我应该以 Boolean Operator Boolean 的形式读取控制台用户输入例如T F 或 T T
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open

OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？ 的相关文章

随机推荐

热门标签

OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？的相关文章