由于占用率低而导致 GPU 利用率不足是什么意思？

2024-01-18

我正在使用 NUMBA 和 cupy 来执行 GPU 编码。现在我已将代码从 V100 NVIDIA 卡切换到 A100，但是随后我收到以下警告：

NumbaPerformanceWarning：网格大小 (27)
NumbaPerformanceWarning：CUDA 内核中使用的主机数组将产生与设备之间的复制开销。

有谁知道这两个警告到底意味着什么？那我应该如何改进我的代码呢？

NumbaPerformanceWarning：网格大小 (27)

GPU 又细分为 SM。每个 SM 可以容纳一组线程块（这就像说它可以容纳一组线程）。为了“充分利用”GPU，您会希望每个 SM 都“满”，这大致意味着每个 SM 有足够的线程块来填充其线程补充。 A100 GPU 有 108 个 SM。如果您的内核在内核启动时的线程块（即网格）少于 108 个，那么您的内核将无法充分利用 GPU。有些短信将是空的。一个线程块不能同时驻留在 2 个或更多 SM 上。即使 108 个（每个 SM 一个）也可能不够。一个 A100 SM 可以容纳 2048 个线程，这至少是两个线程块，每个线程块有 1024 个线程。内核启动中任何少于 2*108 线程块的情况都可能无法充分利用 GPU。当您没有充分利用 GPU 时，您的性能可能不会那么好。

解决方案是在内核启动时公开足够的并行性（足够的线程），以完全“占用”或“利用”GPU。 216 个线程块（每个线程块有 1024 个线程）对于 A100 来说足够了。少一点可能就不会了。

为了进一步理解这里，我推荐前 4 部分这个课程 https://www.olcf.ornl.gov/cuda-training-series/.

NumbaPerformanceWarning：CUDA 内核中使用的主机数组将产生与设备之间的复制开销。

numba 内核启动的最酷的事情之一是我可以向它传递一个主机数据数组：

a = numpy.ones(32, dtype=numpy.int64)
my_kernel[blocks, threads](a)

numba 会“做正确的事”。在上面的例子中它将：

创建一个设备数组，用于存储a在设备内存中，我们称之为d_a
复制数据来自a to d_a（主机->设备）
启动你的内核，内核实际使用的地方d_a
当内核完成后，复制内容d_a回到a（设备->主机）

这一切都非常方便。但如果我做这样的事情怎么办：

a = numpy.ones(32, dtype=numpy.int64)
my_kernel1[blocks, threads](a)
my_kernel2[blocks, threads](a)

numba 将执行上述步骤 1-4 来启动my_kernel1然后执行步骤1-4again为推出my_kernel2。在大多数情况下，这可能不是您作为 numba cuda 程序员想要的。

这种情况下的解决方案是“控制”数据移动：

a = numpy.ones(32, dtype=numpy.int64)
d_a = numba.cuda.to_device(a)
my_kernel1[blocks, threads](d_a)
my_kernel2[blocks, threads](d_a)
a = d_a.to_host()

这消除了不必要的复制，并且在许多情况下通常会使您的程序运行得更快。（对于涉及单个内核启动的简单示例，可能没有什么区别。）

为了获得更多理解，可能可以使用任何在线教程，例如this one https://nyu-cds.github.io/python-numba/05-cuda/，或者只是 numba cuda 文档，将会很有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

由于占用率低而导致 GPU 利用率不足是什么意思？的相关文章

Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
numba.prange 性能不佳

我试图整理一个简单的例子来说明使用的好处numba prange对于我自己和一些同事来说但我无法获得像样的加速我编写了一个简单的一维扩散求解器它本质上是在一个长数组上循环组合元素i 1 i and i 1 并将结果写入element
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
如何降级cuda版本

我目前使用的是 cuda 版本 4 2 但我需要将其更改为 3 1 是否可以卸载当前版本 4 2 版然后安装以前的版本 3 1 版编辑请参阅我的操作系统是linux ubuntu 10 04 64位编辑我找到了如何获取 3 1 版

随机推荐

如何在页面加载时直接使用 Javascript 在输入字段中填写数据？

这个问题似乎在 Stack Overflow 上被问了很多次但似乎没有一个解决方案有效我正在开发一个网络应用程序我必须在页面加载时在数据字段中填写数据这是我的代码
标准用户登录时启动管理交互进程

我有一个系统服务它以管理员身份创建一个辅助交互进程以便它可以访问一些与桌面相关的资源包括 BlockInput 函数和 NVIDIA 的 NVAPI 函数这些函数无法从服务运行当登录用户是管理员成员时以下操作有效设置权限级别
Azure 函数：值不能为空。参数名称：来源

最近当我调用 Azure 函数时每当我尝试向 AddGroup 函数发出 HTTP 请求时就会看到此异常它曾经有效直到我更新了一些 NuGet 包特别是 Newtonsoft JSON 11 0 2 当我在本地运行该函数时它工作
如何禁用 Android 中视图上的任何事件？

我的问题很简单如何禁用 Android 中视图上的任何事件包括消除它的聚焦能力就像我只是希望它在视觉上存在但在其他一切上都不存在它适用于整个视图树吗就像如果我禁用根上的事件则其子级的所有事件都将被禁用现在在你说任何话之前
将 ElasticSearch 的持久主机卷与 Docker-Compose 结合使用

使用以下命令运行 Elasticsearchdocker compose yml正在抛出一个错误 Java nio file AccessDeniedException usr share elasticsearch data nodes
Wix - 如何使用一个可执行文件安装多个 Windows 服务？

我正在尝试使用相同的可执行文件安装多个 Windows 服务但 WiX 不喜欢两个文件标记中的相同名称属性我尝试更改两个文件标签的名称它可以工作但我希望我不必为此目的安装两个相同的可执行文件有一个更好的方法吗到目前为止这是我的
Launch4j 中的异常

我的 build xml 中有以下说明但出现以下异常 launch4j net sf launch4j ExecException 执行失败 1 C Program 文件 Launch4j bin windres exe preproce
C#：专用模板方法 - 错误：类型“...”已定义具有相同参数类型的名为“...”的成员

我对 C 很陌生目前正在使用 EntityFramework 开发应用程序我想扩展数据库上下文类的功能以便我可以调用方法 getPool 以便它分发该类的相应 DbSet 成员我需要将它实现为模板因为稍后将从其他模板调用它这些模
GHC 外部 hs_init/hs_add_root 崩溃

不必要的我就不重复了简单总结一下继Adder本教程中的示例 http blogs msdn com b satnam singh archive 2011 04 19 creating a windows dll from a hask
Spring Boot 1.4.0：REST 控制器未将原因设置为 HTTP 响应

我有 2 个使用 Spring Tool Suite Spring Starter Project 创建的项目第一个项目 Spring Boot 1 3 7 发布 Web 第二个项目 Spring Boot 1 4 0 发布 Web 我更
为什么 ConcurrentBag 不实现 ICollection？

我有一个方法需要IList
使用 TinyXML 解析 XML 元素

更新仍然无法工作我已经更新了代码部分以反映我当前拥有的内容对于使用过 TinyXML 的人来说这应该是一个相当简单的问题我正在尝试使用 TinyXML 来解析 XML 文档并提取一些值我昨天弄清楚了如何在库中添加并且我已经成功
Ruby 1.9 中的自动加载是线程安全的吗？

在我看来自从 Ruby 社区开始对自动加载感到有点害怕这个著名的线程 http www ruby forum com topic 172385 出于线程安全原因不鼓励使用它有谁知道这在 Ruby 1 9 1 或 1 9 2 中是否不再是
使用 python 进行非线性回归 - 有什么简单的方法可以更好地拟合这些数据？

我有一些想要拟合的数据这样我就可以对给定特定温度的物理参数的值进行一些估计我使用 numpy polyfit 作为二次模型但拟合效果并不像我希望的那么好而且我在回归方面没有太多经验我已经包含了散点图和 numpy 提供的模型 S
MSVC++7.1 中的 ifstream.read() 与 ifstream.readsome()

我只是采用了在 Linux 下开发的文件阅读器的一些旧代码并尝试在使用 MSVC 7 1 编译的 Windows 项目中使用相同的代码代码编译没有任何问题但根据 Windows 上的文件阅读器该文件似乎是空的我跟踪问题到 ifst
Azure 流量管理器 SSL 设置（非经典）

我有一个 Azure API 应用服务我想为其配置优先流量管理这是新的流量管理器不是经典的我已将该服务部署到两个独立的 Azure 区域并配置了流量管理器实例以执行到两个服务实例的优先级路由这些服务具有以下自定义域配置 fo
在asp.net应用程序上显示sql数据库中存储的UTC时间的本地时间

我已经将时间以 utc 格式保存在 SQL 数据库中我在网格视图上显示这些时间但它们仍然是 UTC 格式我想将它们转换为客户端浏览器的本地时间问题是虽然我可以获得仅适用于当前日期时间的时区偏移量如果未来的某些日期最终发生在夏令
如何在 Angular 2 最终版本中编写 HTTP 模拟单元测试？

我已从 RC4 迁移到最终版本 2 1 0 并且正在重构我的单元测试以符合 2 1 0 语法除了 HTTP 模拟之外这很容易我找不到任何关于如何在 2 1 0 中模拟 HTTP 请求的示例这是一个 RC4 HTTP 单元测试我将如
使用 msbuild 从网站部署中排除文件

我有一个使用 msbuild 部署的网站项目在项目中有一些构建所需的文件和文件夹例如 web config 部分替换文件但我不想将其部署到目标站点我能想到的最好的办法是删除这些文件的构建后目标但我想知道是否有办法让这些文件不复制
由于占用率低而导致 GPU 利用率不足是什么意思？

我正在使用 NUMBA 和 cupy 来执行 GPU 编码现在我已将代码从 V100 NVIDIA 卡切换到 A100 但是随后我收到以下警告 NumbaPerformanceWarning 网格大小 27 NumbaPerformanc

由于占用率低而导致 GPU 利用率不足是什么意思？

由于占用率低而导致 GPU 利用率不足是什么意思？ 的相关文章

随机推荐

热门标签

由于占用率低而导致 GPU 利用率不足是什么意思？的相关文章