为什么numba cuda调用几次后运行速度变慢？

2024-04-21

我正在尝试如何在 numba 中使用 cuda。然而我却遇到了与我预想不同的事情。这是我的代码

from numba import cuda
@cuda.jit
def matmul(A, B, C):
"""Perform square matrix multiplication of C = A * B
"""
d=cuda.local.array((3,3),dtype=numba.float64)
i, j = cuda.grid(2)
if i < C.shape[0] and j < C.shape[1]:
    tmp = 0.
    for k in range(A.shape[1]):
        tmp += A[i, k] * B[k, j]
    C[i, j] = tmp

这是我自己定义的矩阵函数，用于使用numba.cuda进行测试。在运行测试之前，我还在以下代码中加载了数组：

import numpy as np
a=np.random.rand(2000,2000)
b=np.random.rand(2000,2000)
c=np.empty((2000,2000))
a1=cuda.to_device(a)
b1=cuda.to_device(b)
c1=cuda.to_device(c)

然后我用下面的代码进行实验：

from time import time
count =0
start=time()
for i in range(2000):
  matmul[(256,256),(16,16)](a1,b1,c1)
  count +=1
  print(count)

for 循环在前 1028 次运行中运行得非常快。然而，在 1028 号之后，它运行得非常慢。到底是什么导致了这个问题，我该如何解决它。顺便说一句，我是在win10上运行的。

这是我从 numba.cuda 调用的 cuda 信息

from numba import cuda
gpu = cuda.get_current_device()
print("name = %s" % gpu.name)
print("maxThreadsPerBlock = %s" % str(gpu.MAX_THREADS_PER_BLOCK))
print("maxBlockDimX = %s" % str(gpu.MAX_BLOCK_DIM_X))
print("maxBlockDimY = %s" % str(gpu.MAX_BLOCK_DIM_Y))
print("maxBlockDimZ = %s" % str(gpu.MAX_BLOCK_DIM_Z))
print("maxGridDimX = %s" % str(gpu.MAX_GRID_DIM_X))
print("maxGridDimY = %s" % str(gpu.MAX_GRID_DIM_Y))
print("maxGridDimZ = %s" % str(gpu.MAX_GRID_DIM_Z))
print("maxSharedMemoryPerBlock = %s" % 
str(gpu.MAX_SHARED_MEMORY_PER_BLOCK))
print("asyncEngineCount = %s" % str(gpu.ASYNC_ENGINE_COUNT))
print("canMapHostMemory = %s" % str(gpu.CAN_MAP_HOST_MEMORY))
print("multiProcessorCount = %s" % str(gpu.MULTIPROCESSOR_COUNT))
print("warpSize = %s" % str(gpu.WARP_SIZE))
print("unifiedAddressing = %s" % str(gpu.UNIFIED_ADDRESSING))
print("pciBusID = %s" % str(gpu.PCI_BUS_ID))
print("pciDeviceID = %s" % str(gpu.PCI_DEVICE_ID))

输出是：

名称 = b'GeForce GTX 1050 Ti'

每个块的最大线程数 = 1024

最大块尺寸X = 1024

最大块尺寸 = 1024

最大块尺寸Z = 64

maxGridDimX = 2147483647

最大网格尺寸 = 65535

最大网格尺寸Z = 65535

每个块的最大共享内存 = 49152

异步引擎计数 = 2

canMapHostMemory = 1

多处理器计数 = 6

扭曲大小 = 32

统一寻址 = 1

pci总线ID = 3

pci设备ID = 0

这是由与 GPU 内核启动相关的异步启动队列引起的。

当您告诉 numba 提交 GPU 内核时：

matmul[(256,256),(16,16)](a1,b1,c1)

该请求进入队列，发出该内核调用的 CPU 线程（即 python）可以继续，即使 GPU 内核尚未完成或什至尚未启动。

CUDA 运行时将这些请求排队并在 GPU 准备好执行更多工作时发出它们。

在 for 循环快速递增期间，您最初看到的是队列填满了工作请求。这并不代表 GPU 执行工作所需的实际时间。

最终队列填满，CUDA 运行时在内核启动时暂停 CPU 线程（即 python），直到队列槽打开。此时，for 循环可以继续进行一次迭代。正是在这一点上（可能在 1028 次迭代左右），您开始看到“速度变慢”。此后，for 循环继续进行大约GPU 内核执行和从处理队列中删除的速率。

这里没有什么需要修复的；这是预期的行为。

如果您希望 for 循环仅按照 GPU 内核实际执行的速率进行，那么您应该在 for 循环中插入一个同步函数。

例如，numba 提供numba.cuda.synchronize() https://numba.pydata.org/numba-doc/dev/cuda-reference/host.html因此，如果您按如下方式修改 for 循环：

for i in range(2000):
  matmul[(256,256),(16,16)](a1,b1,c1)
  cuda.synchronize()
  count +=1
  print(count)

您将看到 for 循环以 GPU 工作完成的实际速率进行，而不是“队列填充”速率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么numba cuda调用几次后运行速度变慢？的相关文章

为什么 enumerate、zip、range 类型不属于 types.GeneratorType？

Python 3 引入了类似生成器的对象在调用时返回range and zip 返回的对象就像一个生成器可以迭代一次但不能很好地打印就像enumerate 返回参数然而我很困惑地发现它们是不同的对象类型并且不属于types G
Python 3.10 中有 setUpClass 的异步等效项吗？

我一直在使用unittest IsolatedAsyncioTestCase测试我的异步方法我一直在利用setUpClass asyncSetUp创建夹具和asyncTearDown进行清理到目前为止一切进展顺利但现在我有一个新的要求
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
如何在一段时间后停止执行？

我想在一定时间后停止执行 Dash 程序当我关闭浏览器窗口时效果更好尽管我怀疑这是否可能有没有办法通过python中断它我已经尝试过放一个 sys exit 打电话后app run server 虽然据我了解app run serv
Selenium Python Firefox webdriver：无法修改配置文件

我想在 Webdriver Firefox 实例上使用新选项卡而不是窗口选项 1 我创建了一个启用此选项的配置文件但是当我使用该配置文件时很多选项都可以但不是这个 2 加载配置文件后我尝试更改代码中的选项但它不起作用我的代码
Python 3 如何知道如何 pickle 扩展类型，尤其是 Numpy 数组？

Numpy 数组是扩展类型也称为使用 C API 扩展定义的声明了 Python 解释器范围之外的附加字段例如data属性这是一个Buffer Structure 如 Numpy 中所述阵列接口 https docs scipy o
互补DNA序列

我在编写这个循环时遇到问题它似乎在第二个序列之后停止了我想返回给定 DNA 序列的互补 DNA 序列例如 AGATTC gt TCTAAG 其中 A T 和 C G def get complementary sequence dna
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
循环列表的值[重复]

这个问题在这里已经有答案了我是编码新手正在尝试编写一个简单的代码该代码将采用一个列表例如 1 2 3 并循环元素 n 次所以如果n 1 我应该得到A 3 1 2 如果n 2 我应该得到A 2 3 1 我写的代码是 n 1 j 0
为什么在“ except”块之后使用命名异常会得到“ NameError”（或“ UnboundLocalError”）？

此示例代码在 2 x 中运行 exc None try raise Exception except Exception as exc pass print exc 但在 3 x 中我收到一个错误 NameError name exc is
使用 Boto3 进行 IAM 身份验证的 SQLAlchemy 可刷新凭证

我使用 Boto3 生成的身份验证令牌通过 Sqlalchemy 连接到 Amazon RDS self client boto3 client rds region name eu central 1 self token self cl
Python3如何安装.ttf字体文件？

我想使用 python3 更精确的 Python 3 6 代码在 Windows 10 上安装 ttf 字体文件我用谷歌搜索但我发现的唯一的就是这个使用python在windows上安装TTF字体 https stackoverflow
如何在Python中获取声音级别？

对于我正在进行的项目我需要获取麦克风的实时分贝级别我见过阴谋家 Print out realtime audio volume as ascii bars import sounddevice as sd import numpy as
初始化 dask 分布式工作线程的状态

我正在尝试做类似的事情 resource MyResource def fn x something dosemthing x resource return something client Client results client m
将 github 上的包安装到 Spyder 中

我一直在尝试安装并导入mpl finance来自 github 的包在我的 Spyder 环境中没有成功我努力了 pip install e git https github com matplotlib mpl finance git
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何使用魔杖扭曲图像

我正在尝试做同样的事情this https stackoverflow com questions 52090350 how to insert image in a mock up老问题但在python using wand 到目前为止我
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
Numba 环境变量未通过 .numba_config.yaml 设置[重复]

这个问题在这里已经有答案了可以为 numba 设置一些环境变量如文档中指定的 https numba pydata org numba doc dev reference envvars html https numba pydata

随机推荐

如何更改Exception对象的异常消息？

所以我捕获了一个异常 Exception 类的实例我想要做的是更改其异常消息我可以得到这样的异常消息 e gt getMessage 但如何设置异常消息呢这是行不通的 e gt setMessage hello 对于几乎所有的情况您
SelectSingleNode 返回 null - 即使有命名空间

我知道以前曾以类似的方式问过这个问题但我似乎无法解决这个问题我有一些 xml
如何允许多个参数为空值

我在 SSRS 报表生成器中的报表有多个参数如果不需要选择我希望所有参数都允许空白值但是当我尝试运行报告时第一个参数将允许空空白值并且它将提示我输入其余参数有没有办法解决 Set Allow Blank Value and o
如何遵守自制协议？

我有一个带有委托属性的类任何想成为代表的人都必须遵守协议我这样定义一切 import
Android 调用另一个类的方法

我知道这个问题重复了但我在互联网上找不到答案我想调用另一个类的方法我有Class1和Class2 在第2类中我有这个方法 public void UpdateEmployee some code 我想从Class1调用上面的方法感谢
理解 scala 中参与者的线程性

有人告诉我 Scala Actors 实际上从来不会同时执行两个操作这表明 act 或 React 或 receive 方法本质上是同步的我知道 act 方法中的长操作可能会导致阻塞问题并且我假设对消息队列的访问必须以某种方式同步但
Rails 路由中的“mount”指令是什么意思？

我找不到关键字 mount 的含义轨道布线系统 http api rubyonrails org classes ActionDispatch Routing html 我已经设置了Mercury http jejacks0n github
如何使用multiple属性在Android上上传多个文件？

I got a
在 python 上使用 TensorRT .engine 文件进行推理

我使用 Nvidia 的迁移学习工具包 TLT 进行训练然后使用 tlt converter 将 etlt 模型转换为 engine 文件我想使用这个 engine 文件在 python 中进行推理但由于我使用 TLT 进行训练因此
合并冲突后暂存区中有哪些文件？

我运行时与 file1 txt 发生冲突git merge b2当前分支是master ls files somcdt file1 txt然后显示 M 100644 4111d50ada6cc03ec6079f226c23efa3142c9
是否可以在 LLVM IR 代码中指定十六进制数？

例如 error floating point constant invalid for type 3 and i8 0x80 2 从扫描的红外参考手册 http llvm org docs LangRef html simple cons
从 Java 方法返回多个值：为什么没有 n 元组对象？

为什么没有一个标准的 Java 认证的解决方案作为 Java 语言本身的一部分从 Java 方法返回多个值而不是开发人员必须使用自己的方法例如映射列表对等为什么Java不支持n元组对象特别是考虑可能一起串联修改两个对象
防止PHP脚本被淹没

我想防止我的脚本被淹没如果用户按 F5 它每次都会执行脚本我想防止这种情况并允许每 2 秒执行一个脚本有什么解决方案吗您可以使用内存缓存来执行此操作简单的演示脚本 memcache new Memcache memcache gt
Typescript 中的 new() 是什么？

我遇到了new 在官方文件中here https www typescriptlang org docs handbook generics html关于泛型这是代码上下文 function create
javascript - 从输入类型=文件获取文件名和扩展名

我有一个文件上传输入当我单击浏览按钮并选择文件时我希望文件名和扩展名显示在两个输入文本框中请参阅代码示例它与扩展名一起正常工作但文件名还显示了给我 fakepath 警告的路径我明白为什么但是有什么好方法可以做到这一点并将文件
在 thymeleaf spring boot 中，动态轮播滑块不起作用

In my spring boot thymeleaf this following code is slider does not work well Show the result in image What wrong with in
您应该如何诊断错误 SEHException - 外部组件抛出异常

每当用户报告错误时例如 System Runtime InteropServices SEHException 外部组件引发的异常作为一名程序员我可以做些什么来确定原因吗场景一名用户使用我公司编写的程序报告了此错误这可能是也
从另一个页面访问时引导滚动间谍

我试图链接到主页的特定部分同时保持滚动间谍功能有了这个代码 li a href sec1 About a li 滚动间谍正在运行但如果我尝试从主页以外的页面访问它它只会添加 sec1 到当前页面的 url 没有效果如果我把它改成
关于在单列中查找重复项的宏的建议

发现了很多涉及在两列中查找重复项的问题 i e MS Excel 如何创建宏来查找重复项并突出显示它们 https stackoverflow com questions 2162684 ms excel how to create a m
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m

为什么numba cuda调用几次后运行速度变慢？

为什么numba cuda调用几次后运行速度变慢？ 的相关文章

随机推荐

热门标签

为什么numba cuda调用几次后运行速度变慢？的相关文章