CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck”

2024-01-11

今天我开始使用 CUDA 和 GPU 处理。我找到了这个教程：https://www.geeksforgeeks.org/running-python-script-on-gpu/ https://www.geeksforgeeks.org/running-python-script-on-gpu/

不幸的是，我第一次尝试运行 GPU 代码失败了：

from numba import jit, cuda 
import numpy as np 
# to measure exec time 
from timeit import default_timer as timer 

# normal function to run on cpu 
def func(a):                                 
    for i in range(10000000): 
        a[i]+= 1    

# function optimized to run on gpu 
@jit(target ="cuda")                         
def func2(a): 
    for i in range(10000000): 
        a[i]+= 1
if __name__=="__main__": 
    n = 10000000                            
    a = np.ones(n, dtype = np.float64) 
    b = np.ones(n, dtype = np.float32) 

    start = timer() 
    func(a) 
    print("without GPU:", timer()-start)     

    start = timer() 
    func2(a) 
    print("with GPU:", timer()-start)

Output:

/home/amu/anaconda3/bin/python /home/amu/PycharmProjects/gpu_processing_base/gpu_base_1.py
without GPU: 4.89985659904778
Traceback (most recent call last):
  File "/home/amu/PycharmProjects/gpu_processing_base/gpu_base_1.py", line 30, in <module>
    func2(a)
  File "/home/amu/anaconda3/lib/python3.7/site-packages/numba/cuda/dispatcher.py", line 40, in __call__
    return self.compiled(*args, **kws)
  File "/home/amu/anaconda3/lib/python3.7/site-packages/numba/cuda/compiler.py", line 758, in __call__
    kernel = self.specialize(*args)
  File "/home/amu/anaconda3/lib/python3.7/site-packages/numba/cuda/compiler.py", line 769, in specialize
    kernel = self.compile(argtypes)
  File "/home/amu/anaconda3/lib/python3.7/site-packages/numba/cuda/compiler.py", line 785, in compile
    **self.targetoptions)
  File "/home/amu/anaconda3/lib/python3.7/site-packages/numba/core/compiler_lock.py", line 32, in _acquire_compile_lock
    return func(*args, **kwargs)
TypeError: compile_kernel() got an unexpected keyword argument 'boundscheck'

Process finished with exit code 1

我已经安装了numba and cudatoolkit教程中提到了pycharm中的anaconda环境。

添加答案以将其从未答复的队列中删除。

该示例中的代码已损坏。您的 numba 或 CUDA 安装没有任何问题。您的问题中的代码（或您从中复制代码的博客）不可能发出博客文章声称的结果。

有很多方法可以对其进行修改以使其发挥作用。一种是这样的：

from numba import vectorize, jit, cuda 
import numpy as np 
# to measure exec time 
from timeit import default_timer as timer 

# normal function to run on cpu 
def func(a):                                 
    for i in range(10000000): 
        a[i]+= 1    

# function optimized to run on gpu 
@vectorize(['float64(float64)'], target ="cuda")                         
def func2(x): 
    return x+1

if __name__=="__main__": 
    n = 10000000                            
    a = np.ones(n, dtype = np.float64) 

    start = timer() 
    func(a) 
    print("without GPU:", timer()-start)     

    start = timer() 
    func2(a) 
    print("with GPU:", timer()-start)

Here func2成为为设备编译的 ufunc。然后它将在 GPU 上的整个输入数组上运行。这样做的作用是：

$ python bogoexample.py 
without GPU: 4.314514834433794
with GPU: 0.21419800259172916

所以它更快，但请记住 GPU 时间包括编译 GPU ufunc 所需的时间

另一种选择是实际编写 GPU 内核。像这样：

from numba import vectorize, jit, cuda 
import numpy as np 
# to measure exec time 
from timeit import default_timer as timer 

# normal function to run on cpu 
def func(a):                                 
    for i in range(10000000): 
        a[i]+= 1    

# function optimized to run on gpu 
@vectorize(['float64(float64)'], target ="cuda")                         
def func2(x): 
    return x+1

# kernel to run on gpu
@cuda.jit
def func3(a, N):
    tid = cuda.grid(1)
    if tid < N:
        a[tid] += 1


if __name__=="__main__": 
    n = 10000000                            
    a = np.ones(n, dtype = np.float64) 

    for i in range(0,5):
         start = timer() 
         func(a) 
         print(i, " without GPU:", timer()-start)     

    for i in range(0,5):
         start = timer() 
         func2(a) 
         print(i, " with GPU ufunc:", timer()-start) 

    threadsperblock = 1024
    blockspergrid = (a.size + (threadsperblock - 1)) // threadsperblock
    for i in range(0,5):
         start = timer() 
         func3[blockspergrid, threadsperblock](a, n) 
         print(i, " with GPU kernel:", timer()-start)

运行如下：

$ python bogoexample.py 
0  without GPU: 4.885275377891958
1  without GPU: 4.748716968111694
2  without GPU: 4.902181145735085
3  without GPU: 4.889955999329686
4  without GPU: 4.881594380363822
0  with GPU ufunc: 0.16726416163146496
1  with GPU ufunc: 0.03758022002875805
2  with GPU ufunc: 0.03580896370112896
3  with GPU ufunc: 0.03530424740165472
4  with GPU ufunc: 0.03579768259078264
0  with GPU kernel: 0.1421878095716238
1  with GPU kernel: 0.04386183246970177
2  with GPU kernel: 0.029975440353155136
3  with GPU kernel: 0.029602501541376114
4  with GPU kernel: 0.029780613258481026

在这里您可以看到内核的运行速度比 ufunc 稍快，并且缓存（这是 JIT 编译函数的缓存，而不是调用的记忆）显着加快了 GPU 上的调用速度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

CUDA

GPU

numba

CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck” 的相关文章

如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

堆叠 matplotlib 条中的替代颜色

我正在 matplotlib 中生成堆积条形图在 Windows 7 上使用 Python 2 7 由于我想用它来成对比较两个数据集中的数据因此我想为每个第二个条形使用不同的颜色谁能告诉我如何实现这一目标我的条形图基本上如下所示 i
如何导入文件夹中的所有文件？

假设我在一个文件夹中有一堆 dart 脚本有什么我可以做的吗import foo dart 附如果我有一个文件名数组并想要导入这些文件怎么办您需要单独导入每个库您可以做的是创建一个导入所有其他库并重新导出它们的库然后您可以导入这
使用append/3谓词创建SPARQL参数化查询

与我之前的帖子相关如何在 SWI Prolog 中参数化 SPARQL 查询 https stackoverflow com questions 16820606 how to parameterize a sparql query in
Android 应用程序不显示在模拟器上

我使用 eclipse 制作了一个 android 应用程序当我开始开发我的应用程序时它运行良好但是当我继续开发应用程序时模拟器似乎没有在我对代码进行更改之前更新应用程序所以我尝试删除我的 avd 并在每次运行我的应用程序时创建一
NSFetchedResultsController 加上 NSBatchUpdateRequest 等于 NSMergeConflict。我做错了什么？

I got a NSFetchedResultsController我使用一个设置NSManagedObjectContext 我使用此上下文执行获取我也有一个NSBatchUpdateRequest我使用相同的设置NSManagedOb
为什么我不能在异步函数中“yield from”？

在Python 3 6中我可以使用yield在协程内但是我无法使用yield from 下面是我的代码在第 3 行我等待另一个协程在第 4 行我尝试yield from一份文件为什么 Python 3 6 不允许我这样做 asy
Rails 使用带有表单和验证包含的数组

尝试获得一些关于使用数组进行表单选择的最佳方法的好建议但使用相同的数组来测试包含的验证现在我有了它但在元素和验证中构建数组即 Form Model validates status inclusion gt in gt w live
AutoMapper - 条件和前提条件有什么区别

假设使用 AutoMapper 进行映射如下所示 mapItem ForMember to gt to SomeProperty from gt from Condition x gt FromType x SourceValue Oth
如何在 Macosx 10.9 上安装 PIL？

当我尝试在 Macosx 10 9 2 上安装 PIL 库时出现以下错误如何安装它 sudo pip 安装枕头 cc fno strict aliasing fno common dynamic arch x86 64 arch i38
如果机器人在 botframework v4 中空闲 5 分钟，如何向用户发送消息

如果我在直线网络聊天频道中 5 分钟后没有收到用户的任何消息我想发送提示我正在等待它是演示机器人所以我使用本地内存存储任何帮助将不胜感激有几种方法可以解决这个问题如果您通过脚本调用它使用类似使用 Directline 通道
如何使用 MailMessage 向多个收件人发送电子邮件

我在 SQL Server 中存储了多个电子邮件收件人当我在网页中单击发送时它应该向所有收件人发送电子邮件我使用分隔电子邮件以下是有效的单一收件人代码 MailMessage Msg new MailMessage MailAd
startForegroundService() 没有调用 startForeground()，但它确实调用了

我有Context startForegroundService did not then call Service startForeground 在我的 Android 服务中但我不明白为什么会发生这种情况我的应用程序用于媒体流只
Netbeans 错误锁定文件存在

任何人都可以帮助我我的 netbeans 8 0 1 有问题我无法卸载有一条错误消息 C Users X AppData Roaming Netbeans 8 0 1 lock 中存在锁定文件删除该锁定文件并卸载
已安装 PowerShell 搜索软件

我试图让这个 ForEach 循环使用注册表搜索来搜索计算机上安装的特定软件由于某种原因即使我知道并且可以看到它们已安装但只能找到一个而不是其他两个有什么错过了 Clear Host Computers hostname array
当我“新建”ObservableCollection 时，它会失去绑定

我的 UI 上有一个 ListBox 它绑定到 ObservableCollection 的属性我将 ObservableCollection 的新实例设置到视图模型构造函数中的属性中并且可以使用表单上的按钮向其中添加项目这些在列表中
过滤 numpy float 数组中的整数

是否有任何内置函数可以丢弃整数并仅保留浮点数numpy import numpy as np input np array 0 0 0 01 1 0 2 0 2 001 2 002 desired ouput some function i
jqgrid自定义数字分页

如何更改jqgrid分页喜欢第 1 页共 15 页 150 项 gt gt gt 两者都显示在中心 td 中 Look at 答案 https stackoverflow com a 5835542 315935其中提供了相应的dem
如何用 Swift 字符串中的描述替换表情符号字符

我正在寻找一种方法用 Swift 字符串中的描述替换表情符号字符 Example Input This is my string 我想替换以获得 Output This is my string SMILING FACE WITH OP
setTimeout 在函数内部调用函数 - 范围问题

所以问题是我的函数内部有一个函数需要由 setTimeout 调用但这不起作用因为 setTimeout 会假设它调用的函数将根作为其作用域知道如何在不改变函数范围的情况下解决这个问题吗 Edit 我的意思是 function ge
CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck”

今天我开始使用 CUDA 和 GPU 处理我找到了这个教程 https www geeksforgeeks org running python script on gpu https www geeksforgeeks org runn

CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck”

CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck” 的相关文章

随机推荐

热门标签