Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
尽管有障碍,Open CL 仍不同步
我刚刚开始通过 Python 的 PyOpenCL 接口使用 OpenCL 我尝试创建一个非常简单的 循环 程序 其中每个内核中每个循环的结果取决于上一个循环周期的另一个内核的输出 但我遇到了同步问题 kernel void part1 g
opencl
pyopencl
如何在 pyopencl 中创建可变大小的 __local 内存?
在我的 C OpenCL 代码中我使用clSetKernelArg创建 可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存 看我的例子 clSetKernelArg clKernel ArgCounter sizeof
python
opencl
pyopencl
OpenCL 矩阵乘法应该更快?
我正在尝试学习如何使 GPU 优化 OpenCL 内核 我以使用本地内存中的方形图块进行矩阵乘法为例 然而在最好的情况下 我只得到了约 10 倍的加速 约 50 Gflops 与 numpy dot 相比 5 Gflops 它使用的是 BL
performance
opencl
matrixmultiplication
pyopencl
在 Windows 8 (x64) 中安装期间出现 PyOpenCL“致命错误:CL/cl.h:没有此类文件或目录”错误
在大量搜索此问题的解决方案后 我发现此特定错误尚未针对 Windows 正确记录 所以我决定将这个问题与解决方案一起发布 抱歉 如果我将其发布在错误的部分 我希望这个解决方案能够帮助用户解决未来 PyOpenCL 安装错误 请注意 此处使用
python
Windows
python27
opencl
pyopencl
PyOpenCL 矩阵乘法
我有使用 pyopenCL 进行矩阵乘法的代码 我的问题是某些矩阵的结果是错误的 我不明白为什么 经过一番研究后 我认为它与类似的全球规模有关 但我不明白如何设置该值 例如 使用 numpy dtype float32 的矩阵 矩阵1 0
python
opencl
ati
pyopencl
在 OpenCL 内核中动态创建本地数组
我有一个 OpenCL 内核 需要将一个数组作为多个数组进行处理 其中每个子数组总和都保存在本地缓存数组中 例如 想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组 在示例中我们有 2 个工作组 每个工作项处理两
memorymanagement
opencl
GPGPU
pyopencl
使用 GPU PyOpenCL 优化 python 代码的不同方法:内核 GPU/PyOpenCL 内的 extern 函数
我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后 我可以全局可视化不同贪婪函数的重新
python
python27
GPU
opencl
pyopencl
PyOpenCL 中的时间测量
我正在 FPGA 和 GPU 中使用 PyOpenCL 运行内核 为了测量执行所需的时间 我使用 t1 time event mykernel queue c width c height block size block size d c
time
opencl
GPU
FPGA
pyopencl
有没有办法分析 OpenCL 或 pyOpenCL 程序?
我正在尝试优化 pyOpenCL 程序 出于这个原因 我想知道是否有一种方法可以分析程序并查看大部分时间都花在哪里 您知道如何解决这个问题吗 提前致谢 Andi 编辑 例如 用于 CUDA 的 nvidias nvprof 可以用于 pyC
python
opencl
pyopencl
即使使用最新的驱动程序,Python pyopencl DLL 加载也会失败
我已经为我的 GPU 安装了最新的 CUDA 和驱动程序 我在 Win7 64 位上使用 Python 2 7 10 我尝试从以下位置安装 pyopencl a 非官方 Windows 二进制文件位于http www lfd uci edu
python
opencl
NVIDIA
pyopencl
致命错误 C1083:无法打开包含文件:'CL/cl.h'
为了解决这个问题 我阅读了该网站提供的所有解决方案 但它仍然存在 当我在 Windows 10 中的 cmd 中运行此命令时C pyopencl 2016 2 1 gt setup py install 将显示此错误 c pyopencl
python27
pyopencl
这个 OpenCL 代码可以优化吗?
我正在为一个专门的矩阵函数编写一段 OpencL 代码 Dx1 vector v two DxD矩阵A and B和一个常数c 返回1xD vector r where r i c sum over j v j A i j B i j 下面
opencl
GPGPU
pyopencl