GPGPU

CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不

CUDA GPU GPGPU Thrust

cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有

concurrency CUDA GPGPU latency synchronize

OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解

opencl GPGPU

有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my

CUDA GPGPU

设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允

memory CUDA GPU GPGPU

官方 OpenCL 2.2 标准是否支持 WaveFront？

众所周知 AMD OpenCL 支持 WaveFront 2015 年 8 月 http amd dev wpengine netdna cdn com wordpress media 2013 12 AMD OpenCL Programm

Multithreading concurrency opencl GPGPU amdgpu

使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据

AMD Kaveri 的 hUMA 异构统一内存访问和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一应该允许 CPU 和 GPU 之间进行无副本的数据共享我想知道最新的 OpenCL 或其他 GPGPU 框

opencl GPGPU

CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索

CUDA GPU GPGPU houghtransform

如何处理 OpenGL ES 2.0 着色器中的 NaN 或 inf

这是基于以下问题在 OpenGL 着色器中检测 NaN 的最佳方法 https stackoverflow com questions 9446888 best way to detect nans in opengl shaders标准

Android iphone opengles opengles20 GPGPU

使用 Fortran (CLFORTRAN) 在 OpenCL 中将两个选项作为参数传递

当我的主机程序采用 C 语言时我可以传递两个选项作为 OpenCL 函数的参数例如我可以通过两个标志到clCreateBuffer像这样的函数 clCreateBuffer context CL MEM READ ONLY CL M

parallelprocessing Fortran opencl GPGPU fortran90

某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由

c CUDA GPGPU GPU

如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为

CUDA opencl GPGPU GPU

如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the

python profiling CUDA GPGPU pycuda

C++ AMP 目前的状况如何

我正在使用 C 编写高性能代码并且一直在使用 CUDA 和 OpenCL 最近还使用我非常喜欢的 C AMP 然而我有点担心它没有得到发展和扩展并且会消亡让我产生这个想法的是即使是 MS C AMP 博客也已经沉默了大约一年查看

c C11 GPGPU camp

TensorFlow 是否使用 GPU 上的所有硬件？

The 英伟达 GP100 https images nvidia com content pdf tesla whitepaper pascal architecture whitepaper pdf有30个TPC电路和240个纹理单元

tensorflow GPU GPGPU

为什么那些 Google 图像处理示例 Renderscript 在 Nexus 5 的 GPU 上运行速度较慢

我要感谢斯蒂芬在上一篇文章中的快速回复这是这篇文章的后续问题为什么非常简单的 Renderscript 在 GPU 中的运行速度比在 CPU 中慢 3 倍 https stackoverflow com questions 2038169

Android GPGPU renderscript

CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h

CUDA GPGPU reduction

theano 给出“...正在等待未知进程的现有锁...”

我的代码运行良好但是现在我收到一条错误消息 Using gpu device 0 GeForce GT 750M WARNING theano gof cmodule ModuleCache refresh Found key with

python GPGPU Theano

boost::计算流压缩

如何使用 boost compute 进行流压缩例如如果您只想对数组中的某些元素执行繁重的操作首先生成掩码数组其中包含与要执行操作的元素相对应的元素 mask 0 0 0 1 1 0 1 0 1 然后对掩码数组进行排它扫描前缀和

boost opencl GPGPU boostcompute

在 OpenCL 内核中动态创建本地数组

我有一个 OpenCL 内核需要将一个数组作为多个数组进行处理其中每个子数组总和都保存在本地缓存数组中例如想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组在示例中我们有 2 个工作组每个工作项处理两

memorymanagement opencl GPGPU pyopencl