Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
CUDA Thrust 的多 GPU 使用
我想使用我的两张显卡通过 CUDA Thrust 进行计算 我有两张显卡 在单卡上运行对于两张卡都适用 即使我在 std vector 中存储两个 device vector 也是如此 如果我同时使用两张卡 循环中的第一个周期将起作用并且不
CUDA
GPU
GPGPU
Thrust
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别?
正如这里所说 如何减少 CUDA 同步延迟 延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
concurrency
CUDA
GPGPU
latency
synchronize
OpenCL 与 OpenMP 性能对比 [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 是否有研究比较 OpenCL 与 OpenMP 的性能 具体来说 我对使用 OpenCL 启动线程的开销成本感兴趣 例如 如果将域分解
opencl
GPGPU
有没有一种有效的方法来优化我的序列化代码?
这个问题缺乏细节 因此 我决定创建另一个问题而不是编辑这个问题 新问题在这里 我可以并行化我的代码吗 还是不值得 https stackoverflow com questions 17937438 can i parallelize my
CUDA
GPGPU
设置最大 CUDA 资源
我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源 例如 如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多 就会失败 理想情况下 这可以在进程级别或 CUDA 上下文级别上设置 不 目前没有允
memory
CUDA
GPU
GPGPU
官方 OpenCL 2.2 标准是否支持 WaveFront?
众所周知 AMD OpenCL 支持 WaveFront 2015 年 8 月 http amd dev wpengine netdna cdn com wordpress media 2013 12 AMD OpenCL Programm
Multithreading
concurrency
opencl
GPGPU
amdgpu
使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据
AMD Kaveri 的 hUMA 异构统一内存访问 和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一 应该允许 CPU 和 GPU 之间进行无副本的数据共享 我想知道 最新的 OpenCL 或其他 GPGPU 框
opencl
GPGPU
CUDA 中的广义霍夫变换 - 如何加快分箱过程?
正如标题所示 我正在对并行计算机视觉技术进行一些个人研究 使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换 我遇到的唯一问题是在投票过程中 我调用atomicAdd 来防止多个同时写入操作 但我似乎没有获得太多的性能效率 我在网上搜索
CUDA
GPU
GPGPU
houghtransform
如何处理 OpenGL ES 2.0 着色器中的 NaN 或 inf
这是基于以下问题 在 OpenGL 着色器中检测 NaN 的最佳方法 https stackoverflow com questions 9446888 best way to detect nans in opengl shaders标准
Android
iphone
opengles
opengles20
GPGPU
使用 Fortran (CLFORTRAN) 在 OpenCL 中将两个选项作为参数传递
当我的主机程序采用 C 语言时 我可以传递两个选项作为 OpenCL 函数的参数 例如 我可以通过两个 标志到clCreateBuffer像这样的函数 clCreateBuffer context CL MEM READ ONLY CL M
parallelprocessing
Fortran
opencl
GPGPU
fortran90
某些子网格未使用 CUDA 动态并行执行
我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能 我遇到了一个奇怪的行为 即我的程序没有返回某些配置的预期结果 不仅是意外的 而且每次启动都会出现不同的结果 现在我想我找到了问题的根源 似乎当生成太多子网格时 某些子网格 由
c
CUDA
GPGPU
GPU
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL?
我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
CUDA
opencl
GPGPU
GPU
如何在 Linux 中分析 PyCuda 代码?
我有一个简单的 经过测试的 pycuda 应用程序 正在尝试对其进行分析 我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次 然后发出以下错误 NV Warning Ignoring the
python
profiling
CUDA
GPGPU
pycuda
C++ AMP 目前的状况如何
我正在使用 C 编写高性能代码 并且一直在使用 CUDA 和 OpenCL 最近还使用我非常喜欢的 C AMP 然而 我有点担心它没有得到发展和扩展 并且会消亡 让我产生这个想法的是 即使是 MS C AMP 博客也已经沉默了大约一年 查看
c
C11
GPGPU
camp
TensorFlow 是否使用 GPU 上的所有硬件?
The 英伟达 GP100 https images nvidia com content pdf tesla whitepaper pascal architecture whitepaper pdf有30个TPC电路和240个 纹理单元
tensorflow
GPU
GPGPU
为什么那些 Google 图像处理示例 Renderscript 在 Nexus 5 的 GPU 上运行速度较慢
我要感谢斯蒂芬在上一篇文章中的快速回复 这是这篇文章的后续问题为什么非常简单的 Renderscript 在 GPU 中的运行速度比在 CPU 中慢 3 倍 https stackoverflow com questions 2038169
Android
GPGPU
renderscript
CUDA - 为什么基于扭曲的并行减少速度较慢?
我有关于基于扭曲的并行减少的想法 因为根据定义 扭曲的所有线程都是同步的 因此 我们的想法是输入数据可以减少 64 倍 每个线程减少两个元素 而无需任何同步 与 Mark Harris 的原始实现相同 减少应用于块级 数据位于共享内存上 h
CUDA
GPGPU
reduction
theano 给出“...正在等待未知进程的现有锁...”
我的代码运行良好 但是 现在我收到一条错误消息 Using gpu device 0 GeForce GT 750M WARNING theano gof cmodule ModuleCache refresh Found key with
python
GPGPU
Theano
boost::计算流压缩
如何使用 boost compute 进行流压缩 例如 如果您只想对数组中的某些元素执行繁重的操作 首先 生成掩码数组 其中包含与要执行操作的元素相对应的元素 mask 0 0 0 1 1 0 1 0 1 然后对掩码数组进行排它扫描 前缀和
boost
opencl
GPGPU
boostcompute
在 OpenCL 内核中动态创建本地数组
我有一个 OpenCL 内核 需要将一个数组作为多个数组进行处理 其中每个子数组总和都保存在本地缓存数组中 例如 想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组 在示例中我们有 2 个工作组 每个工作项处理两
memorymanagement
opencl
GPGPU
pyopencl
1
2
3
4
5
6
»