GPU

使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新

python python27 GPU opencl pyopencl

CUDA：是否可以将全部 48KB 片上内存用作共享内存？

我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序我的程序比典型的 CUDA 程序更占用

CUDA GPU NVIDIA GPGPU gpusharedmemory

为什么 WebGL 比 Canvas 更快？

如果两者都使用硬件加速 GPU 来执行代码为什么 WebGL 比 Canvas 更快我的意思是我想知道为什么在低级别上从代码到处理器的链条会发生什么 Canvas WebGL 直接与驱动程序通信然后与显卡通信 Canvas 速度

html performance canvas webgl GPU

GPU 上的相干内存是什么？

我在记忆中不止一次遇到非连贯和连贯记忆这个术语科技论文 https renderdoc org vulkan in 30 minutes html与图形编程相关我一直在寻找简单明了的解释但发现大部分是硬核论文this ht

graphics GPU GPGPU Vulkan

在带有 GPU 加速的 arrayfun 中使用匿名函数 (Matlab)

我是 Matlab R2012b 并行工具箱的新手想知道克服以下问题的最佳方法是什么我正在分析图像中每个像素的邻域这是并行化的绝佳案例但是我似乎无法让它发挥作用问题的主要问题是一些常量参数应该传递给函数因此应该为每个像素

MATLAB CUDA GPU anonymousfunction

为什么GPU做矩阵乘法比CPU更快？

我已经使用 GPU 一段时间了没有质疑它但现在我很好奇为什么GPU做矩阵乘法比CPU快很多是因为并行处理吗但我没有写任何并行处理代码它自己会自动完成吗任何直觉高级解释将不胜感激如何并行计算 GPU 能够进行大量并行计算比

tensorflow parallelprocessing GPU matrixmultiplication Pytorch

使用GPU加速BigInteger计算

我几乎完成了处理一些非常大的整数大约 2 的 100 000 000 次方的算法由于该算法不是内存密集型的因此需要在内存充足的 16 核服务器上编写几个小时的高度并行代码我使用 NET 4 中的 BigInteger 类算法的细

c NET performance GPU Physics

GPU 在 Julia 集合计算中没有带来性能提升

我正在尝试比较 CPU 和 GPU 的性能我有 CPU Intel Core i5 CPU M 480 2 67GHz 4 显卡 NVidia GeForce GT 420M 我可以确认 GPU 已配置并且可以与 CUDA 一起正常工作

CUDA GPGPU GPU

CUDA如何获取网格、块、线程大小以及并行化非方阵计算

我是 CUDA 新手需要帮助理解一些事情我需要帮助并行化这两个 for 循环具体来说如何设置dimBlock 和dimGrid 以使运行速度更快我知道这看起来像 sdk 中的向量相加示例但该示例仅适用于方阵当我尝试修改 128

c visualstudio2008 GPU CUDA

内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数

opencl GPU memcpy boostcompute

使用opencv GPU旋转图像

我在用着GPU 旋转 https docs opencv org 2 4 modules gpu doc image processing html gpu rotate从 opencv lib 顺时针旋转图像 include

c opencv Rotation GPU

为什么 CPU 上的 Keras LSTM 比 GPU 上快三倍？

I use 这本来自 Kaggle 的笔记本 https www kaggle com sbongo for beginners tackling toxic using keras运行 LSTM 神经网络我已经开始训练神经网络我发现它

python tensorflow machinelearning Keras GPU

TensorFlow 1.0 在 Windows 上看不到 GPU（但 Theano 可以）

我在 Windows 上运行了 Keras 和 Theano 的安装按照此tutorial https github com philferriere dlwin 现在我尝试将后端切换到张量流 https www tensorflow o

python Windows tensorflow GPU Keras

将 CUDA 与 Visual Studio 2017 结合使用

我正在尝试安装 CUDA 但收到一条消息未找到支持的 Visual Studio 版本我认为这是因为我使用的是 Visual Studio 2017 社区而 CUDA 目前仅支持 Visual Studio 2015 不幸的是微软不

VisualStudio parallelprocessing CUDA GPU

cuPrintf问题

我正在尝试将结构数组复制到设备我正在使用一个 GPU atm 并且我使用 cuPrintf 函数来调试代码时遇到问题我的结构定义如下 struct Node char Key 25 char ConsAlterKey 25 char M

c GPU CUDA

CUDA和cuDNN在Windows上的安装问题

我正在检查系统上的 CUDA 和 cuDNN 安装并有几个观察结果 CUDA有两个版本 9 0和11 2 只在CUDA 9 0的安装目录下找到cuDNN CUDA 9 0目录下有cudafe exe 而CUDA 11 2目录下没有按照目

tensorflow CUDA GPU NVIDIA cuDNN

通过brew和dmg安装cuda

尝试按照以下指南在 MAC 上安装 nvidia 工具包后 http docs nvidia com cuda cuda installation guide mac os x index html axzz4FPTBCf7X http d

CUDA GPU NVIDIA dmg

何时将 volatile 与寄存器/局部变量一起使用

在 CUDA 中使用 volatile 限定符声明寄存器数组的含义是什么当我尝试使用 volatile 关键字和寄存器数组时它删除了溢出寄存器内存到本地内存的数量即强制 CUDA 使用寄存器而不是本地内存这是预期的行为吗我在 CU

CUDA GPU GPGPU volatile nvcc

CUDA GPU 处理：类型错误：compile_kernel() 得到意外的关键字参数“boundscheck”

今天我开始使用 CUDA 和 GPU 处理我找到了这个教程 https www geeksforgeeks org running python script on gpu https www geeksforgeeks org runn

python CUDA GPU numba

Tensorflow：GPU 利用率几乎始终为 0%

我将张量流与 Titan X GPU 一起使用并且我注意到当我运行 CIFAR10 示例时 Volatile GPU utilization稳定在 30 左右而当我训练自己的模型时 Volatile GPU utilization远非

neuralnetwork GPU tensorflow NVIDIA deeplearning