CUDA全局内存事务的成本

2024-03-31

根据 CUDA 5.0 编程指南，如果我同时使用 L1 和 L2 缓存（在 Fermi 或 Kepler 上），则所有全局内存操作都使用 128 字节内存事务完成。但是，如果我仅使用 L2，则使用 32 字节内存事务（第 F.4.2 章）。

让我们假设所有缓存都是空的。如果我有一个扭曲，每个线程以完美对齐的方式访问单个 4 字节字，这将导致在 L1+L2 情况下产生 1x128B 事务，在仅 L2 情况下产生 4x32B 事务。是对的吗？

我的问题是 - 4 个 32B 事务是否比单个 128B 事务慢？我对费米之前硬件的直觉表明它会更慢，但也许在较新的硬件上情况不再如此？或者也许我应该只看带宽利用率来判断内存访问的效率？

是的，在缓存模式下，将生成单个 128 字节事务（从 L1 缓存级别可见）。在非缓存模式下，将生成四个 32 字节事务（从 L2 缓存级别可见 - 它仍然是来自来自）在您描述的情况下，对于完全合并的访问，无论缓存或非缓存模式如何，四个 32 字节事务都不会变慢。在任何一种情况下，内存控制器（在给定的 GPU 上）都应该生成相同的事务来满足 warp 的请求。由于内存控制器由多个（最多 6 个）“分区”组成，每个分区都有 64 位宽的路径，因此最终将使用多个内存事务（可能跨越多个分区）来满足请求（4x32 字节或1x128 字节）。跨分区的具体事务数量和组织可能因 GPU 而异（这不是您的问题的一部分，但具有 DDR 泵送内存的 GPU 将为每个内存事务返回每个分区 16 字节，而使用 QDR 泵送内存时，每个内存事务将返回每个分区 32 字节）。这也不是 CUDA 5 特有的。您可能想回顾一下 NVIDIA 的产品之一webinars http://developer.nvidia.com/cuda/gpu-computing-webinars对于此材料，特别是“CUDA 优化：内存带宽有限内核”。即使你不想看video http://developer.download.nvidia.com/CUDA/training/Optimizing_Mem_limited_kernels.mp4，快速回顾一下slides http://developer.download.nvidia.com/CUDA/training/bandwidthlimitedkernels_webinar.pdf会提醒您所谓的“缓存”和“非缓存”访问（这是指 L1）之间的各种差异，并且还会为您提供尝试每种情况所需的编译器开关。

查看幻灯片的另一个原因是它会提醒您在什么情况下可能想要尝试“未缓存”模式。特别是，如果您的 warp 具有分散（未合并）的访问模式，则非缓存模式访问可能会带来改进，因为与 128 字节相比，从内存请求 32 字节数量以满足单个线程的请求时“浪费”更少数量。然而，针对您的最后一个问题，对其进行分析相当困难，因为您的代码可能是有序和无序访问模式的混合。由于非缓存模式是通过编译器开关打开的，因此幻灯片中给出的建议只是“尝试两种方式的代码”，看看哪种运行速度更快。根据我的经验，在非缓存模式下运行很少会带来性能改进。

编辑：抱歉，我的演示文稿链接和标题错误。修复了幻灯片/视频链接和网络研讨会标题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA全局内存事务的成本的相关文章

无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
CUDA 的嵌套循环

我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
对 CUDA 操作进行计时

我需要计算 CUDA 内核执行的时间最佳实践指南说我们可以使用事件或标准计时函数例如clock 在Windows中我的问题是使用这两个函数给出了完全不同的结果事实上与实践中的实际速度相比事件给出的结果似乎是巨大的我实际上需要这
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
将数据从 GPU 复制到 CPU - CUDA

我在将数据从 GPU 复制到 CPU 时遇到问题一开始我在 GPU 空间中创建变量 device float gpu array 在此 GPU 函数中我想将数据从 od fS gi 值 0 43 复制到 gpu array global

随机推荐

Firebird 中的表可以重命名吗？

是否可以在 Firebird 中重命名表或者我应该创建一个新表然后使用插入移动数据显然不是您必须创建一个新表复制旧值或者创建一个具有与原始表相同的预期名称的视图 See http www firebirdfaq org faq3
Spring Integration - 入站文件端点。如何正确处理文件。

我有一个 Spring 集成流程如下
更改浮动操作按钮的形状

我想在我的布局中添加一个浮动操作按钮想问一下如何自定义浮动操作按钮的形状并将其更改为您自己的图标如果您想更改形状那么您可能必须使用自定义形状可能是矩形或正方形创建自己的 FAB 实现要更改图标您只需使用android src
Android java.lang.SecurityException on Settings.Secure.putString()

我正在尝试在 Android 2 2 中设置系统属性使用Android for eclipse插件导致异常的行是 Settings Secure putString getContentResolver Settings Secure
我们可以在android NDK代码中使用系统IPC吗

在这里我想使用系统 IPC 方法例如
在 Eclipse 中调试 Android Widget 代码

我在 Android 编程的帮助下开始解锁 Android 曼宁 http www manning com ableson 这是一本来自圣诞老人的好书在运行了一些小测试和示例之后我开始为我自己的应用程序开发概念我希望我的应用程序作为家
WebStorm 可以在我编写代码时自动格式化代码吗？

在 Visual Studio 中当我输入一些特殊字符如时它会自动格式化相关代码段但在 WS 中什么也没有发生我试图找到这个选项但最终没有结果 e g In VS if we type something like var
为 PostgreSQL 8.3 安装 PL/Ruby

这是为了能够发展postgres具有嵌入式功能ruby代码但我一直无法建造它据建议http www robbyonrails com articles 2005 08 22 installing untrusted pl ruby fo
三元赋值的“写出”等价物是什么？

我有一个结构是不可默认构造我想根据条件为该结构的对象分配不同的值由于该结构是非默认构造的因此不可能声明它的统一对象但是可以使用三元来做到这一点 struct foo foo int a foo generateFoo1 retur
Swift 中的抽象类和抽象函数[重复]

这个问题在这里已经有答案了我来自 Java 现在我想在 Swift 中创建抽象类我有这门课Java 我想做同样的事情Swift如果可能的话 abstract class Fetcher private Item items public
调用 android.speech.RecognizerIntent API 会导致连接错误对话框，并在日志中显示“calling_package”警告

我编写了一个小应用程序允许用户通过按钮选择使用语音搜索的语言而不是依赖用户的语言偏好有时您希望用日语进行语音搜索而不将整个 UI 切换为日语我正在我的 HTC Desire Android 2 1 Softbank x06ht 上
GItlab：有什么方法可以选择变量值作为下拉菜单

在 Gitlab ci 中我们声明了变量如下所示 USER NAME value description Enter Username File Name description Enter the file name 它只提供一个文本
删除字符的正确方法是什么**

我有一个 char 基本上是一个字符串数组我需要删除它确保清除所有指针的正确方法是什么经验法则是你需要一个delete or delete 对于每个new or new 您发出的所以如果你这样做 char pp new char N
未找到与 Doctrine2 多态关联的字段

我有一个多态关联类表继承我需要使用 DQL 来查询特定子类的实体可以在 WHERE 子句中使用 x INSTANCE OF Entity 来完成现在我需要为该子类设置特定的条件但我收到此错误类 Person 没有名为 Stude
Nextjs 和 Jest 变换/transformIgnorePatterns 不适用于 esm 模块

我对此进行了大量研究并找到了相当多的解决方案我找到了一种解决方法并希望获得transform and transformIgnorePatterns在职的然而我唯一能做的似乎就是在我的内部手动添加一些模拟模块 mocks fold
如何更改 Android 选项卡小部件的背景？

我的类扩展了 TabActivity TabHost mTabHost getTabHost TabHost TabSpec tab1 mTabHost newTabSpec tab1 TabHost TabSpec tab2 mTabHo
使用 Fluent Api 时复合键 EF Core 出现错误

所以我在 Entity Framework Core 中有以下类我正在尝试进行代码优先迁移但我一生都无法弄清楚如何为这项工作提供流畅的 API public class Participants public Activity Acti
通过网络扫描发现服务器IP地址

我要开发 C 客户端服务器应用程序我需要告诉客户端服务器的 IP 地址是什么它可能来自客户端或服务器广播任何关于这方面的帮助和解决方案都会非常有用如果有一些示例代码那就更好了 Thanks 您可以使用BroadCast方法进行广播
将枚举案例的关联值提取到元组中

我知道如何使用 switch 语句提取枚举案例中的关联值 enum Barcode case upc Int Int Int Int case quCode String var productBarcode Barcode upc 8 1
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我

CUDA全局内存事务的成本

CUDA全局内存事务的成本 的相关文章

随机推荐

热门标签

CUDA全局内存事务的成本的相关文章