在 CUDA 中，什么是内存合并，它是如何实现的？

2023-12-02

CUDA 全局内存事务中的“合并”是什么？即使读完我的 CUDA 指南后我还是无法理解。怎么做？在CUDA编程指南矩阵示例中，逐行访问矩阵称为“合并”，或者逐列访问矩阵称为合并？哪一个是正确的，为什么？

此信息可能仅适用于计算能力 1.x 或 cuda 2.0。更新的架构和 cuda 3.0 具有更复杂的全局内存访问，事实上，甚至没有为这些芯片分析“合并的全局负载”。

此外，该逻辑可以应用于共享内存以避免存储体冲突。

合并内存事务是一种半扭曲中的所有线程同时访问全局内存的事务。这太简单了，但正确的方法是让连续的线程访问连续的内存地址。

因此，如果线程 0、1、2 和 3 读取全局内存 0x0、0x4、0x8 和 0xc，则它应该是合并读取。

在矩阵示例中，请记住您希望矩阵线性驻留在内存中。您可以按照自己的意愿执行此操作，并且您的内存访问应该反映矩阵的布局方式。所以，下面的 3x4 矩阵

0 1 2 3
4 5 6 7
8 9 a b

可以像这样一行一行地完成，以便 (r,c) 映射到内存 (r*4 + c)

0 1 2 3 4 5 6 7 8 9 a b

假设您需要访问一次元素，并假设您有四个线程。哪些线程将用于哪些元素？可能是

thread 0:  0, 1, 2
thread 1:  3, 4, 5
thread 2:  6, 7, 8
thread 3:  9, a, b

thread 0:  0, 4, 8
thread 1:  1, 5, 9
thread 2:  2, 6, a
thread 3:  3, 7, b

哪个更好？哪个会导致合并读取，哪个不会？

无论哪种方式，每个线程都会进行三次访问。我们先看第一次访问，看看线程是否连续访问内存。在第一个选项中，第一次访问是0、3、6、9。不连续，不合并。第二个选项，是0、1、2、3。连续！合体了！耶！

最好的方法可能是编写内核，然后对其进行分析以查看是否有非合并的全局加载和存储。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

Definition

memoryaccess

在 CUDA 中，什么是内存合并，它是如何实现的？的相关文章

cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题
有条件减少 CUDA

我需要总结一下100000值存储在数组中但带有条件有没有办法在 CUDA 中做到这一点以快速产生结果任何人都可以发布一个小代码来做到这一点吗我认为要执行条件约简您可以直接将条件引入为乘法0 假或1 真加数换句话说假设您希
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
对 CUDA 操作进行计时

我需要计算 CUDA 内核执行的时间最佳实践指南说我们可以使用事件或标准计时函数例如clock 在Windows中我的问题是使用这两个函数给出了完全不同的结果事实上与实践中的实际速度相比事件给出的结果似乎是巨大的我实际上需要这
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多

随机推荐

复制句柄类的 MATLAB 对象

我在 MATLAB 中实现了一个句柄类并尝试通过调用以下两个函数来复制该类的对象 objByteArray getByteStreamFromArray obj newObj getArrayFromByteStream objByteA
3D 中的 Numpy 网格

Numpy 的网格网格对于将两个向量转换为坐标网格非常有用将其扩展到三维空间的最简单方法是什么因此给定三个向量 x y 和 z 构造可用作坐标的 3x3D 数组而不是 2x2D 数组 Numpy 我认为从 1 8 开始现在支持高于
找到噪声图像边缘的最佳方法

我有一个噪声图像如下图所示假设它是高斯噪声目前我使用两个步骤来寻找边缘使用高斯滤波器 G 平滑图像根据方程找到边缘 g 1 1 I G 2 其中 G 是高斯滤波器是控制噪声水平的权重然而高斯滤波器是图像边缘丢失的原因我想
带参数的 Prolog DCG

我不知道如何使用参数来处理 DCG 假设我们想用 DCG 来代表父母和他们的孩子那么我们可以说 father gt Peter mother gt Isabel child gt Guido child gt Claudia verb g
从 JTextPane 中的任何偏移量获取样式

有没有办法得到Style 样式名称或者只是比较是否Style在某个位置JTextPane与我在插入时给文本的样式因为为了我的目的我创建了自定义JTextPane StyledDocument and DocumentFilter 所以我
将输入字符串转换为 float/double C++

所以我知道如何在 C 中执行此操作但不知道如何在 C 中执行此操作我正在尝试将给定用户输入解析为双精度以便稍后进行数学运算但我是 C 新手并且遇到了麻烦帮助 C public static class parse public
gmail api 给出 failedPrecondition 错误

我无法让 gmail api 工作我正在使用 JWT 进行服务器到服务器身份验证 google api python client 1 4 0 httplib2 0 9 oauth2client 1 4 7 pycrypto 2 6 1
如何设置“discrete_distribution”向量 C++

我正在尝试模拟马尔可夫链之类的东西并使用discrete distribution来模拟状态s i到s j的变化但当然这是一个矩阵而不是向量所以我尝试一下 std vector
gcc，内联汇编 - Pushad/popad 丢失？

有什么方法可以避免复制粘贴pushad popad指令体到我的代码中因为 gcc 当前标志 Wall m32 抱怨说 asm pushad 错误没有这样的指令 pushad asm popad 错误没有这样的指令 popad GCC
如何在自定义 JsonConverter 中使用默认序列化

我有一个复杂的对象图我正在使用 Json NET 对其进行序列化反序列化一些对象派生自抽象类因此为了使反序列化正常工作我需要创建一个自定义JsonConverter 它的唯一作用是在反序列化时选择抽象类的适当具体实现并允许 Js
如何修复：异步方法的返回类型必须为 void、Task 或 Task [AppName]

我正在使用 VS Code 并遵循 ASP NET Core EF Core 教程并承认我不太清楚 async await 和 Task 是如何工作的嗯我知道前两个但不知道第三个我第一次实现一个存储库以及与之配套的 Unitof
IP地址？ - 可可

我如何制作一个 GUI 程序只需单击一个按钮即可显示您的 IP 地址拜托没有什么困难的解释我不久前刚刚开始使用 Cocoa Thanks Kevin 您可以通过两种方式获取IP地址 1 如果您想获取当前使用网络上的本地ip地址可以
为什么顶层显示 2 个窗口？

我正在尝试制作一个 tkinter 应用程序当第一个窗口根关闭时它不会关闭所有内容其他窗口我尝试过使用Toplevel 它非常适合其他程序中的弹出窗口但不适用于制作基础级别 from tkinter import top To
尝试使用模板创建类的新实例，出现意外错误

试图做一个B inary S earch Tree 简称BST 使用模板当我尝试创建 BST 的新实例时出现意外错误我希望解决方案不涉及指针因为我想将它们保持在最低限度现在我有 template
Spring Boot StackOverFlowError：空

当我想通过 foreach 循环保存存储库时遇到问题通过 Foreach 循环用户来并将其保存到另一个实体用户类公开课出勤率 Id GeneratedValue strategy GenerationType AUTO private
如何为svg提供响应式设计？

我是拉斐尔的新手我在div里面写了svg标签请参阅此示例http jsfiddle net dhana36 bvs6P 1 使用 CTRL 和 CTRL 你会发现区别 HTML div class outer div
递归思维的算法是什么？（就具体例子而言）

我就是无法理解递归我理解所有概念将解决方案分解为更小的案例并且在一遍又一遍地阅读它们后我可以理解解决方案但我始终无法弄清楚如何使用递归来解决问题有没有系统的方法来提出递归解决方案有人可以向我解释一下他们尝试解决以下递归问题时的思
Android - 动态添加视图到视图中

我有一个视图布局
INNO设置：如何获取主显示器的分辨率？

我正在尝试使用 INNO 编写安装程序脚本但我陷入了困境我需要获取运行安装程序的计算机的屏幕分辨率并使用该值在桌面上创建一个以该分辨率为一的快捷方式的论点我知道如何创建快捷方式但是我不知道如何提取屏幕分辨率以及如何传递该信息可能
在 CUDA 中，什么是内存合并，它是如何实现的？

CUDA 全局内存事务中的合并是什么即使读完我的 CUDA 指南后我还是无法理解怎么做在CUDA编程指南矩阵示例中逐行访问矩阵称为合并或者逐列访问矩阵称为合并哪一个是正确的为什么此信息可能仅适用于计算能力 1 x 或

在 CUDA 中，什么是内存合并，它是如何实现的？

在 CUDA 中，什么是内存合并，它是如何实现的？ 的相关文章

随机推荐

热门标签

在 CUDA 中，什么是内存合并，它是如何实现的？的相关文章