CUDA 矩阵加法时序，按行与按行比较按栏目

2024-05-04

我目前正在学习 CUDA，并正在做一些练习。其中之一是实现以 3 种不同方式添加矩阵的内核：每个元素 1 个线程、每行 1 个线程和每列 1 个线程。矩阵是方阵，并被实现为一维向量，我只需用以下命令对其进行索引

A[N*row + col]

直觉上，由于线程开销，我预计第一个选项是最慢的，第二个选项是最快的，因为单个线程将处理相邻的数据。

在 CPU 上，使用 8000 x 8000 的密集矩阵，我得到：

Adding on CPU - Adding down columns
Compute Time Taken: 2.21e+00 s
Adding on CPU - Adding across rows
Compute Time Taken: 2.52e-01 s

由于更多的缓存命中，速度大约提高了一个数量级。在具有相同矩阵的 GPU 上，我得到：

Adding one element per thread 
Compute Time Taken: 7.42e-05 s
Adding one row per thread 
Compute Time Taken: 2.52e-05 s
Adding one column per thread 
Compute Time Taken: 1.57e-05 s

这对我来说不直观。最后一种情况的 30-40% 加速在大约 1000 x 1000 矩阵以上是一致的。请注意，这些时序仅是内核执行的时序，不包括主机和设备之间的数据传输。下面是我的两个内核进行比较。

__global__
void matAddKernel2(float* A, float* B, float* C, int N)
{
        int row = threadIdx.x + blockDim.x * blockIdx.x;
        if (row < N)
        {
                int j;
                for (j = 0; j < N; j++)
                {
                        C[N*row + j] = A[N*row + j] + B[N*row + j];
                }
        }
}



__global__
void matAddKernel3(float* A, float* B, float* C, int N)
{
        int col = threadIdx.x + blockDim.x * blockIdx.x;
        int j;

        if (col < N)
        {
                for (j = 0; j < N; j++)
                {
                        C[col + N*j] = A[col + N*j] + B[col + N*j];
                }
        }
}

我的问题是，为什么 GPU 线程似乎没有从处理相邻数据中受益，这将有助于它获得更多缓存命中？

GPU 线程确实受益于处理相邻数据，您缺少的是 GPU 线程不是像 CPU 线程那样的独立线程，它们在一个称为 warp 的组中工作。一个 warp 将 32 个线程组合在一起，并以类似于执行宽度 32 的 SIMD 指令的单个 CPU 线程的方式工作。

因此，实际上，每列使用一个线程的代码是最有效的，因为扭曲内的相邻线程正在访问内存中的相邻数据位置，这是访问全局内存的最有效方法。

您将在以下位置找到详细信息CUDA文档 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#simt-architecture.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

CUDA

CUDA 矩阵加法时序，按行与按行比较按栏目的相关文章

无法编译cuda_ndarray.cu：libcublas.so.7.5：无法打开共享对象文件

我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本其中我执行 py
使用 JOIN 或 EXISTS 可以获得更好的性能吗？

我有两个表格机构和结果我想查看机构是否有任何结果这样我就可以排除没有结果的机构使用 JOIN 或 EXISTS 可以获得更好的性能吗谢谢你 Nimesh 根据语句统计信息和数据库服务器这可能没有什么区别可能会生成相同的优
真实文件对象比 StringIO 和 cStringIO 慢？

StringIO其代码中有以下注释 Notes Using a real file is often faster but less convenient There s also a much faster implementation
如何使带有两个for循环的python代码运行得更快（有没有一种python方法可以进行Mathematica的并行化）？

我对 python 或任何此类编程语言完全陌生我对 Mathematica 有一些经验我有一个数学问题虽然 Mathematica 用她自己的并行化方法解决了这个问题但在使用所有核心后系统却变得非常疲惫在跑步过程中我几乎无法
memmove和memcpy在什么平台上可以有显着的性能差异？

我明白那个memmove and memcpy区别在于memmove处理内存重叠情况我检查了 libgcc 中的实现并得到了这篇文章 memcpy性能 http software intel com en us articles memc
SQL Server 2005存储过程性能问题

我遇到以下问题当从我的应用程序调用存储过程时时不时地例如 1000 次调用中的 1 次需要 10 30 秒才能完成通常存储过程的运行时间不到一秒这是一个相当简单的过程只需一个选择即可将几个表连接在一起所有表名都设置有 NO
在 Java 中，对复杂模型使用接口是否会带来性能提升？

标题很难理解但我不知道如何以另一种方式总结欢迎任何澄清的编辑我被告知并建议使用接口来提高性能即使在并不特别需要常规接口角色的情况下也是如此在这种情况下对象是大模型 MVC 意义上的具有许多方法和字段向我推荐的好用处是
代表和结构的速度问题

我遇到了一些与结构和委托有关的速度问题采用以下控制台应用程序代码 public delegate string StringGetter public class LocalString public LocalString string
在循环内部或外部声明本地更好吗？ [复制]

这个问题在这里已经有答案了我习惯这样做 do local a for i 1 1000000 do a
RMI 有多快？

我看到过这样的问题两个独立的 Java 桌面应用程序之间的通信 https stackoverflow com questions 1680898 communication between two separate java deskt
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
ElasticSearch 匹配多个前缀术语

我试图为 ElasticSearch 提供一个包含多个术语的查询然后给出匹配的文档其中指定的术语位于目标字段中的任何位置这些术语可以是完整的单词或单词前缀示例文档 msg 你好我是一条短信示例查询字符串你好消息你好和消息
如何提高 Field.set 的性能（也许使用 MethodHandles）？

我正在编写一些调用的代码Field set https docs oracle com en java javase 11 docs api java base java lang reflect Field html set java l
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
STL 容器速度与数组

我刚刚开始从事一个科学项目其中速度非常重要 HPC 我目前正在设计数据结构该项目的核心是双值 3D 网格以求解偏微分方程由于这里的速度可能比代码的简单性更重要我想知道 STL 与通常的 C 风格数组相比如何执行就我而言因为它是
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
使用map.get()时使用java Map.containsKey()是多余的

一段时间以来我一直想知道在最佳实践中是否允许避免使用containsKey 方法上java util Map而是对结果进行空检查get 我的理由是两次查找值似乎是多余的首先是查找containsKey 然后再次为get 另一方面大多
空 while 循环有什么影响？

我知道这可能是一个有点愚蠢的问题但有时我只想循环直到条件为假但我不喜欢让循环保持为空所以代替 Visible true while IsRunning Visible false 我通常prefer while IsRunnin
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n

随机推荐

如何使用 OR 逻辑（而不是 AND）过滤表列

小提琴示例 http jsfiddle net fks37 我有一个 html 表 A B C D 0 1 0 1 0 1 0 0 1 0 0 1 我要过滤non zero列使用 jQuery dataTables 不是硬性要求只是我当
将文本文件转换为逗号分隔的字符串

我似乎没有找到与这个问题完全匹配的问题我有一个文本文件每行有一个文本标记没有任何逗号制表符或引号我想根据文件内容创建一个逗号分隔的字符串 Input one two three Output one two three 我正在使用
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
你可以将 UIGestureRecognizer 附加到多个视图吗？

UITapGestureRecognizer tapGesture UITapGestureRecognizer alloc initWithTarget self action selector tapTapTap self view1
IE 302 重定向无缓存标头问题

发布信息后返回 302 重定向此重定向旨在重新加载当前页面这一切都工作正常但 IE 在标头中添加了 No Cache Cache Control no cache 我们使用 Squid 来缓存我们的内容并将其放在标头中绕过了鱿鱼由
as3 事件 - 类型强制失败？

我正在将事件从孩子发送到父母 swf 它工作正常直到我使用预加载器 swf 加载父级然后父级停止从子级获取事件我现在收到此错误 TypeError Error 1034 Type Coercion failed cannot conv
生成适用于不同时区和数据的计划

我正在构建一个网络应用程序指导人们早起它会为用户生成七十天内的起床时间表他们输入当前的上升时间和目标上升时间然后上升时间每周减少一定量直到达到目标时间用户必须登录网站并在预定时间签到考虑到当前登录用户的时区和夏令时我对如
如何在 Angular 6 中编辑环境变量而不重建？

我通常将 API URL 设置为environment ts文件我必须将相同的版本部署到具有不同 API URL 的多个客户端目前我正在更改环境变量后进行单独的构建有没有办法在构建后编辑环境变量以便我可以为每个客户端提供相同的构建
什么时候空值在列中“安全”？

设计数据库时是否存在允许列为空与 3nf 规范化的一般经验法则我有一个表其中的列主要由空值 85 组成但表大小不超过 10K 记录不是很大它主要用于日志记录和记录保存因此大多数事务将是插入和选择而不是更新我试图同时考虑性能和
如何删除 RadioListTile 上的内部填充，以便可以连续使用 3 个 RadioListTiles？

我对 Flutter 和 Dart 还很陌生我似乎找不到关于这个特定主题的任何提示我想把 3RadioListTiles in a Row像这样 Row children Expanded child RadioListTile
为什么 Node typescript 项目的 jasmine Karma 单元测试显示覆盖范围包括依赖项？

正如题主所说我们项目的代码覆盖率包括节点依赖但请注意当我们开发和发布它时此 npm 依赖项的源代码也是项目的一部分这是该项目的结构 root main project 业力 conf ts src 和其他要测试并生成覆盖率的文件
反应本机无法解析模块“warnOnce”

我的英语有点生疏对此我很抱歉当我在 iOS 模拟器上启动 React Native 项目时出现错误为了排除与我的代码的任何冲突我开始了一个新项目 react native init demo react native start
向图节点添加标签

我使用 visnetwork 库制作了下图 library tidyverse library igraph set seed 123 n 15 data data frame tibble d paste 1 n relations da
cv2.cv.BoxPoints(rect) 返回什么？

rect cv2 minAreaRect largest contour rect rect 0 0 self scale down rect 0 1 self scale down rect 1 0 self scale down rec
为什么 PackageInfo.signatures 字段是一个数组，什么时候这里会出现除一个值之外的其他值？

我正在相互检查包签名以确定它们是否不兼容针对不同的密钥库进行编译我注意到PackageInfo signatures几乎总是包含单个条目的集合这对我来说很有意义我使用调试或生产密钥库构建应用程序这决定了包的签名这是我此时对 ap
当 mysql_connect 不适用于 IIS 上的 PHP 时，不会返回任何错误消息

我是 PHP 和 MySQL 的新手最近在已经运行 IIS v6 的 Windows Server 2003 服务器上安装了 PHP v5 3 10 和 MySQL v 5 5 21 PHP 运行我已经从 MySQL 5 5 命令行客户
Spring Security - 基于令牌的 API 身份验证和用户/密码身份验证

我正在尝试创建一个主要使用 Spring 提供 REST API 的 Web 应用程序并尝试配置安全方面我正在尝试实现这种模式 https developers google com accounts docs MobileApps h
Terraform 蓝图上的退出条件

我想要一个地形蓝图在顶部满足特定条件时退出 If the var available设置为 false 我希望蓝图停止一切并抛出错误这个的语法是什么我在任何地方的文档文件中都找不到它 terraform 中是否存在此功能注意此代码
需要使用 python(selenium) 抓取通过 ajax 加载的表

我有一个page https seahawks strmarketplace com Charter Seat Licenses Charter Seat Licenses aspx有一个表表 id ctl00 ContentPlaceH
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉

CUDA 矩阵加法时序，按行与按行比较按栏目

CUDA 矩阵加法时序，按行与按行比较按栏目 的相关文章

随机推荐

热门标签

CUDA 矩阵加法时序，按行与按行比较按栏目的相关文章