如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

2023-12-11

我在读专业CUDA C编程，并在GPU 架构概述部分：

CUDA 采用单指令多线程 (SIMT) 架构来管理和执行 32 个线程组（称为 warp）。 warp 中的所有线程同时执行相同的指令。每个线程都有自己的指令地址计数器和寄存器状态，并根据自己的数据执行当前指令。每个 SM 将分配给它的线程块划分为 32 线程线程束，然后调度这些线程束在可用硬件资源上执行。

SIMT 架构类似于 SIMD（单指令、多数据）架构。 SIMD和SIMT都通过将相同的指令广播到多个执行单元来实现并行性。一个关键的区别是 SIMD 要求向量中的所有向量元素在统一的同步组中一起执行，而 SIMT 允许同一 warp 中的多个线程独立执行。尽管 warp 中的所有线程都在同一程序地址处一起启动，但各个线程也可能有不同的行为。 SIMT 使您能够为独立的标量线程编写线程级并行代码，以及为协调线程编写数据并行代码。 SIMT 模型包含 SIMD 所不具备的三个关键功能：
➤ 每个线程都有自己的指令地址计数器。
➤ 每个线程都有自己的寄存器状态。
➤ 每个线程可以有独立的执行路径。

第一段提到“All threads in a warp execute the same instruction at the same time.”，而在第二段中，它说“Even though all threads in a warp start together at the same program address, it is possible for individual threads to have different behavior.”。这让我很困惑，上面的说法似乎很矛盾。谁能解释一下吗？

这并不矛盾。 warp 中的所有线程始终以锁步方式执行相同的指令。为了支持条件执行和分支，CUDA 在 SIMT 模型中引入了两个概念

谓词执行（参见here)
指令重放/序列化（参见here)

谓词执行意味着条件指令的结果可用于屏蔽线程执行后续指令而无需分支。指令重放是处理经典条件分支的方式。所有线程通过重放指令来执行条件执行代码的所有分支。不遵循特定执行路径的线程将被屏蔽并执行相当于 NOP 的操作。这就是CUDA中所谓的分支发散惩罚，因为它对性能影响很大。

这就是锁步执行如何支持分支。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？的相关文章

具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
在没有 SurfaceView 的 Android 上获取 GPU 信息

在Android上有没有一种方法可以在不创建SurfaceView的情况下获取GPU信息我不想使用 OpenGL 绘制任何内容但我只需要获取硬件信息例如供应商 OpenGL ES 版本可用扩展等抱歉我不知道如何在 Androi
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
UnimplementedError：图形执行错误：在张量流上运行 nn

我一直遇到这个错误我不知道为什么特别是因为我完全遵循某人的代码并且该人在运行此错误时没有错误 img shape 128 128 3 load pretrained model base model tf keras applicati
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
摆脱异步 cuda 流执行期间的忙等待

我正在寻找一种方法如何摆脱以下代码中主机线程中的忙等待不要复制该代码它仅显示我的问题的想法它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
在 CUDA 中的设备内存上分配 2D 数组

如何在 Cuda 中的设备内存中分配和传输往返于主机 2D 数组我找到了解决这个问题的方法我不必展平阵列内置的cudaMallocPitch 函数完成了这项工作我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
无法编译cuda_ndarray.cu：libcublas.so.7.5：无法打开共享对象文件

我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本其中我执行 py
对 CUDA 操作进行计时

我需要计算 CUDA 内核执行的时间最佳实践指南说我们可以使用事件或标准计时函数例如clock 在Windows中我的问题是使用这两个函数给出了完全不同的结果事实上与实践中的实际速度相比事件给出的结果似乎是巨大的我实际上需要这
一维纹理内存访问比一维全局内存访问更快吗？

我正在测量标准纹理和 1Dtexture 内存访问之间的差异为此我创建了两个内核 global void texture1D float doarray int size int index calculate each thread
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl

随机推荐

正在加载 Apple Pay 送货地址无街道

我正在尝试从以下地址中提取送货地址ABRecordRef由苹果公司提供我有以下内容但我的街道总是返回nil ABMultiValueRef addresses ABRecordCopyValue abRecordRef kABPerso
如何使用 P3D 渲染器实现 noSmooth()？

我想使用 P3D 渲染器通过 PGraphics 实例渲染基本的 3D 形状而无需任何锯齿平滑但 noSmooth 似乎不起作用在 OF 我记得打电话给setTextureMinMagFilter GL NEAREST GL NEA
在没有公共块的情况下通过子例程将一组变量值传递给函数有哪些方法？

我不想在我的程序中使用公共块我的主程序调用一个子例程该子例程调用一个函数该函数需要来自子例程的变量将信息集从子例程传递到函数有哪些方法 program call CONDAT i j end program SUBROUTINE C
未安装新组件的文件，因为旧组件具有相同的文件

我们遇到重大更新时未安装文件的问题我们有一个重大更新
如何在 Swift 中为 Int 数组（自定义字符串结构）实现 Hashable 协议

我正在制作一个结构其作用就像String 不同之处在于它仅处理 Unicode UTF 32 标量值因此它是一个数组UInt32 See 这个问题了解更多背景我想做的事我希望能够使用我的自定义ScalarStringstruct
如何防止Windows进入空闲状态？

我正在开发一个 C 应用程序该应用程序在后台运行无需任何 Windows 控件我想通知 Windows 我的应用程序仍然处于活动状态以防止 Windows 进入空闲状态是否有任何 API 可供我的应用程序调用以通知 Window
Numba 并行代码比顺序代码慢

我是 Numba 新手我正在尝试使用 Numba 版本 0 54 1 在 Python 中实现旧的 Fortran 代码但是当我添加parallel True程序实际上变慢了我的程序非常简单我更改 L x L 网格中的位置 x 和
是否可以在 Header 之外添加 CSS 规则？ [复制]

这个问题在这里已经有答案了可能的重复在 HTML 页面的 HEAD 元素之外声明 CSS 样式我正在创建一些在 CMS 内使用的内容但我无权访问标头标签有没有办法在里面添加CSS规则文件的我想做这个 ClassName bord
使用服务器“不兼容的魔法值 1013478509”启动时 java 小程序失败

我的小程序有问题我有一个学校项目我要制作一款乒乓在线游戏它离线运行良好但当我尝试从服务器加载它时我只是得到一个空框架其中有红色文本当我单击文本时我收到消息不兼容的魔法值 1013478509 我正在使用 jetty all
如何在 python pandas 中转换时间列并查找具有条件的时间增量

我有一个非空对象的时间列我无法将其转换为 timedelta 或 datetime Time msg 12 29 36 306000 Setup 12 29 36 507000 Alerting 12 29 38 207000 Servi
TSQL Msg 1013“使用相关名称来区分它们。”

我看了很多建议在过去的两个小时里不知道如何解决这个问题 SET DATEFORMAT DMY DECLARE Source DATETIME 01 01 2001 DECLARE Destenaition DATETIME 01 01 2
Java 中的链接方法很慢吗？

假设我有一个对象A哪个可以调用getB call getC call getD 调用 doSomething 现在我想使用一些方法D在我的应用程序中多次即 A getB getC getD doSomething1 A getB getC
如何在Java中打开txt文件并读取数字

如何打开 txt 文件并将由输入或空格分隔的数字读取到数组列表中读取文件将每一行解析为一个整数并存储到一个列表中 List
如何更改 stderr 中的 java 日志记录控制台输出以使其脱颖而出？

我正在使用标准ConsoleHandler from java util logging默认情况下控制台输出定向到错误流即System err 如何将控制台输出更改为输出流即System out 我已经到达 SimpleFormatt
当 JsonConstructor 参数名称与 JSON 不匹配时如何抛出异常？

我正在反序列化一堆 C 只读结构它们的构造函数标记为 JsonConstructor 如果我收到的任何 JSON 格式错误我会尝试尽早失败不幸的是如果构造函数参数和输入 JSON 之间存在命名差异则该参数只会被分配一个默认值有没
如何将调试器附加到 Web 服务？

我正在使用网络服务谁能告诉我如何调试它附加到正在执行应用程序池的 w3wp exe 实例
发布管道无权执行操作“Microsoft.Web/sites/config/list/action”

我有一个 DevOps 发布管道通过虚拟机上的 CLI 愉快地推送到开发资源组当我添加一个阶段推送到相同的 QA 资源组时我得到以下结果错误 AuthorizationFailed 对象 ID 为的客户端无权在范围 subscr
在jQuery中，如何高效地添加大量元素？

我目前有真值表生成器的草图虽然它工作得很好但速度相当慢我添加到的每个布尔值组合 table 使用 jQuery 对于每个值有一个 td 元素由 jQuery 创建然后添加到 table 此外我使用 jQuery UI 来制作漂亮
如何知道堆栈函数消耗了多少？

最近我在采访中遇到了这样一个问题我们如何确定特定函数消耗了多少堆栈存储空间众所周知堆栈是平台的实现细节无法从语言本身内部检查或以任何方式查询本质上不可能保证 C 或 C 程序的任何部分是否可以进行另一个函数调用堆栈大小或者
如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

我在读专业CUDA C编程并在GPU 架构概述部分 CUDA 采用单指令多线程 SIMT 架构来管理和执行 32 个线程组称为 warp warp 中的所有线程同时执行相同的指令每个线程都有自己的指令地址计数器和寄存器状态并根据自己

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？ 的相关文章

随机推荐

热门标签

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？的相关文章