CUDA/OpenCL 中的现实死锁示例

2023-12-24

对于我正在编写的教程，我正在寻找一个“现实”且简单的示例，说明由于不了解 SIMT / SIMD 而导致的死锁。

我想出了这个片段，这似乎是一个很好的例子。

任何意见将不胜感激。

…
int x = threadID / 2;
if (threadID > x) {
    value[threadID] = 42;
    barrier();
    }
else {
    value2[threadID/2] = 13
    barrier();
}
result = value[threadID/2] + value2[threadID/2];

我知道，它既不是正确的 CUDA C，也不是正确的 OpenCL C。

新手 CUDA 程序员实际上很容易捕获的一个简单死锁是，当尝试为单个线程实现关键部分时，该死锁最终应该由所有线程执行。它或多或少是这样的：

__global__ kernel() {
  __shared__ int semaphore;
  semaphore=0;
  __syncthreads();
  while (true) {
    int prev=atomicCAS(&semaphore,0,1);
    if (prev==0) {
      //critical section
      semaphore=0;
      break;
    }
  }
}

The atomicCAS指令确保精确的一个线程获得分配给 prev 的 0，而所有其他线程获得 1。当该线程完成其临界区时，它将信号量设置回 0，以便其他线程有机会进入临界区。

问题是，当 1 个线程获取 prev=0 时，属于同一 SIMD 单元的 31 个线程获取值 1。在 if 语句处，CUDA 调度程序将该单个线程置于保留状态（将其屏蔽），并让其他 31 个线程处于等待状态。 - 线程继续工作。在正常情况下，这是一个很好的策略，但在这种特殊情况下，您最终会得到 1 个从未执行的临界区线程和 31 个无限等待的线程。僵局。

另请注意，存在break这导致控制流外部while环形。如果省略break指令并在if块之后添加一些应该由所有线程执行的操作，它实际上可以帮助调度程序避免死锁。

关于问题中给出的示例：在 CUDA 中，明确禁止将__syncthreads()在 SIMD 发散代码中。编译器不会捕获它，但手册中提到了“未定义的行为”。实际上，在费米之前的设备上，所有__syncthreads()被视为相同的障碍。根据这个假设，您的代码实际上会终止而不会出现错误。一应该not不过依赖这种行为。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA/OpenCL 中的现实死锁示例的相关文章

摆脱异步 cuda 流执行期间的忙等待

我正在寻找一种方法如何摆脱以下代码中主机线程中的忙等待不要复制该代码它仅显示我的问题的想法它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
dotNet：有没有办法在 UI 线程上执行 Join 语句？

我正在编写一个简单的线程应用程序当单击开始按钮时应用程序禁用此按钮运行 5 个线程只需进行 For 迭代并更新 5 个进度条最后一个线程正在等待线程结束以重新启用我的开始按钮问题用户看到按钮在进度条达到 100 之前已启用
为什么我应该更喜欢单个“await Task.WhenAll”而不是多个等待？

如果我不关心任务完成的顺序只需要它们全部完成我是否仍然应该使用await Task WhenAll而不是多个await 例如是DoWork2下面是一个首选方法DoWork1 为什么 using System using System
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
从另一个 OpenCL 内核调用 OpenCL 内核

我在这里的一篇文章中看到我们可以从 OpenCL 内核调用函数但在我的情况下我还需要并行化该复杂函数由所有可用线程运行所以我是否也必须将该函数设为内核并像主内核中的函数一样直接调用它或者这种情况有什么可能的解决方案提前致谢
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
在 CUDA 中的设备内存上分配 2D 数组

如何在 Cuda 中的设备内存中分配和传输往返于主机 2D 数组我找到了解决这个问题的方法我不必展平阵列内置的cudaMallocPitch 函数完成了这项工作我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
如何简化 Step Functions 的复杂并行分支相互依赖关系

我的任务是将依赖节点列表转换为 AWS Step Functions AWS Step Function 定义允许并行分支甚至嵌套到多个深度的分支不幸的是它不支持分支中任务之间的依赖关系因此强制您在两个结果可用于步骤函数中的后续任务之
当行大小大于向量宽度时 SIMD 转置

你可以找到很多good https stackoverflow com a 25625919 149138 answers https stackoverflow com a 29587984 149138用于转置一个矩阵该矩阵落在nat
如何在 bash 脚本中使用并行编程/多线程？

这是我的脚本 bin bash script to loop through directories to merge fastq files sourcedir path to source destdir path to dest fo
避免 Python 3 的多处理队列中的竞争条件

我正在尝试找到大约 61 亿自定义物品的最大重量并且我想通过并行处理来完成此操作对于我的特定应用程序有更好的算法不需要我迭代超过 61 亿个项目但解释它们的教科书超出了我的能力范围我的老板希望在 4 天内完成此任务我认为我公
如何使用 OpenMP 并行化数组移位？

如何使用 OpenMP 并行化数组移位我已经尝试了一些方法但没有得到以下示例的任何准确结果该示例旋转 Carteira 对象数组的元素用于排列算法 void rotaciona int i Carteira aux this gt
一维纹理内存访问比一维全局内存访问更快吗？

我正在测量标准纹理和 1Dtexture 内存访问之间的差异为此我创建了两个内核 global void texture1D float doarray int size int index calculate each thread
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
Java 8 Stream - 并行执行 - 不同的结果 - 为什么？

假设我有一个List
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
在 Java 中并行处理两个任务

我想在一个方法中调用8个方法这8个方法中的2个方法是一个洞任务其余6个方法是另一个洞任务我想同时并行处理这两个任务据我所知我可以用线程来做到这一点但说实话要么我看不到与我的目标相似的示例要么即使我看到了我也无法理解该示例您

随机推荐

如果设置 $_SESSION 转到此页面？

好吧这里遇到麻烦了我创建了一个登录脚本因此在一个人登录后他们将被定向到另一个页面而且如果他们尝试访问其他页面之一我会将其重定向到登录页面我的问题是如果用户登录并再次偶然进入登录页面我希望它能够识别用户已登录并将其重定向到
创建新的 MVC 项目时出错 - EF 和 JQuery

每当我创建新的 MVC 项目时我都会收到错误无法为实体框架和 Jquery 初始化 Powershell 主机错误无法从 C Program Files Microsoft ASP NET ASP NET MVC 4 Package
如何让 Elmah 与 ASP.NET 和 IIS 5.1 URL 路由一起使用

我在通过本地 IIS 5 1 Web 服务器运行 ASP NET MVC 应用程序时遇到问题我相信这些问题与 IgnoreRoutes 有关但我似乎无法制作 IgnoreRoute 来解决问题 Problem 我可以查看我的 elmah
Android：如何从 Android 应用程序获取 IP 地址？

是否可以从 Android 应用程序获取 IP 地址我将其在书签中保存了一段时间但从未测试过 http www droidnova com get the ip address of your device 304 html http
如何对 input() 函数中显示的文本应用着色/格式（类似于 print 语句格式）？

我有一个小型游戏应用程序它是从 Windows 控制台 cmd exe 启动的我可以使用 ANSI 转义序列以任何所需的方式格式化文本我也想对文本应用格式input 方法但我还没有找到如何做到这一点的方法这是测试代码 from c
SQL Server 的 timestamp2 在 JDBC 中如何工作？

我在尝试在 SQL Server 2008 中使用 timestamp2 而不是 Timestamp 时遇到了一些麻烦显然 rs getTimestamp 在 timestamp 和 timestamp2 之间有非常不同的行为但是我找
文字轮播交叉淡入淡出效果？

我们正在尝试实现一个简单的文本轮播用几个其他单词替换句子中的单个单词它们将淡入淡出容器宽度应缩小放大以容纳新单词听起来很简单但我们遇到了困难应该像第二行一样工作www branch com http www branch c
Google App Engine (Java) 上的全文搜索

关于这个主题有一些线索但我认为我的用例有些不同我想做的事我的 GAE J 应用程序的全文搜索组件索引大小较小 25 50MB左右我不需要实时更新索引定期重新索引就可以了这是为了自动完成等所以它需要非常快我的印象是在数据存储
在 Servlet 中使用 org.json 会导致 java.lang.ClassNotFoundException: org.json.JSONException

我正在尝试开发一个 servlet 来发送一些 JSON 对象但遇到几个异常我相信我需要添加一些 jar 文件但我不确定是哪个这是 doGet 方法以及我导入的所有内容 import java io IOException impo
更改导航栏按钮项目的标题

let button UIButton button setImage UIImage named coin icon forState UIControlState Normal button addTarget self action
在 docker 容器外部公开日志文件

我有 net core 应用程序其中 Serilog 作为日志框架现在 Serilog 正在记录到文件我想将此文件公开在容器外部并像其他文件一样进行简单的访问我根据 docker compose 参考尝试使用volume和volu
如何将我的电子表格链接到应用制作工具？

我是 App Maker 的新用户刚刚开始使用 Google App Scripts 进行编码所以基本上我对这个主题了解不多今天我正在开发一个已经存在于 Google Sheets 中的应用程序我必须使用应用程序制作工具重新创建它
了解操作系统如何存储/检索 IO 设备输入

我对键盘等 I O 设备如何存储输入以供操作系统或应用程序使用感到有点困惑如果我有一台单处理器单核CPU 的计算机并且当前正在执行的进程是一个游戏那么游戏如何能够感知键盘输入即使按下按键会强制硬件中断从而实现上下文切换然后
在海岸线附近的 ggplot 中选择栅格

所以我有一张绘制加泰罗尼亚气压的地图这是一个特写我现在想选择气压高于 97 kPa 深蓝色的所有观测值并用它们创建一个新的数据框以供进一步分析这是棘手的一点我想选择符合高度过滤器 AAAAND 的观测值并且位于地中海沿岸大多
“AspNetUser”类型上的“Claims”属性不是导航属性

我正在使用 ASP NET Identity 2 2 我正在将 ASP NET 旧成员资格迁移到新的身份系统我正在按照中提到的步骤进行操作本文 http www asp net identity overview migrations m
如何使用 Google Relyparty 禁用用户 Firebase？

我想从我的应用程序中禁用 Firebase 用户但 Firebase 文档只提供了删除用户的选项我认为解决方案就像创建用户一样 https www googleapis com identitytoolkit v3 relyingpar
用于 bash 补全的“have”关键字

Is havebash 中的关键字或者 bash 补全脚本使用非 bash 的语言吗 have gcc gcc 是很常见看 grep have etc bash completion d 我找不到有关我见过的 bash 完成教程的任何信
如何在 R 中为数据框着色

我有以下类型的数据框 gt df V1 V2 V3 V4 V5 1 10 603 3 100 2 1 5 1 2 10 603 3 101 3 2 4 5 3 10 603 3 102 1 3 3 2 4 10 603 1 103 4 4
.NET 中是否存在与 UI 无关的 Point 结构？

我认识几个Point NET 中的结构 System Drawing Point System Windows Point Sys UI Point 但它们都位于高级 UI 库 GDI WPF AJAX 中我需要一个Point我不想将其与
CUDA/OpenCL 中的现实死锁示例

对于我正在编写的教程我正在寻找一个现实且简单的示例说明由于不了解 SIMT SIMD 而导致的死锁我想出了这个片段这似乎是一个很好的例子任何意见将不胜感激 int x threadID 2 if threadID gt x v

CUDA/OpenCL 中的现实死锁示例

CUDA/OpenCL 中的现实死锁示例 的相关文章

随机推荐

热门标签

CUDA/OpenCL 中的现实死锁示例的相关文章