如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？

2024-01-06

这是 Vulkan 语义（如果有什么不同的话）。

假设如下：

layout(...) coherent buffer B
{
    uint field;
} b;

假设该字段正在被同一着色器（或派生着色器）的其他调用修改atomic*()功能。

如果着色器调用想要从中执行原子读取field（具有相同的语义atomicCounter()在 GLES 中，如果这是atomic_uint相反），以下两者之间有什么区别（除了显然其中一个既可以写也可以读）？

uint read_value = b.field;
uint read_value2 = atomicAdd(b.field, 0);

为了直接回答这个问题，这两行代码生成不同的指令，具有不同的性能特征和硬件管道使用情况。

uint read_value = b.field;                 // generates a load instruction
uint read_value2 = atomicAdd(b.field, 0);  // generates an atomic instruction

AMD拆解可以看这个在线Shader Playground http://shader-playground.timjones.io/0733f88ba4b8ddd197c0242b1273044d -- buffer_load_dword versus buffer_atomic_add
通过微基准测试剖析 NVIDIA Volta GPU 架构 https://arxiv.org/abs/1804.06826 -- LDG versus ATOM

The GLSL规格 https://www.khronos.org/registry/OpenGL/specs/gl/GLSLangSpec.4.40.pdf第 4.10 节内存限定符指出coherent仅涉及跨调用（着色器线程）的读取和写入的可见性。他们还对隐含的性能发表了评论：

当使用未声明为一致的变量访问内存时，着色器访问的内存可能会被实现缓存，以服务将来对同一地址的访问。内存存储可以以这样的方式进行缓存：写入的值对于访问同一内存的其他着色器调用可能不可见。该实现可以缓存由内存读取获取的值，并将相同的值返回到访问同一内存的任何着色器调用，即使自第一次内存读取以来底层内存已被修改。虽然未声明为一致的变量可能对着色器调用之间的通信没有用处，但使用非一致访问可能会带来更高的性能。

GPU 内存系统中的一致性点通常是最后一级缓存（L2 缓存），这意味着所有一致性访问都必须由 L2 缓存执行。这也意味着相干缓冲区无法缓存在 L1 或更靠近着色器处理器的其他缓存中。现代 GPU 还在 L2 缓存中配备了专用的原子硬件；普通负载不会使用这些，但是atomicAdd(..., 0)会经历那些。原子硬件的带宽通常比完整的二级缓存低。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GLSL

Vulkan

如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？的相关文章

如何将 mat4 数组作为统一传递

我必须将 mat4 数组作为统一传递给我的顶点着色器如下所示在顶点着色器中 uniform mat4 u jointMatrix 2 在我的 C 程序中我这样做了 glm mat4 jointM 2 I filled jointM w
WebGL 中的 AlphaFunctions？

是否可以实现透明度低于 0 5 的片段被丢弃而 alpha 高于 0 5 的片段渲染为不透明的效果从我读到的来看 glEnable GL ALPHA TEST glAlphaFunc GL GREATER 0 5 这将是我正在寻找的但
您应该如何有效地批处理复杂的网格？

渲染复杂网格的最佳方法是什么我在下面写了不同的解决方案想知道您对它们有何看法让我们举个例子如何渲染 Crytek Sponza 网格 PS 我不使用Ubershader 只使用单独的着色器如果您通过以下链接下载网格 http gr
glDrawBuffer(GL_NONE) 与 glColorMask 设置为全部 GL_FALSE

glDrawBuffer GL NONE 和 glColorMask GL FALSE GL FALSE GL FALSE GL FALSE 有什么区别两者只是丢弃对颜色缓冲区的任何绘制的另一种方式吗还是有一些差异首先也是最重要的 g
如何在 WebGL 中创建合适的圆角矩形？

我试图实现答案这个问题 https stackoverflow com questions 43970170 bordered rounded rectangle in glsl但似乎有点问题如果您打开他们的 ShaderToys 并尝试
无法将简单的无符号字节 RGB 纹理映射到四边形：

我有一个非常简单的程序将虚拟红色纹理映射到四边形下面是 C 中的纹理定义 struct DummyRGB8Texture2d uint8 t data 3 4 int width int height DummyRGB8Texture2
什么时候关闭光栅化步骤才有意义？

在 vulkan 中有一个创建管道所需的结构名为VkPipelineRasterizationStateCreateInfo 在这个结构体中有一个名为rasterizerDiscardEnable 如果该成员设置为VK TRUE那么在光
如何快速将一个float打包为4个字节？

我一直在寻找一种在 WebGL 纹理上存储浮动的方法我找到了一些解决方案 http aras p info blog 2009 07 30 encoding floats to rgba the final 在互联网上但那些只处理 0
OpenGL 将着色器附加到程序

有没有办法访问附加到程序的着色器也就是说给定一个程序我可以做类似的事情 vertexShader getVertexShaderFromProgram program 我想在验证我的程序的函数中记录着色器编译状态但我只保留对程序的引
GLSL - 计算表面法线

我有一个用 GLSL 编写的简单顶点着色器我想知道是否有人可以帮助我计算表面的法线我正在升级一个平面所以当前的灯光模型看起来很奇怪这是我当前的代码 varying vec4 oColor varying vec3 oEyeNo
即使在顶点着色器中使用，glGetUniformLocation()也会返回-1

我正在尝试用法线渲染一个简单的立方体我使用以下代码来初始化着色器 void initShader const char vertexShaderPath const char fragmentShaderPath cout lt lt I
为什么拥有单独的投影矩阵但结合模型和视图矩阵会有好处？

当您学习 3D 编程时您会被告知用 3 个变换矩阵来思考是最简单的模型矩阵该矩阵对于每个模型都是独立的它根据需要旋转和缩放对象最后将其移动到 3D 世界中的最终位置模型矩阵将模型坐标转换为世界坐标视图矩阵对于大量对象如果不
GL_CULL_FACE使所有对象消失

我正在尝试在 openGL3 3 中创建一些简单的多边形我有两种类型的对象具有以下属性对象 1 10 个顶点按顺序在下面列出存储在GL ARRAY BUFFER并使用GL TRIANGLE FAN v x y z w v 0 0
使用 GLSL 直接在着色器中从位置计算平移矩阵

我正在开发 C OpengL 程序以及 GLSL 顶点和片段着色器我正在创建同一对象的多个实例我只需要改变实例之间的对象位置这是我所做的我正在使用一个统一变量它是一个变换矩阵数组每个矩阵代表一个对象实例 MVP 也是一个变换矩阵
GLSL - 测试片段值

假设你有一个vec3 colourIn从一个vertex shader to a frag shader 有没有办法测试一个值并根据需要覆盖它例如将任何蓝色值大于0 5的片段设置为白色 In my Shader frag我实施了这个测试
在 Vulkan 中，图形队列系列与当前队列系列分离是否有益？

据我所知队列系列可能支持呈现到屏幕但不支持图形假设我有一个同时支持图形和呈现的队列系列以及另一个仅支持呈现的队列系列我应该为两个进程使用第一个队列系列还是应该将第一个队列系列委托给图形将后者委托给呈现或者这两种方法之间没有明显
GLSL 中统一浮点行为和常量浮点行为的不同

我正在尝试在 GLSL 中实现模拟双精度并且观察到一种奇怪的行为差异导致 GLSL 中出现细微的浮点错误考虑以下片段着色器写入 4 浮点纹理以打印输出 layout location 0 out vec4 Output unifor
延迟阴影映射 GLSL

我目前正在实施延迟渲染管道但我仍坚持使用阴影贴图我已经成功地将其实施到前向管道中我所做的步骤是获取灯光视图中的位置转换为光视图剪辑空间使用 0 5 0 5 获取阴影纹理坐标检查深度编辑使用新结果图像更新代码 float c
子组调用索引是否映射到 gl_LocalInitationIndex？

我需要计算吗gl SubgroupID gl SubgroupSize gl SubgroupInvocationID 或者我可以使用gl LocalInvocationIndex 单个子组内的调用是否连续gl SubgroupInvoca
GLSL memoryBarrierShared() 有用吗？

我想知道 memoryBarrierShared 的用处事实上当我查找屏障功能的文档时我读到对于计算着色器中任何给定的静态屏障实例单个工作组内的所有调用都必须进入该实例然后才能允许任何调用继续超出该实例这确保了在给定的屏障静态

随机推荐

使用 Linq 从 3 个集合创建项目

我有 3 个收藏品数量完全相同我需要根据这 3 个集合项值创建一个新集合示例 List
编写 makefile 时如何在退出时终止子进程？

生成文件 default command1 command2 When I run make and hit Control C command1 and command2 continue running How can I make i
Perforce：防止 Perforce 更改文本文件格式

有没有办法告诉 Perforce 保留文本文件而不将文件类型设置为二进制或者除此之外有没有办法告诉 Perforce 客户端比较二进制文件二进制通常是不可取的因为我失去了区分的能力澄清一下如果我在 Windows 客户端上编辑并
Docker 机器超时 - 如何在不破坏机器的情况下修复？

我的 Docker Machine 经常出现问题每隔几天它就会超时一旦发生这种情况我就无法恢复它 Example docker machine ls NAME ACTIVE DRIVER STATE URL SWARM DOCKER E
如何启用 stacktrace react-native run-android 命令？

我正在通过以下方式运行一个反应本机项目react native run android 但在构建过程中它没有说明这一点 react native device info processReleaseResources FAILED 这没有提
C# 中的多行正则表达式[重复]

这个问题在这里已经有答案了如何在多行模式下使用正则表达式匹配和替换文本我知道正则表达式选项多行 https msdn microsoft com en us library yd1hzczs 28v vs 110 29 aspx选项
如何预编译handlebars.js 的部分内容？

我正在使用handlebars js 我想开始预编译所有内容但我似乎找不到预编译部分的方法我的大部分模板实际上都是部分模板我尝试将它们视为常规模板但随后将它们称为部分模板则不起作用有没有办法预编译部分或者从另一个模板中调用一个模
无法将 null 插入 sql server 中的日期时间

我试图将 null 与我的查询插入到允许 null 的日期时间列中我的查询工作正常我认为但它将 1900 01 01 00 00 00 000 而不是 null 放入日期时间列中为什么会发生这种情况以及如何解决它我创建了自己的表来
通过后面的代码更新 WPF DataGrid 列标题文本

如何通过后面的代码更改 WPF DataGrid 列标题文本我尝试了下面的代码但它不起作用 this sampleDataGrid Columns 0 Header New Header this sampleDataGrid Refr
Instagram API - 神秘的响应；不确定是否有效并且无法用这个测试omniauth

我正在开发一个 Rails 应用程序该应用程序需要使用omniuth 登录 Instagram 这是我第一次使用 Instagram 的 OAuth 端点目前尚不清楚它是否有效项目经理也不清楚我将他们的 cURL 实现与以下内容一起
将笑话日志参数传递到导致测试失败的函数中

我正在编写一系列笑话测试脚本为了使代码更紧凑我将它们放入一个数组中 test buttonPadding function const expectedResults iconPosition center small true exp
使用授权管理器 (AzMan) 获取属于某个角色的用户列表

我使用 ASP NET C 设置了授权管理器以允许我处理网站上的角色将用户添加到角色很简单Roles AddUserToRole DOMAIN UserName role 不过我想列出属于某个角色的用户但由于它们存储为 SID 因此
无法在 Google Play Console 中发布应用的初始版本

当我尝试在 Google Play Console 中发布版本时我不断收到此错误 Your app cannot be published yet Complete the steps listed on the Dashboard 是的
如何让 ipywidgets 在 Jupyter Lab 中工作？

在 Jupyter Notebook 中 ipywidgets 工作正常但它们似乎在 Jupyter Lab 中不起作用据说比 Notebook 更好我遵循了这些方向 https ipywidgets readthedocs io e
什么加载 Java 系统类加载器？

我们知道我们可以覆盖系统类加载器 http docs oracle com javase 7 docs api java lang ClassLoader html with java Djava system class loader c
如何在 iText 7 中创建/设置表格单元格和边框的自定义颜色？

我需要创建一个具有自定义颜色单元格和边框的表格里面定义了几个常量Color类但我需要自定义颜色我需要 a6cb0b 作为标题和边框线的背景颜色颜色代码为 cccccc 我该如何设置它们 Table table new Table n
JavaScript 中以字母作为键的关联数组

我希望创建一个以字母作为键的 JavaScript 对象关联数组实现这一目标的最佳方法是什么例子 obj a somevalue obj b somevalue obj z some value 动态分配字母作为键这是创建对象的快速
Firebase - Geofire 和云功能。功能结束是否意味着不再有听众？

在我的云函数中index js文件中我有以下函数体 exports onSuggestionCreated functions firestore document suggestions userId onCreate event gt
使用 VBScript 以独占模式打开 Excel 文件

我有一个简单的问题但我搜索过这个并找不到任何有用的主题我正在开发一个 VBScript 它打开一个 Excel 文件并修改其中的一些内容所以我使用以下代码 Set objXLApp CreateObject Excel Applica
如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？

这是 Vulkan 语义如果有什么不同的话假设如下 layout coherent buffer B uint field b 假设该字段正在被同一着色器或派生着色器的其他调用修改atomic 功能如果着色器调用想要从中执行原子读

如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？

如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？ 的相关文章

随机推荐

热门标签

如果“buffer”是“coherent”，那么读取字段或执行“atomicAdd(field, 0)”之间有什么区别吗？的相关文章