GPU渲染管线之旅|08 Pixel Shader

2023-05-16

在这一部分中,我们来谈谈像素处理的前半部分:dispatch和实际的像素着色。事实上,这部分是大多数图形开发者在谈到PS stage时所关心的内容。有关alpha blendLate-Z的内容则会下一篇文章中去探讨。后面我们会看到,在硬件的设计上PS stage相对是比较复杂的。这也是像素处理分成两篇来写的原因。在进入这个阶段的时候,从raster或者early-z传入的信息包括:shader的像素坐标(实际上是小的四方块)和相关的覆盖遮罩。三角形的顺序与上层软件应用程序提交的完全相同,和我们在上次中看到的那样。我们在这里需要做的是将线性的,连续的工作流同时分配到数百个着色器单元中,然后等待这些着色器单元返回结果,一旦他们返回结果,我们就将它们再合并到一条线的内存流中。

从上面的描述中可以看到,这是典型的fork/join-parallelism示例。这篇文章我们要探讨的fork这半部分内容,也就是将工作流分配给大量的着色器单元。下一篇在去看join合并阶段(将数百个流合并为一个流)。在进入到PS stage之前对于光栅化还有点内容需要补充一下,因为我刚才说的只有一个四轴流进入的情况并不完全正确。

1. 光栅化:开始即分开

在我看来,我告诉你的在很长一段时间内都是正确的,但是这是一个管道的串行部分,一旦你在一个问题上抛出超过300个着色器单位,管道的串行部分就有成为瓶颈的趋势。

所以GPU的架构们开始使用多光栅的方式;截至到2010年,NVidia使用的是四个光栅化引擎。下图就是Fermi GF100的架构。
nv
AMD则是使用两个光栅化引擎,对于下图中的Tera Scala2,它有两个通用的Shader Engine,而每个Shader Engine都包含有一个光栅化引擎。
amd
从NV的演示文稿中可以看到一些关于保持API顺序要求的注释。特别是,在光栅化/early-Z之前,你需要对Primitive进行排序,就像我上次提到的:在alpha blend之前这样做是行不通的。

光栅化器之间的工作分配是基于我们在early-Z和粗光栅化中看到的tile。帧缓冲区被划分为瓦片大小的区域,每个区域被分配给一个光栅化器。设置完成后,参考三角形的边界框,确定哪些三角形交给哪个光栅化器;大三角形总是会被发送给所有的光栅化器,但是小三角形只会被发送到一个小块,并且只会被发送给拥有它的光栅化器。

这个方案的美妙之处在于,它只需要改变工作分布和粗光栅(遍历瓦片);只看到单个块或四边形(即从层次化Z向下的管道)的所有东西都不需要修改。问题是你现在是根据屏幕位置来划分作业;这可能会导致光栅器之间严重的负载不平衡(想象一下在一个平铺中有几百个小三角形),你真的不能做任何事情。但是好的方面是,所有添加到管道的顺序约束(Z-test/write顺序,blend顺序)都会附加到特定的帧缓冲区位置,所以屏幕空间的细分工作不会破坏API的顺序——如果不是这样,平铺渲染器就不会工作。

2. 再一次分散开

好的,我们得到的不是一个线性的四坐标流加上遮罩,而是在2到4之间。我们仍然需要将它们分配给数百个着色器单位。该是另一个派遣单位的时候了!这首先意味着另一个缓冲。但是我们发送到着色器的批次有多大?这里我再一次用英伟达的数字,仅仅因为他们在公共白皮书中提到了这个数字;AMD可能也在某处声明了这些信息,但我不熟悉他们的术语,所以我不能做一个直接搜索它。无论如何,对于NVidia,分配到着色单元的单位是32个线程,他们称之为“扭曲”。每个四4像素(每个反过来可以作为一个线程处理),所以对于每个阴影批处理我们的问题,我们需要抓住8传入四胞胎的光栅化程序之前我们可以寄出一批着色器单元(我们可以发送更少,以防有一个着色器开关或管道冲洗)。

同时,这也是解释为什么我们处理的是2×2像素的四块而不是单个像素的一个好点。主要原因是衍生品。纹理采样器依赖于纹理坐标的屏幕空间导数来进行mip-map选择和过滤(正如我们在第4部分中看到的);并且,在shader model 3.0及以后版本中,同样的机制以派生指令的形式直接用于像素着色器。在一个四边形中,每个像素在同一四边形中具有一个水平和垂直邻居;这可以用来估计参数在x和y方向上的导数,使用有限差分(它可以归结为几个减法)。这给了你一个非常便宜的方法来得到衍生物,代价是总是不得不在一次阴影组2×2像素。这在大三角形的内部没有问题,但这意味着25-75%的四边形的阴影工作被浪费了。这是因为四边形中的所有像素,甚至是遮罩的像素,都被着色了。这对于为可见的四边形像素生成正确的导数是必要的。不可见但仍然有阴影的像素被称为“辅助像素”。下面是一个小三角形的例子:

在这里插入图片描述

三角形与4个四边形相交,但只在其中3个四边形中产生可见像素。此外,在这3个四边形中,只有一个像素被实际覆盖(每个像素区域的采样点被描绘成黑色的圆圈)——被填充的像素被描绘成红色的。在每个部分覆盖的四边形中剩余的像素是辅助像素,用较浅的颜色绘制。这张图应该清楚地说明,对于小三角形,阴影的像素总数中很大一部分是辅助像素,这引起了一些关于如何合并邻近三角形的四块的研究。然而,尽管这样的优化很聪明,但当前的API规则不允许这样的优化,当前的硬件也不允许这样做。当然,如果HW供应商在某种程度上认为浪费在四轴上的阴影工作是一个严重的问题,这很可能会改变。

3. 属性插值

像素着色器的另一个特色是属性插值——所有其他材质类型,都到目前为止我们看到的(VS)和那些我们还谈论(GS、HS DS, CS)输入之前直接从材质阶段或内存,但是像素着色器有一个额外的插值一步在他们面前。在前面讨论Z时,我已经讨论过一点,它是我们看到的第一个内插属性。

其他插值属性的工作方式大致相同;平面方程是计算在三角形设置(gpu可以选择推迟这个计算,例如,直到知道至少有一个三角形的瓷砖层次z检验通过,但不得关注我们这里),然后在像素阴影,有一个独立的单元,执行属性插值使用像素位置的四胞胎和飞机方程计算。

更新:Marco Salvi指出(在下面的评论中),虽然曾经有专门的插值器,但现在的趋势是让它们返回质心坐标,代入平面方程。实际的计算(每个属性两次乘法)可以在着色器单元中完成。

所有这些都不足为奇,但是还有一些额外的插值类型需要讨论。首先,有“常量”插值器,它在整个原语中都是常量,并从“主要顶点”(在原语设置过程中确定的顶点)获取每个顶点属性的值。硬件要么有一个快速路径,要么只是建立一个相应的平面方程;两种方式都很好。

然后是无透视插值。这通常会建立不同的平面方程;对于基于X的插值,通过将每个顶点的属性值除以相应的w来建立透视校正插值的平面方程,对于质心插值,通过构建三角形边向量来建立平面方程。然而,对于基于X的插值,在不将每个顶点的值除以相应的w的情况下,当建立平面方程时,非透视插值属性的值是最便宜的。

4. “质心”插值是棘手的

接下来,我们有“质心”插值。这是一个标志,不是一个单独的模式;它可以与透视和无透视模式相结合(但不能与恒定插值,因为它将毫无意义)。它的命名也很糟糕,而且除非启用了多重采样,否则它是不操作的。对于多重采样的ob来说,这是一个解决实际问题的有点粗糙的解决方案。问题是,在多采样中,我们在光栅化器的多个采样点上评估三角形的覆盖率,但我们只对每个像素做一次实际的着色。纹理坐标等属性将被插值到像素的中心位置,就好像整个像素都被原语覆盖了一样。这可能会在以下情况下导致问题:
在这里插入图片描述
这里,我们有一个被原语部分覆盖的像素;四个小圆描述了4个采样点(这是默认的4x MSAA模式),而中间的大圆描述了像素中心。注意,大圆在原语之外,任何“插值”的值实际上都是线性外推;例如,如果应用程序使用纹理地图集,这就是一个问题。根据三角形的大小,像素中心的值可能会非常远。质心采样解决了这个问题。最初的解释是,GPU获取原语覆盖的所有样本,计算它们的质心,并在那个位置采样(因此名字)。通常,这只是一个概念模型,gpu可以自由地做不同的事情,只要他们为采样选择的点在原语之内。

如果您认为硬件不太可能真正计数所覆盖的样本,那么将它们相加,然后除以计数,然后加入俱乐部。下面是实际发生的情况:

如果所有的采样点都覆盖了原语,那么就像往常一样在像素中心(即所有合理的采样模式的所有采样位置的质心)进行插值。
如果不是所有的样例点都覆盖这个三角形,硬件会选择其中的一个样例点,并在那里进行计算。所有被覆盖的样本点(根据定义)都在原语内,因此可以工作。

这种选择过去是任意的(即留给硬件);我相信DX11现在已经确切地规定了它是如何完成的,但这更多的是在不同的硬件之间获得一致的结果,而不是API用户真正关心的事情。如上所述,这有点奇怪。对于部分覆盖像素的四轴飞行器,它还会搞砸导数计算——真倒霉。我能说的是,它可能是工业强度的胶带,但它仍然是胶带。

最后(DX11中的新特性!)有一个“拉模型”属性插值。常规的属性插值是在像素着色器开始之前自动完成的;拉模插值添加了实际的指令,做插值到像素着色器。这允许着色器计算它自己的位置来采样值,或者只在一些分支中插入属性,而不在其他分支中。它可以归结为像素着色器能够发送额外的请求到插值单元,而着色器正在运行。

5. 实际的着色器体

再一次,一般的着色器原则在API文档中有很好的解释,所以我不打算讨论单个指令是如何工作的;一般来说,答案是“如你所料”。然而,关于像素着色器的执行还有一些有趣的细节值得讨论。

第一个是:纹理采样!等等,在第4部分中我不是已经花了很长时间在材质采样器上了吗?是的,但那是纹理采样方面的事情-如果你还记得,有一点关于纹理缓存错过是如此频繁,采样器通常被设计为维持至少一次错过主存的请求(16-32像素,记住!)而不会中断。那么多循环,上百个循环。这将是一个巨大的浪费,完美的ALUs,让他们闲置,而所有这些都在进行。

所以着色单元实际上做的是在他们发布了纹理样本之后切换到不同的批处理;然后当批处理发出纹理样本(或完成)时,它切换回先前的批处理并检查纹理样本是否存在。只要每个着色器单位有一些批次,它可以在任何给定的时间工作,这就充分利用了可用的资源。但是,它确实增加了完成单个批的延迟——同样,这是延迟与吞吐量之间的权衡。现在你应该知道哪一方在gpu上获胜了:吞吐量!总是这样。这里需要注意的一点是,同时保持多个批(在NVidia硬件上称为“Warps”,在AMD称为“wavefront”)运行需要更多的寄存器。如果一个着色器需要很多寄存器,一个着色器单元可以保持较少的扭曲;如果有较少的他们,在某些点上你会跑完没有等待纹理结果的可运行批的机会是更高的。如果没有可运行的批,您就不走运了,必须暂停,直到其中一个批获得结果为止。这是很不幸的,但是在这种情况下,硬件资源是有限的——如果内存不足,那么内存就会不足。

另一点我还没有谈到:动态分支着色器(即循环和条件)。在着色单元中,每批处理的所有元素的工作通常是同步进行的。所有“线程”在同一时间运行相同的代码。这意味着ifs有点棘手:如果任何线程想要执行的“那么”分支,如果他们需要,尽管他们中的大多数可能会忽略结果使用一种称为预测的技术,因为他们不想下那里的. .“else”分支也是类似的。如果条件语句在元素之间是连贯的,那么它就很有用;如果条件语句或多或少是随机的,那么它就不那么有用了。最坏情况下,你总是会执行每个if的两个分支。哎哟。循环的工作原理类似——只要至少有一个线程想要继续运行一个循环,那么批处理/Warp/Wavefront中的所有线程都会这样做。

另一个特定的像素着色器是丢弃指令。一个像素着色器可以决定“杀死”当前的像素,这意味着它不会被写入。同样,如果一个批处理中的所有像素都被丢弃,着色单元可以停止并转到另一个批处理;但如果至少有一根线还在,其余的就会被拖走。DX11在这里添加了更多的细粒度控制,通过从像素着色器写入输出的像素覆盖(这总是与原始的三角形/Z-test覆盖进行沙子处理,以确保一个着色器不能写入它的原语之外,为了健康)。这允许着色器放弃个别样本而不是整个像素;例如,它可以用来在着色器中使用自定义的抖动算法来实现Alpha-to-Coverage。

像素着色器也可以写入输出深度(这个特性已经存在了很长一段时间了)。根据我的经验,这是一种很好的方法,可以降低早期Z、分层Z和Z压缩,并且通常可以获得最慢的路径。到目前为止,您已经足够了解这些东西是如何工作的了。😃

像素着色器产生几个输出——一般来说,每个渲染目标有一个4分量的矢量,(目前)最多可以有8个。着色器然后将结果发送到管道,D3D称之为“输出合并”。这是我们下次的话题。

但在我结束之前,还有最后一件事,像素着色器可以做,从D3D11开始:他们可以写无序访问视图(无人机)-这只有计算和像素着色器可以做。一般来说,在计算着色器执行过程中,无人机代替了渲染目标;但与渲染目标不同,着色器可以确定写入自身的位置,并且没有隐含的API顺序保证(因此名称中的“无序访问”部分)。现在,我只会提到这个功能的存在-当我开始计算着色器时,我会更多地谈论它。

更新:在评论中,史蒂夫给了我一个提醒关于正确的AMD术语(的第一个版本后没有“时”的名字,因为我不记得它)也发布了一个链接到这个伟大的演讲Kayvon Fatahalian解释着色器执行在gpu上,有很多更漂亮的图片,我可以打扰)。如果你对着色器核心的工作方式感兴趣,你应该去看看它。

和…就是这样!这次没有太多的警告。如果这里遗漏了什么,那是因为我真的忘记了它,而不是因为我觉得它太神秘或太具体而不能在这里写出来。请随意在评论中指出遗漏之处,我会看看我能做些什么。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GPU渲染管线之旅|08 Pixel Shader 的相关文章

  • DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

    我是 directx 的新手 但令我惊讶的是 我看到的大多数示例中 世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘 而不是与 CPU 相乘并将结果传递给着色器 对于刚性对象 这意味着您为对象的每个顶点将相同的两个矩阵相乘一次 我知道 GP
  • C# - 获取 GPU 的总使用百分比

    我正在向我的程序添加一些新功能 这些功能当前通过串行连接将 CPU 使用情况和 RAM 使用情况发送到 Arduino 请参阅this https create arduino cc projecthub thesahilsaluja cp
  • iOS 上的 OpenCV - GPU 使用情况?

    我正在尝试开发一个 iOS 应用程序 可以对来自相机的视频执行实时效果 就像 iPad 上的 Photobooth 一样 我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成 我担心 iOS 上的性
  • Unity3D:在 AA 解析后绘制粒子以提高性能

    我正在尝试评估 MSAA 对 Unity 中含有大量粒子的场景的影响 为此 我需要 使用 8x MSAA 绘制场景中的所有非粒子对象 使用上一个通道中解析的深度缓冲区来渲染所有 将非遮挡粒子系统转移到较小的渲染目标上 将 2 的颜色缓冲区与
  • 从 CUDA 设备写入输出文件

    我是 CUDA 编程的新手 正在将 C 代码重写为并行 CUDA 新代码 有没有一种方法可以直接从设备写入输出数据文件 而无需将数组从设备复制到主机 我假设如果cuPrintf存在 一定有地方可以写一个cuFprintf 抱歉 如果答案已经
  • 如何读取 GPU 负载?

    我正在编写一个程序 用于监控计算机的各种资源 例如CPU使用率等 我还想监控 GPU 使用情况 GPU 负载 而不是温度 using System using System Collections Generic using System
  • 更改 Qt OpenGL 窗口示例以使用 OpenGL 3.3

    我正在尝试更改 Qt OpenGL 示例以使用更现代的 opengl 版本 330 似乎合适 所以我做了 在 main cpp 上设置版本和配置文件 设置着色器版本 更改着色器以使用统一 它现在构建没有任何错误 但我只看到一个空白窗口 我错
  • 错误:分配具有形状的张量时出现 OOM

    在使用 Apache JMeter 进行性能测试期间 我面临着初始模型的问题 错误 分配形状为 800 1280 3 和类型的张量时出现 OOM 通过分配器浮动在 job localhost replica 0 task 0 device
  • TensorFlow的./configure在哪里以及如何启用GPU支持?

    在我的 Ubuntu 上安装 TensorFlow 时 我想将 GPU 与 CUDA 结合使用 但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
  • 在 C++ GPGPU 库中嵌入 cg 着色器

    我正在编写一个 GPGPU 流体模拟 它使用 C OpenGL Cg 运行 目前 该库要求用户指定着色器的路径 然后从中读取它 我发现必须在我自己的项目和测试中指定这一点非常烦人 因此我希望将着色器内容与其余内容链接起来 理想情况下 我的
  • 在没有 SurfaceView 的 Android 上获取 GPU 信息

    在Android上 有没有一种方法可以在不创建SurfaceView的情况下获取GPU信息 我不想使用 OpenGL 绘制任何内容 但我只需要获取硬件信息 例如供应商 OpenGL ES 版本 可用扩展等 抱歉 我不知道如何在 Androi
  • 在 Ubuntu 中与未编译的着色器链接

    我需要加载 glsl 来绘制一些东西 我的环境是Ubuntu 13 04 因此它不存在GLuint InitShader GLuint GLuint 这是我的对象创建 预链接步骤和链接的配置 不幸的是 它仍然出现错误 该错误与未编译的着色器
  • 如何将 asm 着色器编译为 fxo 文件?

    我有一个已编译的 fxo 着色器 我正在尝试对其进行稍微编辑 仅调整一些常量 使用 fxdis https code google com archive p fxdis d3d1x https code google com archiv
  • XGBoostError:[10:10:03] /workspace/src/tree/updater_gpu_hist.cu:1407:gpu_hist 中的异常:NCCL 失败

    PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
  • CUDA Thrust 的多 GPU 使用

    我想使用我的两张显卡通过 CUDA Thrust 进行计算 我有两张显卡 在单卡上运行对于两张卡都适用 即使我在 std vector 中存储两个 device vector 也是如此 如果我同时使用两张卡 循环中的第一个周期将起作用并且不
  • 设备内存刷新cuda

    我正在运行一个 C 程序 其中调用了两次 cuda 主机函数 我想清理这两个调用之间的设备内存 有没有办法可以刷新 GPU 设备内存 我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零 那么cudaMemset可能是最
  • 如何逐像素绘制正方形(Python,PIL)

    在空白画布上 我想使用 Pillow 逐像素绘制一个正方形 我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素 但它没有执行任何操作 from PIL import Image def newImg img
  • 与整数纹理进行 Alpha 混合以进行对象拾取

    问题描述 你好 在我们的 WebGL 应用程序中 我们正在绘制许多 甚至数十万 形状 并且我们想要发现当前鼠标位于哪个形状 我正在寻找一种有效的方法 Details 形状定义为有符号距离函数 https en wikipedia org w
  • 如何检查 webgl(two.js) 的客户端性能

    我有一个使用 Three JS 的图形项目 现在我想自动检查客户端 GPU 性能并计算可以在应用程序中加载多少元素 我想到了诸如 GPU 基准测试之类的东西 看一眼stats js https github com mrdoob stats
  • 我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数?

    我正在研究一个随机过程 我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数 这类似于我们在 C 中声明 种子 时间 空 接下来是 srand 种子 和兰特 我可以通过内核将种子从主机传递到设备 但是 这样做的问题是我必须将整个种子

随机推荐

  • docker镜像之带vnc的ubuntu

    docker镜像 之 带vnc图形界面ubuntu 前言 xff1a 为了在图形界面中使用firefox xff0c 需要找一个带rdp或者vnc的ubuntu xff0c 最好是gnome的界面 xff0c 折腾了3天 xff0c 终于找
  • STM32中,关于中断函数调用全局变量的问题

    xfeff xfeff https blog csdn net leo liu006 article details 79334905 首先是问题的描述 xff1a 硬件单片机型号 xff0c STM32F103VET6 xff0c IDE
  • python使用selenium以及selenium-wire做质量与性能检测

    python天生就是适合用来做爬虫 xff0c 结合selenium真是如虎添翼 xff1b 1 安装库 pip install selenium pip install selenium wire 2 xff09 添加驱动 xff0c 比
  • 编写http workshop脚本从网页缓存里解析音乐

    前一篇文章 编写http workshop脚本从网站下载音乐 示范了如何使用HttpClient访问API 以及Json数据的解析 今天我们通过解析一个网页展示如何使用内置的LibXml2的功能解析HTML 提取我们关心的内容 这里随便搜了
  • pytorch环境搭建若干

    备注 xff1a 不要使用python3 11不支持 xff0c pip会说找不到合适的版本 xff1b python官网不提供旧版的下载了 xff0c 说是win7以后无法使用 xff0c 都是扯淡 xff0c 有其他地方可以下载pyth
  • ffmpeg常用方法

    FFmpeg 是一款开源的音视频处理工具 xff0c 可以处理各种格式的音视频文件 xff0c 并且可以进行格式转换 剪切 合并 添加水印等多种操作 下面是 FFmpeg 的一些常用命令及其用法 xff1a 视频转码 将一个视频文件转换为另
  • RFC2152 UTF-7 中文

    RFC2152 UTF 7 中文 翻译 xff1a 李静南 时间 xff1a 2006 03 29 EMAIL xff1a robin fox 64 sohu com 版权 xff1a 可以用于非商业用途自由转载 xff0c 但请保留本文档
  • 第九章0.4的CMakeLists.txt结构

    最开始看这一章的时候 xff0c 将CMakeLists txt部分跳过了 xff0c 没有看 后来看高博RGBD SLAM时候 xff0c 第一讲降到了cmake的用法 xff0c 发现有新的东西 xff0c 又回头看 xff1a 最原始
  • ROS 中setup.bash

    好久没写了 xff0c 最近搞了辆小车 xff0c 瞅了瞅ROS的相关内容 xff0c 没有写ROS的内容 xff0c 刚开始看 xff0c 写的话基本就成了书本粘贴 不过最近由ROS引出来的一些Linux相关的东西 xff0c 然后又回头
  • ros_hostname与ros_ip

    在ROS的环境变量中 xff0c 需要在 bashrc中设置的并不多 xff08 此处是指在wiki的基本教程中出现的 xff0c 大牛请无视 xff09 xff0c 大概只有三个 xff1a ROS MASTER URI ROS HOST
  • git图形化代码冲突处理

    当代码量少的时候使用 xff0c 使用vimdiff或者手动处理冲突 xff0c 都很方便 xff0c 但是当代码量大还是图形化处理更方便 xff0c 这里推荐使用kdiff3 首先下载kdiff3 xff0c 网上不好找的话 xff0c
  • Apache httpd 目录列表禁用配置(options indexes)

    Apache httpd服务器在缺省的情况下 xff0c 开启了基于目录列表的访问 xff0c 这是一个存在安全隐患的问题 xff0c 因此可以关闭这个功能 在Apache 2 4的版本中 xff0c 不在支持使用 indexes来配置 x
  • cmake学习笔记6-catkin的CmakeList.txt讲解

    https www jianshu com p 551d6949b49d 引用 cmake学习笔记 cmakelist txt创建项目示例 cmake的介绍和使用 Cmake实践 推荐cmake手册详解 严重推荐CMake构建系统的骨架 c
  • ROS中使用Intel RealSense D455或L515深度相机

    目的 在ROS平台上 xff0c 使用深度相机作为传感器设计自主避障机器人 1 安装驱动 测试环境 软件 xff1a Ubuntu 16 04 ROS Kinetic 硬件 xff1a Intel RealSense D455 或 L515
  • ROS机器人操作系统底层原理及代码剖析

    0 目的 本文介绍ROS机器人操作系统 xff08 Robot Operating System xff09 的实现原理 xff0c 从最底层分析ROS代码是如何实现的 1 序列化 把通信的内容 xff08 也就是消息message xff
  • RS232,RS485波形分析

    通过观察波形可以确定以下情况 xff1a 是否有数据接收或发送 xff1b 数据是否正确 xff1b 波特率是否正确 xff1b 一 串行数据的格式 异步串行数据的一般格式是 xff1a 起始位 43 数据位 43 停止位 xff0c 其中
  • GPU渲染管线之旅|05 图元处理、Clip/Cull, 投影和视图变换

    上一篇中我们讨论了关于 纹理和采样 xff0c 这一篇我们回到3D管线的前端 在执行完顶点着色之后 xff0c 就可以实际的渲染东西了 xff0c 对吗 xff1f 暂时还不行 xff0c 因为在我们实际开始光栅化图元之前 xff0c 仍然
  • 谈谈OpenCV中的四边形

    首先抛出一个问题 xff0c 给定一系列二维平面上的的点 xff0c 这些点是可以组成一个封闭的二维图形 因为这些点是矩形区域拍摄图像后识别得到的图形的边界点 xff0c 所以我们要抽象出来这个矩形 xff0c 也就是我们要反映出这个矩形
  • GPU渲染管线之旅|07 深度处理、模板处理

    在这一篇中 xff0c 我们来讨论Z pipline的前端部分 简称它为early Z 以及它是在光栅化中怎么起作用的 和上一篇一样 xff0c 本篇也不会按实际的管道顺序进行讨论 xff1b 我将首先描述基础算法 xff0c 然后再补充管
  • GPU渲染管线之旅|08 Pixel Shader

    在这一部分中 xff0c 我们来谈谈像素处理的前半部分 dispatch和实际的像素着色 事实上 xff0c 这部分是大多数图形开发者在谈到PS stage时所关心的内容 有关alpha blend和Late Z的内容则会下一篇文章中去探讨