当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

2024-01-31

我正在尝试编写一个 OpenGL 包装器，它允许我使用所有现有的图形代码（为 OpenGL 编写），并将 OpenGL 调用路由到 Direct3D 等效项。到目前为止，这种方法的效果出人意料地好，只是性能被证明是一个很大的问题。

现在，我承认我很可能以一种从未设计过的方式使用 D3D。我在每个渲染循环中更新单个顶点缓冲区数千次。每次我绘制一个“精灵”时，我都会向 GPU 发送 4 个带有纹理坐标等的顶点，当屏幕上的“精灵”数量一次达到大约 1k 到 1.5k 时，我的应用程序的 FPS 会下降到低于 10 fps。

使用 VS2012 性能分析（顺便说一句，非常棒），我可以看到 ID3D11DeviceContext->Draw 方法占用了大部分时间：截图在这里 https://i.stack.imgur.com/trHOr.png

在设置顶点缓冲区时或在绘制方法期间是否有某些设置未正确使用？对所有精灵使用相同的顶点缓冲区真的非常糟糕吗？如果是这样，我还有哪些其他选项不会彻底改变我现有图形代码库的架构（围绕 OpenGL 范例构建......每帧将所有内容发送到 GPU！）

游戏中最大的 FPS 杀手是当我在屏幕上显示大量文本时。每个角色都是一个纹理四边形，每个角色都需要单独更新顶点缓冲区并单独调用 Draw。如果 D3D 或硬件不喜欢多次调用 Draw，那么您还能如何一次在屏幕上绘制大量文本呢？

如果您还想查看更多代码来帮助我诊断此问题，请告诉我。

Thanks!

这是我运行的硬件：

酷睿 i7 @ 3.5GHz
16 GB 内存
GeForce GTX 560 Ti

这是我正在运行的软件：

Windows 8 发布预览
VS 2012
DirectX 11

下面是绘制方法：

void OpenGL::Draw(const std::vector<OpenGLVertex>& vertices)
{
   auto matrix = *_matrices.top();
   _constantBufferData.view = DirectX::XMMatrixTranspose(matrix);
   _context->UpdateSubresource(_constantBuffer, 0, NULL, &_constantBufferData, 0, 0);

   _context->IASetInputLayout(_inputLayout);
   _context->VSSetShader(_vertexShader, nullptr, 0);
   _context->VSSetConstantBuffers(0, 1, &_constantBuffer);

   D3D11_PRIMITIVE_TOPOLOGY topology = D3D11_PRIMITIVE_TOPOLOGY_TRIANGLESTRIP;
   ID3D11ShaderResourceView* texture = _textures[_currentTextureId];

   // Set shader texture resource in the pixel shader.
   _context->PSSetShader(_pixelShaderTexture, nullptr, 0);
   _context->PSSetShaderResources(0, 1, &texture);

   D3D11_MAPPED_SUBRESOURCE mappedResource;
   D3D11_MAP mapType = D3D11_MAP::D3D11_MAP_WRITE_DISCARD;
   auto hr = _context->Map(_vertexBuffer, 0, mapType, 0, &mappedResource);
   if (SUCCEEDED(hr))
   {
      OpenGLVertex *pData = reinterpret_cast<OpenGLVertex *>(mappedResource.pData);
      memcpy(&(pData[_currentVertex]), &vertices[0], sizeof(OpenGLVertex) * vertices.size());
      _context->Unmap(_vertexBuffer, 0);
   }

   UINT stride = sizeof(OpenGLVertex);
   UINT offset = 0;
   _context->IASetVertexBuffers(0, 1, &_vertexBuffer, &stride, &offset);
   _context->IASetPrimitiveTopology(topology);
   _context->Draw(vertices.size(), _currentVertex);
   _currentVertex += (int)vertices.size();
}

这是创建顶点缓冲区的方法：

void OpenGL::CreateVertexBuffer()
{
   D3D11_BUFFER_DESC bd;
   ZeroMemory(&bd, sizeof(bd));
   bd.Usage = D3D11_USAGE_DYNAMIC;
   bd.ByteWidth = _maxVertices * sizeof(OpenGLVertex);
   bd.BindFlags = D3D11_BIND_VERTEX_BUFFER;
   bd.CPUAccessFlags = D3D11_CPU_ACCESS_FLAG::D3D11_CPU_ACCESS_WRITE;
   bd.MiscFlags = 0;
   bd.StructureByteStride = 0;
   D3D11_SUBRESOURCE_DATA initData;
   ZeroMemory(&initData, sizeof(initData));
   _device->CreateBuffer(&bd, NULL, &_vertexBuffer);
}

这是我的顶点着色器代码：

cbuffer ModelViewProjectionConstantBuffer : register(b0)
{
    matrix model;
    matrix view;
    matrix projection;
};

struct VertexShaderInput
{
    float3 pos : POSITION;
    float4 color : COLOR0;
    float2 tex : TEXCOORD0;
};

struct VertexShaderOutput
{
    float4 pos : SV_POSITION;
    float4 color : COLOR0;
    float2 tex : TEXCOORD0;
};

VertexShaderOutput main(VertexShaderInput input)
{
    VertexShaderOutput output;
    float4 pos = float4(input.pos, 1.0f);

    // Transform the vertex position into projected space.
    pos = mul(pos, model);
    pos = mul(pos, view);
    pos = mul(pos, projection);
    output.pos = pos;

    // Pass through the color without modification.
    output.color = input.color;
    output.tex = input.tex;

    return output;
}

您需要做的是尽可能积极地批处理顶点，然后绘制大块。我非常幸运地将其改装到旧的即时模式 OpenGL 游戏中。不幸的是，这样做有点痛苦。

最简单的概念解决方案是使用某种设备状态（您可能已经在跟踪）来为特定的顶点集创建唯一的标记。混合模式和绑定纹理之类的东西是一个很好的集合。如果您可以找到一种快速哈希算法来在其中的结构上运行，则可以非常有效地存储它。

接下来，您需要进行顶点缓存。有两种方法可以解决这个问题，两者都有优点。最激进、最复杂，并且在许多具有相似属性的顶点集的情况下，最有效的方法是创建一个设备状态结构，分配一个大的（比如 4KB）缓冲区，然后继续在其中存储具有匹配状态的顶点。大批。然后，您可以将整个数组转储到帧末尾的顶点缓冲区中，并绘制缓冲区的块（以重新创建原始顺序）。然而，跟踪所有缓冲区、状态和顺序很困难。

更简单的方法是在大缓冲区中缓存顶点，直到设备状态发生变化，这种方法可以在良好的情况下提供良好的缓存。在那时候，在实际改变状态之前，将数组转储到顶点缓冲区并绘制。然后重置数组索引，提交状态更改，然后再次进行。

如果您的应用程序有大量相似的顶点，这很可能与精灵一起使用（纹理坐标和颜色可能会改变，但好的精灵将使用单个纹理图集和很少的混合模式），即使是第二种方法也可以带来一些性能提升。

这里的技巧是在系统内存中建立一个缓存，最好是一大块预先分配的内存，然后在绘制之前将其转储到视频内存。这使您可以执行更少的视频内存写入和绘图调用，而这往往很昂贵（尤其是一起）。正如您所看到的，您发出的调用数量会变得很慢，而批处理很有可能会对此有所帮助。诀窍是，如果可以的话，不要为每一帧分配内存，批处理足够大的块是值得的，并为每次绘制维护正确的设备状态和顺序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？的相关文章

改进绩效反思 - 我应该考虑哪些替代方案？

我需要动态地设置对象上的一堆或属性的值将其称为传输对象将在短时间内创建相当数量的此类传输对象并设置其属性我想避免使用反射还有其他选择吗如果是的话有我可以查看的示例实现吗 Use Delegate CreateDelegate h
在 Java 中，对复杂模型使用接口是否会带来性能提升？

标题很难理解但我不知道如何以另一种方式总结欢迎任何澄清的编辑我被告知并建议使用接口来提高性能即使在并不特别需要常规接口角色的情况下也是如此在这种情况下对象是大模型 MVC 意义上的具有许多方法和字段向我推荐的好用处是
更改为通用接口对性能的影响

我使用 Visual Studio 使用 C NET 开发应用程序 ReSharper 在我的方法原型中经常建议我用更通用的类型替换输入参数的类型例如如果我仅在方法主体中使用带有 foreach 的列表则使用 List 和 IEnum
为什么 Python 对于一个简单的 for 循环来说这么慢？

我们正在做一些kNN and SVDPython 中的实现其他人选择了 Java 我们的执行时间非常不同我使用 cProfile 来查看我在哪里犯了错误但一切都很好fine http wiki python org moin Pyth
Assimp 和 D3D 模型加载：网格未在 D3D 中显示

我想使用 Assimp 将模型加载到 D3D 中我想更多地了解 Assimp 如何处理索引因为我无法让它以我理解的形式与 obj 模型一起工作例如对于面为 int int int 的 obj 模型当我迭代面数时 for unsig
MySQL InnoDB 查询性能

我正在尝试优化一个简单的 sql 查询该查询将多次运行大量数据这是场景 MySQL 与 InnoDB 表 where 和 join 中使用的所有字段都已索引表有 FK 我不需要查询的整个缓存但每个表的缓存是可能的表有更多的更新插
定点数学比浮点运算快吗？

多年前即 20 世纪 90 年代初期我构建了图形软件包该软件包基于定点算术和预先计算的 cos sin 表格以及使用牛顿近似方法进行 sqrt 和对数近似的缩放方程来优化计算这些先进技术似乎已经成为图形和内置数学处理器的一部分大约
空 while 循环有什么影响？

我知道这可能是一个有点愚蠢的问题但有时我只想循环直到条件为假但我不喜欢让循环保持为空所以代替 Visible true while IsRunning Visible false 我通常prefer while IsRunnin
去除字符串的最佳方法是什么？

我需要具有最佳性能的想法来删除过滤字符串 I have string Input view 512 3 159 删除 view 和的最佳性能方法是什么和引号我可以做这个 Input Input Replace view Replac
为什么 Android Eclipse 不断刷新外部文件夹并花费很长时间？

我只有一部新的 Android 手机我一直在修补一些基本的应用程序每当我保存任何内容时 Eclipse 的 Android 插件就会刷新外部文件夹这让我抓狂通常我不会介意但当需要 10 秒才能刷新时我开始注意到我已经搜索过其
C# 写入文件的性能

我的情况概述我的任务是从文件中读取字符串并将它们重新格式化为更有用的格式重新格式化输入后我必须将其写入输出文件这是必须完成的操作的示例文件行示例 ANO 2010 CPF 17834368168 YEARS 2010 2009
嵌套辅助函数和性能

嵌套辅助函数对于使代码更易于理解非常有用谷歌甚至建议在他们的应用程序中使用嵌套函数时尚指南 https google styleguide googlecode com svn trunk javascriptguide xml Nest
在Python列表中交换元素的最快方法

在Python中交换两个列表元素是否有比 L a L b L b L a 或者我必须求助于Cython http cython org or Weave http www scipy org Weave或类似的看起来 Python 编译器
c# GDI边缘空白检测算法

我正在寻找解决方案检测边缘空白c 位图来自 c 托管 GDI 库图像将是透明的 or white 大多数 400x 图片的尺寸为 8000x8000px 边缘周围有大约 2000px 的空白找出边缘的最有效方法是什么 x y 高度和宽
隐藏类以及 {} 对象与自定义构造函数之间的等效性 (v8)

鉴于这篇文章 http richardartoul github io jekyll update 2015 04 26 hidden classes html http richardartoul github io jekyll upd
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
Mxnet - 缓慢的数组复制到 GPU

我的问题我应该如何在 mxnet 中执行快速矩阵乘法我的具体问题数组复制到 GPU 的速度很慢对此我们能做些什么呢我创建随机数组将它们复制到上下文中然后相乘 import mxnet as mx import mxnet nd
高效秒表

您好我正在用 javascript 编写一个秒表实用程序我有一个关于效率和开销的问题我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值我想知道哪个最有效另外
数组与列表的性能

假设您需要一个需要频繁迭代的整数列表数组我的意思是非常频繁原因可能有所不同但可以说它位于大容量处理的最内层循环的核心一般来说人们会选择使用列表 List 因为它们的大小具有灵活性最重要的是 msdn 文档声称列表在内部使用数组
当跳转在 32 字节上不完全对齐时，使用 MITE（传统管道）代替 DSB（微指令缓存）

这个问题曾经是这个现已更新问题 https stackoverflow com questions 59883527 unrolling 1 cycle loop reduces performance by 25 on skylake

随机推荐

jQuery .on keyup 和模糊仅触发 onload

问题这blur and keyup每个事件在 onload 时触发一次并且仅在 onload 时触发我怎样才能让它们正常工作 jQuery function myFunction text alert text input1 on k
根据特定数组的长度对变量进行分组

我在数据集中有一长串变量其中包含多个time不同采样率的通道例如time 1 time 2 TIME Time等等还有多个其他变量取决于这些时间中的任何一个我想列出包含时间的所有可能通道工作区中不区分大小写的部分字符串搜索并
为什么 savefig 和plot 命令必须位于 IPython 笔记本中的同一单元格中？

我试图从 IPython 笔记本中导出一些图搜索我发现这个问题 https stackoverflow com questions 13642528 how to export figures to files from ipython
检测用户是否正在滚动

如何在 javascript 中检测用户是否正在滚动这有效 window onscroll function e called when the window is scrolled edit 你说这是一个 TimeInterval 中的
webpack-dev-server 如何在不刷新页面的情况下重新加载 css

当我更改 vue 文件和 css 文件中的样式时我不希望页面刷新并且希望样式自动更改但现在当我更改样式时页面总是刷新我正在使用 vue cli 生成 webpack 配置文件 as below webpack dev conf js
使用 Meteor.js 进行抓取

我可以使用meteor js 进行抓取吗刚刚发现cheerio结合起来效果很好request 我可以将它们与流星一起使用吗或者有类似的东西吗你有一个可行的例子吗当然很难想象还有什么是流星做不到的首先您需要一些东西来处理远程 h
nuxt.js 文档未定义，pugin 出现问题

我添加了插件 vue burger menu to my nuxt js项目我有一个错误 document is not defined 我知道这个插件仅适用于客户端于是我在vue文档中找到了在此输入链接描述 https nuxtjs
使用 ksoap2-android 时出现异常

我有一个关于 ksoap2 的问题我的问题是该项目曾经运行良好直到我不得不格式化我的电脑并再次设置它我不记得我在应用程序中引用了哪个版本但我尝试了很多版本但问题仍然出现 04 05 13 56 18 289 E dalvikvm
将不相关的存储库导入到另一个存储库分支

我在 stackoverflow 上尝试了很多答案但似乎没有一个能完全按照我想要的方式工作基本上我有一个主存储库我创建了一个分支例如功能并且我需要添加另一个完全不相关的存储库作为此功能分支的文件夹我还需要从导入存储库中获取
双文件类型扩展：Sublime Text 3 中的正确语法突出显示

我正在和一些人一起工作 scss liquid文件它们总是以 HTML Liquid 的形式打开无论我设置语法多少次 Update I tried 打开所有当前扩展名为选项但不幸的是这会影响以下文件 js liquid and htm
如果文本改变了大小，并且小部件改变了大小

第一次尝试 https i stack imgur com kN2RQ gif 在这里您可以看到字体如何更改大小以及文本小部件如何更改大小我需要文本小部件来保持其大小我尝试在框架中创建一个文本小部件并制作frm grid propaga
如何在kubectl部署中传递环境变量？

我正在为 django webapp 设置 kubernetes 设置我在创建部署时传递环境变量如下所示 kubectl create f deployment yml l key1 value1 我收到如下错误 error no ob
如何从 SQL Server 数据库中的表中删除或更改多个数据库的默认约束？

我已经解决了之前的这些问题Q1 https stackoverflow com questions 15547210 modify default value in sql server Q2 https stackoverflow com
为创建的 UIToolbar 设置 UIToolbarPosition

我正在编写仅针对 iOS5 设备的应用程序因此我试图最大限度地利用新的appearance API 我可以改变我的背景UIToolbar用以下方法 UIToolbar appearance setBackgroundImage
通过使用指令调用开始和结束？

既定的调用习惯用法swap is using std swap swap foo bar 这边走 swap可以对外部的用户定义类型进行重载std命名空间我们应该调用begin and end以同样的方式 using std begin u
kubernetes 仪表板（Web ui）没有任何可显示的内容

部署 webui k8s 仪表板后我登录到仪表板但在那里找不到任何内容而是通知中的错误列表 tatefulsets apps is forbidden User system serviceaccount kubernetes da
唯一约束，排除 NULL 值[重复]

这个问题在这里已经有答案了可能的重复在 SQL Server 中实现允许多个 NULL 值的唯一约束的正确方法 https stackoverflow com questions 6088361 the proper way to im
在 Visual Studio 2017 中找不到“选择性粘贴”选项

我看不到Paste Special我的 Visual Studio 2017 专业版中的选项微软 Visual Studio 专业版 2017 版本15 4 5 VisualStudio 15 Release 15 4 5 27004 2
如何解决UnsatisfiedLinkError？

我正在使用 Android Studio 3 并且尝试在我的设备上使用 OpenCL APK 编译并失败于 java lang UnsatisfiedLinkError dlopen失败找不到库 libcutils so 这是我的 bui
当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

我正在尝试编写一个 OpenGL 包装器它允许我使用所有现有的图形代码为 OpenGL 编写并将 OpenGL 调用路由到 Direct3D 等效项到目前为止这种方法的效果出人意料地好只是性能被证明是一个很大的问题现在我承认

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？ 的相关文章

随机推荐

热门标签

当我每帧向单个顶点缓冲区写入数千次时，如何提高 Direct3D 的性能？的相关文章