如何在 CUDA 应用程序中构建数据以获得最佳速度

2024-04-08

我正在尝试编写一个简单的粒子系统，利用 CUDA 来更新粒子位置。现在，我定义的粒子有一个对象，该对象的位置由三个浮点值定义，速度也由三个浮点值定义。更新粒子时，我向速度的 Y 分量添加一个常量值以模拟重力，然后将速度添加到当前位置以得出新位置。就内存管理而言，最好维护两个独立的浮点数组来存储数据或以面向对象的方式进行结构。像这样的事情：

struct Vector
{
    float x, y, z;
};

struct Particle
{
    Vector position;
    Vector velocity;
};

似乎两种方法的数据大小都是相同的（每个浮点数 4 个字节，每个向量 3 个浮点数，每个粒子 2 个向量，总共 24 字节），看起来 OO 方法将允许 CPU 和GPU，因为我可以使用单个内存复制语句而不是 2 个（从长远来看，更多，因为还有一些有关粒子的其他信息将变得相关，例如年龄、寿命、重量/质量、温度等）此外，代码的简单可读性和易于处理也使我倾向于面向对象方法。但我看到的例子没有利用结构化数据，所以这让我想知道是否有原因。

所以问题是哪个更好：单独的数据数组还是结构化对象？

在数据并行编程中，谈论“数组结构”(SOA) 与“结构数组”(AOS) 是很常见的，其中两个示例中的第一个是 AOS，第二个是 SOA。许多并行编程范例，特别是 SIMD 样式范例，会更喜欢 SOA。

在 GPU 编程中，通常首选 SOA 的原因是优化对全局内存的访问。您可以在以下位置查看录制的演示文稿高级 CUDA C http://nvidia.fullviewmedia.com/GPU2009/1002-gold-1086.html去年来自 GTC 的 GPU 如何访问内存的详细描述。

要点是内存事务的最小大小为 32 字节，并且您希望最大化每个事务的效率。

使用 AOS：

position[base + tid].x = position[base + tid].x + velocity[base + tid].x * dt;
//  ^ write to every third address                    ^ read from every third address
//                           ^ read from every third address

使用 SOA：

position.x[base + tid] = position.x[base + tid] + velocity.x[base + tid] * dt;
//  ^ write to consecutive addresses                  ^ read from consecutive addresses
//                           ^ read from consecutive addresses

在第二种情况下，从连续地址读取意味着您的效率为 100%，而第一种情况为 33%。请注意，在较旧的 GPU（计算能力 1.0 和 1.1）上，情况要糟糕得多（效率为 13%）。

还有另一种可能性 - 如果结构中有两个或四个浮点数，那么您可以以 100% 的效率读取 AOS：

float4 lpos;
float4 lvel;
lpos = position[base + tid];
lvel = velocity[base + tid];
lpos.x += lvel.x * dt;
//...
position[base + tid] = lpos;

请再次查看 Advanced CUDA C 演示文稿以了解详细信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

如何在 CUDA 应用程序中构建数据以获得最佳速度的相关文章

如何使用 C# 中的参数将用户重定向到 paypal

如果我有像下面这样的简单表格我可以用它来将用户重定向到 PayPal 以完成付款
为什么两个不同的 Base64 字符串的转换会返回相等的字节数组？

我想知道为什么从 base64 字符串转换会为不同的字符串返回相同的字节数组 const string s1 dg const string s2 dq byte a1 Convert FromBase64String s1 byte a2
按成员序列化

我已经实现了template
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in
ASP.NET MVC：这个业务逻辑应该放在哪里？

我正在开发我的第一个真正的 MVC 应用程序并尝试遵循一般的 OOP 最佳实践我正在将控制器中的一些简单业务逻辑重构到我的域模型中我最近一直在阅读一些内容很明显我应该将逻辑放在域模型实体类中的某个位置以避免出现贫血域模型反模式
查找c中结构元素的偏移量

struct a struct b int i float j x struct c int k float l y z 谁能解释一下如何找到偏移量int k这样我们就可以找到地址int i Use offsetof 找到从开始处的偏移量z
为什么当实例化新的游戏对象时，它没有向它们添加标签？ [复制]

这个问题在这里已经有答案了 using System Collections using System Collections Generic using UnityEngine public class Test MonoBehaviou
Clang 3.1 + libc++ 编译错误

我已经构建并安装了在前缀下 alt LLVM Clang trunk 2012 年 4 月 23 日在 Ubuntu 12 04 上成功使用 GCC 4 6 然后使用此 Clang 构建的 libc 当我想使用它时我必须同时提供 lc
将 VSIX 功能添加到 C# 类库

我有一个现有的单文件生成器位于 C 类库中如何将 VSIX 项目级功能添加到此项目最终目标是编译我的类库项目并获得 VSIX 我实际上是在回答我自己的问题这与Visual Studio 2017 中的单文件生成器更改 https s
使用 WebClient 时出现 System.Net.WebException：无法创建 SSL/TLS 安全通道

当我执行以下代码时 System Net ServicePointManager ServerCertificateValidationCallback sender certificate chain errors gt return t
带动态元素的 WPF 启动屏幕。如何？

我是 WPF 新手我需要一些帮助我有一个加载缓慢的 WPF 应用程序因此我显示启动屏幕作为权宜之计但是我希望能够在每次运行时更改屏幕并在文本区域中显示不同的引言这是一个生产力应用程序所以我将使用非愚蠢但激励性的引言当然如
重载<<的返回值

include
如何设计以 char* 指针作为类成员变量的类？

首先我想介绍一下我的情况我写了一些类将 char 指针作为私有类成员而且这个项目有 GUI 所以当单击按钮时某些函数可能会执行多次这些类是设计的单班在项目中但是其中的某些函数可以执行多次然后我发现我的项目存在内存泄漏所以我想
如何在 C 中调用采用匿名结构的函数？

如何在 C 中调用采用匿名结构的函数比如这个函数 void func struct int x p printf i n p x 当提供原型的函数声明在范围内时调用该函数的参数必须具有与原型中声明的类型兼容的类型其中兼容具有标准定
如何序列化/反序列化自定义数据集

我有一个 winforms 应用程序它使用强类型的自定义数据集来保存数据进行处理它由数据库中的数据填充我有一个用户控件它接受任何自定义数据集并在数据网格中显示内容这用于测试和调试为了使控件可重用我将自定义数据集视为普通的 Sy
如何查看网络连接状态是否发生变化？

我正在编写一个应用程序用于检查计算机是否连接到某个特定网络并为我们的用户带来一些魔力该应用程序将在后台运行并执行检查是否用户请求托盘中的菜单我还希望应用程序能够自动检查用户是否从有线更改为无线或者断开连接并连接到新网络并执行魔
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
如何将带有 IP 地址的连接字符串放入 web.config 文件中？

我们当前在 web config 文件中使用以下连接字符串 add name DBConnectionString connectionString Data Source ourServer Initial Catalog ourDB P
C# - OutOfMemoryException 在 JSON 文件上保存列表

我正在尝试保存压力图的流数据基本上我有一个压力矩阵定义为 double pressureMatrix new double e Data GetLength 0 e Data GetLength 1 基本上我得到了其中之一pressur
对来自流读取器的过滤数据执行小计

编辑问题未得到解答我有一个基于 1 个标准的过滤输出前 3 个数字是 110 210 或 310 给出 3 个不同的组从流阅读器控制台问题已编辑因为第一个答案是我给出的具体示例的字面解决方案我使用的实际字符串长度为 450 个

随机推荐

如何通过管道将 OutputStream 传输到 StreamingDataHandler？

我在 JAX WS 中有一个 Java Web 服务它从另一个方法返回一个 OutputStream 我似乎无法弄清楚如何将 OutputStream 流式传输到返回的 DataHandler 中除了创建一个临时文件写入它然后再次将
如何除以零而不出错

我需要获得 float NaN 和无穷大但我不能使用这样的结构 0 0 1 0 因为它会导致编译时间错误 C2124 除以零或模除以零编辑很高兴知道在哪里可以得到这个数字每个 1 但是有可能除以零吗您可以简单地返回 NaN 或无
有没有办法获取 R 中随机森林树中用于分类的实例？

The getTreeR 中的 randomForest 包中的函数显示随机森林中使用的特定树的结构这是 iris 数据集的示例 library randomForest data iris rf lt randomForest Spec
推送后导航栏与状态栏重叠

结构 NavigationController gt VC1 gt VC2 VC1需要以编程方式显示或隐藏状态栏它由statusBarHidden var statusBarHidden false didSet setNeedsStat
camunda 找不到任务 ID 为空的任务

我是卡蒙达的初学者我想完成一个任务所以我通过调用启动一个实例 http localhost 8080 engine rest process definition key approve loan submit form 通过 Post
如何确保使用 git 命令正确重新添加子模块，而无需手动更新 .gitmodulefiles？

我正在使用的项目之一在 it s gitmodules 文件中 iit synthesis brando9 proverbot9001 cat gitmodules grep metalib submodule deps metalib p
在日历中的特定日期之后更改背景颜色

我有一个事件日历我想将特定日期 SOC DATE 之后所有列的背景颜色更改为绿色该日期之后更改为红色我的日历如下 td class fc day fc wed fc widget content fc past td class fc
如何禁用Android Studio更新通知？

我不想更新到 2 3 他们坏了即时运行对于 4 4 4 设备现在仅适用于 5 及更高版本只是想隐藏通知没问题对于 Android Studio 你可以尝试一下 1 单击文件 gt 设置在 Mac 上 Android Studio
使用 display:none 读取 div 的滚动高度

With a div父元素中的元素div隐藏着display none 我正在抛弃 jQuerytextarea元素到控制台我看到scrollHeight第 0 个元素的属性是88 我尝试将此属性读取到 var 使用 element 0
通过命令提示符将参数传递给 CMAKE

我的项目有一个 makefile 我可以用它传递一个控制某些构建标志的参数现在我想使用 CMake 做同样的事情我创造了CMakeLists txt但我不知道如何传递参数并检查参数值CMakeLists txt 我的 Makefile
MongoDB 连接被对等方重置

我研究过其他解决方案例如 Mongodb 连接被对等方重置 https stackoverflow com questions 2961648 mongodb connection reset by peer Mongodb 自动重新连接
如何将 Facebook 聊天工具添加到 Next.js？

我尝试在 Next js 应用程序中添加 Facebook 客户聊天但不起作用我找不到我的代码有任何问题如何在我的 Next js 应用程序中添加 Facebook 客户聊天我的代码有什么错误吗有更好的实现来解决这个问题吗这是我
如何从控制器返回 JavaScript？

我正在处理 ASP NET Core 2 2 项目需要从控制器返回 JavaScript 但是我怀疑没有直接的方法因此我遵循this https stackoverflow com a 42698821 4753489操作系统回答并
错误：未定义无法解析模块`@react-navigation/bottom-tabs`

一直在寻找有关导航错误模块的解决方案我尝试过重置缓存删除 nodu modules 重新安装模块但仍然无法正常工作错误的完整详细信息 Unable to resolve module react navigation native
使用 Interface Builder 在 nib 中设计 UICollectionView 单元格（无故事板）

我正在尝试设计一个定制的UICollectionViewCell原型在 Xcode 5 0 2 中但是 Interface Builder 不允许我向我的UICollectionView在设计笔尖时如果我使用故事板我可以设置项目单
指向具有不同参数的成员函数的指针的容器

我到处寻找现代 C 设计和合作但我找不到一种好方法来存储一组接受不同参数并对不同类进行操作的回调我需要这个因为我希望应用程序的每个对象都有可能将其方法之一的执行推迟到主对象Clock对象跟踪当前时间可以在正确的时刻调用此方法我
类型错误：names_to_saveables 必须是将字符串名称映射到张量/变量的字典

我正在尝试使用 freeze graph py 转换 MobileNet 0 50 的重新训练版本这是我的代码 python m tensorflow python tools freeze graph input checkpoint
DB 连接关闭后从 Oracle DB 读取 CLOB

在我正在查看的 Java 类之一中我看到以下代码 private oracle sql CLOB getCLOB oracle sql CLOB xmlDocument null CallableStatement cstmt null
php - 输出值到屏幕中间循环

在长 foreach 循环期间是否可以将任何内容输出到屏幕每当我执行一个需要很长时间的循环时在循环完全完成之前屏幕上不会输出任何内容即使 echo 语句位于循环内部有没有办法改变这种行为您需要刷新缓冲区如何执行取决于您的服务器
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新

如何在 CUDA 应用程序中构建数据以获得最佳速度

如何在 CUDA 应用程序中构建数据以获得最佳速度 的相关文章

随机推荐

热门标签

如何在 CUDA 应用程序中构建数据以获得最佳速度的相关文章