如何优化这个 CUDA 内核

2024-04-23

我已经分析了我的模型，似乎该内核约占我总运行时间的 2/3。我一直在寻找优化它的建议。代码如下。

__global__ void calcFlux(double* concs, double* fluxes, double* dt)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    fluxes[idx]=knowles_flux(idx, concs);
    //fluxes[idx]=flux(idx, concs);
}

__device__ double knowles_flux(int r, double *conc)
{
    double frag_term = 0;
    double flux = 0;
    if (r == ((maxlength)-1))
    {
        //Calculation type : "Max"
        flux = -km*(r)*conc[r]+2*(ka)*conc[r-1]*conc[0];
    }
    else if (r > ((nc)-1))
    {
        //Calculation type : "F"
        //arrSum3(conc, &frag_term, r+1, maxlength-1);
        for (int s = r+1; s < (maxlength); s++)
        {
            frag_term += conc[s];
        }
        flux = -(km)*(r)*conc[r] + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0] + 2*(ka)*conc[r-1]*conc[0];
    }
    else if (r == ((nc)-1))
    {
        //Calculation type : "N"
        //arrSum3(conc, &frag_term, r+1, maxlength-1);
        for (int s = r+1; s < (maxlength); s++)
        {
            frag_term += conc[s];
        }
        flux = (kn)*pow(conc[0],(nc)) + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0];
    }
    else if (r < ((nc)-1))
    {
    //Calculation type : "O"
        flux = 0;
    }
    return flux;
}

只是为了让您了解为什么 for 循环是一个问题，该内核是在大约 maxlength = 9000 个元素的数组上启动的。就我们现在的目的而言，nc 的范围是 2-6。下面说明了该内核如何处理传入数组 (conc)。对于此数组，需要对不同的元素组应用五种不同类型的计算。

Array element : 0 1 2 3 4 5 6 7 8 9 ... 8955 8956 8957 8958 8959 8960
Type of calc  : M O O O O O N F F F ...   F   F    F    F    F   Max

我现在一直在尝试解决的潜在问题是四重 if-else 和 for 循环的分支分歧。

我处理分支分歧的想法是将该内核分解为四个独立的设备功能或内核，分别处理每个区域并同时启动。我不确定这是否比仅仅让分支发散更好，如果我没记错的话，这会导致四种计算类型串行运行。

为了处理 for 循环，您会注意到有一个被注释掉的 arrSum3 函数，它是我根据之前（可能写得不好）编写的并行归约内核编写的。使用它代替 for 循环大大增加了我的运行时间。我觉得有一种聪明的方法可以完成我想要用 for 循环做的事情，但我只是不那么聪明，我的顾问厌倦了我“浪费时间”思考它。

感谢任何帮助。

EDIT

完整代码位于此处：https://stackoverflow.com/q/21170233/1218689 https://stackoverflow.com/q/21170233/1218689

假设 sgn() 和 abs() 不是从“if”和“else”派生的

__device__ double knowles_flux(int r, double *conc)
{
    double frag_term = 0;
    double flux = 0;

        //Calculation type : "Max"
        //no divergence
        //should prefer 20-30 extra cycles instead of a branching.
        //may not be good for CPU
        fluxA = (1-abs(sgn(r-(maxlength-1)))) * (-km*(r)*conc[r]+2*(ka)*conc[r-1]*conc[0]);
        //is zero if r and maxlength-1 are not equal

        //always compute this in shared memory so work will be equal for all cores, no divergence

        // you should divide kernel into several pieces to do a reduction
        // but if you dont want that, then you can try :
        for (int s = 0;s<someLimit ; s++) // all count for same number of cycles so no divergence
        {
            frag_term += conc[s] * (   abs(sgn( s-maxlength ))*sgn(1- sgn( s-maxlength ))  )* (      sgn(1+sgn(s-(r+1)))  );
        }
         //but you can make easier of this using "add and assign" operation
         // in local memory (was it __shared in CUDA?)
         //  global conc[] to local concL[] memory(using all cores)(100 cycles)
         // for(others from zero to upper_limit)
         // if(localID==0)
         // {
         //    frag_termL[0]+=concL[s]             // local to local (10 cycles/assign.)
         //    frag_termL[0+others]=frag_termL[0]; // local to local (10 cycles/assign.)
         // }  -----> uses nearly same number of cycles but uses much less energy
         //using single core (2000 instr. with single core vs 1000 instr. with 2k cores)
         // in local memory, then copy it to private registers accordingly using all cores



        //Calculation type : "F"

        fluxB = (  abs(sgn(r-(nc-1)))*sgn(1+sgn(r-(nc-1)))   )*(-(km)*(r)*conc[r] + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0] + 2*(ka)*conc[r-1]*conc[0]);
        // is zero if r is not greater than (nc-1)



        //Calculation type : "N"


        fluxC = (   1-abs(sgn(r-(nc-1)))   )*((kn)*pow(conc[0],(nc)) + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0]);
        //zero if r and nc-1 are not equal



    flux=fluxA+fluxB+fluxC; //only one of these can be different than zero

    flux=flux*(   -sgn(r-(nc-1))*sgn(1-sgn(r-(nc-1)))  )
    //zero if r > (nc-1)

    return flux;
}

好吧，让我稍微打开一下：

if(a>b) x+=y;

可以看作

if a-b is negative sgn(a-b) is -1
then adding 1 to that -1 gives zero ==> satisfies lower part of comparison(a<b)
x+= (sgn(a-b) +1) = 0 if a<b (not a>b), x unchanged

if(a-b) is zero, sgn(a-b) is zero
then we should multiply the upper solution with sgn(a-b) too!
x+= y*(sgn(a-b) +1)*sgn(a-b)
means
x+= y*( 0  +  1) * 0 = 0           a==b is satisfied too!

lets check what happens if a>b
x+= y*(sgn(a-b) +1)*sgn(a-b)
x+= y*(1 +1)*1  ==> y*2 is not acceptable, needs another sgn on outherside

x+= y* sgn((sgn(a-b)+1)*sgn(a-b))

x+= y* sgn((1+1)*1)

x+= y* sgn(2)   

x+= y only when a is greater than b

当有太多的时候

abs(sgn(r-(nc-1))

然后你可以重新使用它作为

tmp=abs(sgn(r-(nc-1))

.....  *tmp*(tmp-1) ....
...... +tmp*zxc[s] .....
......  ......

进一步减少总周期！寄存器访问可以达到 TB/s 级别，因此不应该成为问题。就像为全球访问所做的那样：

tmpGlobal= conc[r];

...... tmpGlobal * tmp .....
.... tmpGlobal +x -y ....

所有私有寄存器每秒都以 TB 为单位执行操作。

警告：reading如果 conc[0] 的实际地址已经不是真正的零，那么只要将 conc[-1] 的实际地址乘以零，来自 conc[-1] 的数据就不会导致任何错误。但writing是危险的。

如果你无论如何都需要逃离 conc[-1] ，你也可以将索引乘以一些绝对值！看：

 tmp=conc[i-1] becomes   tmp=conc[abs((i-1))] will always read from positive index, the value will be multiplied by zero later anyway. This was lower bound protection.
  You can apply a higher bound protection too. Just this adds even more cycles.

如果在访问 conc[r-1] 和 conc[r+1] 时处理纯标量值不够快，请考虑使用向量洗牌操作。向量元素之间的洗牌操作比通过本地内存将其复制到另一个核心/线程更快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何优化这个 CUDA 内核的相关文章

以相反的顺序迭代可变参数模板参数

如果我手动反转传递给它的模板参数的顺序以下代码将起作用 template
DispatcherTimer 未按时执行

我正在使用 c 中的 DispatchTimer 编写一个时钟应用程序但由于某些原因我的时钟似乎时不时地跳过 1 秒例如 52 秒 gt 54 秒跳过 53 秒在我看来计时器并不是每秒都执行一次 DispatcherTimer
更快的算法来计算有多少数字可以被范围内的特定整数整除

int a b c d 0 cin gt gt a gt gt b gt gt c for int i a i lt b i if i c 0 d cout lt
检查列表是否包含另一个列表。 C＃

编辑只是说 ContainsAllItem 中的注释解释得最好很抱歉问这个问题我知道以前有人问过这个问题但我只是不明白好的所以我想检查一个列表是否包含另一个列表中的所有项目WITHOUT重叠以及根据类字符串名称变量称为项目
切换图片框可见性 C#

为什么图片框控件的可见性属性在这里不起作用我最初将它们设置为 false 以便在屏幕加载时它们不可见但后来我想切换这个我已完成以下操作但似乎不起作用这是一个 Windows 窗体应用程序 private void Action w
通过单个 GPIO 引脚转储闪存

我正在使用 Infineon 的 XMC4500 Relax Kit 并尝试通过单个 GPIO 引脚提取固件我非常天真的想法是通过 GPIO 引脚一次转储一位然后用逻辑分析仪以某种方式嗅探数据伪代码 while word by w
用 C# 制作 Vista 风格的应用程序

我正在运行 Windows Vista 并且希望外观看起来像常规 Vista 程序有没有关于如何构建 Vista 风格应用程序的真正好的教程文章我还想学习如何使用本机代码并将其转换为 C 如this http bartdesmet n
线程安全的 C++ 堆栈

我是 C 新手正在编写一个多线程应用程序不同的编写者将对象推入堆栈读者将它们从堆栈中拉出或至少将指针推入对象 C 中是否有任何内置结构可以在不添加锁定代码等的情况下处理此问题如果没有那么 Boost 库呢 EDIT 你好感谢您
不要声明只读可变引用类型 - 为什么不呢？

我一直在阅读这个问题 https stackoverflow com questions 2274412 immutable readonly reference types fxcop violation do not declare r
Gekko - 最佳调度的不可行解决方案，与 gurobi 的比较

我对 Gurobi 有点熟悉但转向 Gekko 因为后者似乎有一些优势不过我遇到了一个问题我将用我想象的苹果园来说明这一问题 5周的收获期 horizon T 5 就在我们身上我的非常微薄的产出将是 3 0 7 0 9 0 5
是什么原因导致 Linq 错误：此方法无法转换为存储表达式？

我有一堆具有相同 select 语句的 Linq to Entity 方法所以我想我会很聪明并将其分离到它自己的方法中以减少冗余但是当我尝试运行代码时我得到了以下内容错误该方法不能转化为商店表达式这是我创建的方法 public
当在 Repository/UnitOrWork 之上使用 Service 类时，我应该在哪里放置逻辑不适合 Repository 的常用数据访问代码？

In my 先前的问题 https stackoverflow com questions 24906548 using the generic repository unit of work pattern in large projec
理解 C++11 中的 std::atomic::compare_exchange_weak()

bool compare exchange weak T expected T val compare exchange weak 是 C 11 中提供的比较交换原语之一它是weak即使对象的值等于它也会返回 falseexpected
Dynamics Crm：获取状态代码/状态代码映射的元数据

在 Dynamics CRM 2011 中在事件实体上状态原因选项集也称为状态代码与状态选项集也称为状态代码相关例如看这个截图当我使用 API 检索状态原因选项集时如下所示 RetrieveAttributeRequ
C++ 标准中短语“构造函数没有名称”的含义

在尝试理解 C 标准中的构造函数没有名称这句话时我似乎在 clang 中发现了一个错误有人可以证实这一点吗 VS2015 and gcc rejects this code and I think they it are is co
为什么 C# 接口名称前面加上“I”

这种命名约定背后的基本原理是什么我没有看到任何好处额外的前缀只会污染 API 我的想法与康拉德一致response https stackoverflow com a 222502 9898与此相关的question https sta
c# 替代方案中 cfusion_encrypt 中填充的密钥是什么？

我找到了从这里复制 C 中的 cfusion encrypt 函数的答案 ColdFusion cfusion encrypt 和 cfusion decrypt C 替代方案 https stackoverflow com questio
程序退出后，TcpListener Socket 仍处于活动状态

当我的程序退出时我试图停止 TCP 侦听器我不关心套接字或任何活动客户端套接字上当前活动的任何数据套接字清理代码本质上是 try myServer Server Shutdown SocketShutdown Both catch E
在何处将 CFLAG（例如 -std=gnu99）添加到 (Eclipse CDT) 自动工具项目中

我有一个简单的 Autotools C 项目不是 C 其框架是由 Eclipse CDT Juno 为我创建的 CFLAG 通过检查似乎是 g O2 我希望所有生成的 make 文件也具有 std gnu99附加到 CFLAG 因为我使
使用剪贴板 SetText 换行

如何使用 SetText 方法添加换行符 I tried Clipboard SetText eee n xxxx 但当我将剪贴板数据粘贴到记事本中时它没有给我预期的结果预期结果 eee xxxx 我怎样才能做到这一点 Windows

随机推荐

如何传递文件名参数 gitconfig diff textconv？

有关的文档textconv at https git wiki kernel org index php Textconv https git wiki kernel org index php Textconv有简洁的措辞 gitconf
通过 JavaMail 发送到 Gmail 时的 TLS 问题

事实证明 JavaMail 比我想象的要令人沮丧一些我在网上查看了几个有关如何通过 Gmail 服务器但不通过 SSL 发送简单 SMTP 电子邮件的示例在尝试了几个不同的代码示例之后当我调用时我不断得出相同的示例异常transp
为什么我在使用 WifiP2pManager 时总是显示 BUSY？

我正在尝试使用 Wi Fi Direct 连接两个 Android 设备在我的 HTC 手机 One SV 上它似乎可以工作但在我的第二台设备 LG Optimus 4xhd 上它不起作用在我的 onResume 函数中我启动以下线
类型“TNestedInterface”必须可转换为“INestedInterfaceTest”才能将其用作参数“TNestedInterface”

public interface INestedInterfaceTest
如何在android gridview中为行设置不同的列

我想要一个与此类似的网格视图每个奇数行将有两个大尺寸图像偶数行将有四个较小图像我怎样才能实现这一点我有类似的东西我用新的 RecyclerView 解决了我创建了一个带有 a 的片段回收视图 https developer an
如何修复 Chrome 开发者窗口中的“待处理”状态？

When I try to include social media scripts into my page I get the pending status in Chrome on some computers not all of
无法获得 WRITE_SETTINGS 权限

当我在 Android M Preview 3 上的目标 API 为 23 时我似乎无法获取 Manifest permission WRITE SETTTINGS 权限 requestPermissions new String Man
如何将 UITableViewCell 与 UITableViewCellStyle 一起使用并正确重用单元格？

我想用UITableViewCellStyle Subtitle默认表格单元格的样式我在中找到了答案一个如此的答案 https stackoverflow com questions 24062285 how to set uitable
如何完全删除 QLayout 的边距（特定于 Mac OS）

Let me explain a simplified situation In Qt Creator create a QHBoxLayout containing a QPushButton and another QHBoxLayou
在 CakePHP 中向 Containable 添加条件

以前我依赖递归但我没有得到一些解决方案然后我发现 Containable 对于这些问题工作得很好我正在开发一个电影评论网站我需要显示与特定类型相关的电影列表我有下面的代码 example genre drama options a
在 Rails 中扩展 ruby gem

假设我有一个 Rails 应用程序它从 gem 例如 CMS 获取大部分功能如果我现在需要添加一些自定义例如向用户添加属性最佳实践方法是什么如果我自定义 gem 那么将来更新 gem 时将会遇到问题这里采取的最佳方法是什么这
我可以强制 CloudFormation 解析 Secrets Manager 中的值吗？

在下面缩写为 CloudFormation 模板中我尝试配置 AWS Lambda 函数以从注入其环境的 AWS Secrets Manager 获取值 Resources Function Type AWS Serverless F
如何向pairs()图中添加颜色键？

Goal 我有一个调整过的pairs情节在R我想为其添加一个颜色键面板背景位于pairs绘图显示由数字矩阵确定的某些颜色我想要在右侧有一个颜色键pairs显示这些颜色和一些指示数字的标签的图我找到了一些添加颜色键的方法image 绘图
Android相机无法从后台服务拍照

我已经实现了一项从后台线程拍照的服务但照片永远不会在我的任何设备上拍摄这是代码下面记录输出 public class PhotoCaptureService extends Service private static final S
jQuery，如何通过选中复选框来调用 url

我有这个 span Facebook span
iPhone 5 屏幕高度错误

我在 3 5 英寸屏幕上开发了一个应用程序现在我为 4 英寸屏幕制作了一个新的 Storyboard 我喜欢按照以下方式在 appdelegate 上的 Storyboard 之间切换我记录了屏幕高度它给了我 480 00000 检查
来自不同框架的扩展方法的名称冲突

作为测试我创建了两个框架两个框架都包含此扩展 public extension UIDevice var extraInfo UIDeviceExtraInfo return UIDeviceExtraInfo public class
Python：基于nosetest是否运行的条件变量

我正在运行鼻子测试它有一个设置功能需要加载与生产数据库不同的数据库我使用的 ORM 是 peewee 它要求在定义中设置模型的数据库所以我需要设置一个条件变量但我不知道使用什么条件来检查 nostest 是否正在运行该文件我在
Numpy排列浮点不一致

我有一个相当简单的 numpy 任务创建一个长数组每个元素递增 0 001 当然 np arange就是答案我将自己限制为默认精度 float64 对结果的一个简单检查是数组的每 1000 个元素应该具有相同的小数部分我通过绘图检查
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI

如何优化这个 CUDA 内核

如何优化这个 CUDA 内核 的相关文章

随机推荐

热门标签

如何优化这个 CUDA 内核的相关文章