从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？

2024-01-10

我一直在努力改变一些cuda/C代码变成更面向对象的代码，但以我目前对cuda运行机制的理解来说，我的目标似乎并不容易实现。对于这种情况我也找不到很好的解释。毕竟这可能是不可能的。

我有一个global类的对象myClass保存一个要填充到内核中的数组。

中的方法应该如何myClass定义数组和布尔成员从设备可见然后数组可以是复制回主机？我使用的是 cuda 7.5，我的卡的计算能力是 3.5。

这是描述情况的暂定结构：

#include <cstdio>
#include <cuda.h>
#include <cuda_runtime.h>

class myClass
{
public:
        bool bool_var;    // Set from host and readable from device
        int  data_size;   // Set from host
        __device__ __host__ myClass();
        __device__ __host__ ~myClass();
        __host__ void setValues(bool iftrue, int size);
        __device__ void dosomething(int device_parameter);
        __host__ void export();

        // completely unknown methods
        __host__ void prepareDeviceObj();
        __host__ void retrieveDataToHost();
private:
        int *data; // Filled in device, shared between threads, at the end copied back to host for data output
};

__host__ __device__ myClass::myClass()
{
}

__host__ __device__ myClass::~myClass()
{
#ifdef __CUDACC__
        if(bool_var)
                cudaFree(data);
#else
        free(data);
#endif
}

__host__ void myClass::setValues(bool iftrue, int size)
{
        bool_var  = iftrue;
        data_size = size;
}

__device__ void myClass::dosomething(int idx)
{
        int toadd = idx+data_size;
        atomicAdd(&data[idx], toadd); // data should be unique among threads
}


__global__ void myKernel(myClass obj)
{
        const int idx = blockIdx.x*blockDim.x + threadIdx.x;
        if(idx < obj.data_size)
        {
                if(!obj.bool_var)
                        printf("Object is not up to any task here!");
                else
                {
                        printf("Object is ready!");
                        obj.dosomething(idx);
                }
        }
}


myClass globalInstance;

int main(int argc, char** argv)
{
        int some_number = 40;
        globalInstance.setValues(true, some_number);
        globalInstance.prepareDeviceObj();           // unknown
        myKernel<<<1,some_number>>>(globalInstance); // how to pass the object?
        globalInstance.retrieveDataToHost();         // unknown
        globalInstance.export();
        exit(EXIT_SUCCESS);
}

你的方法应该是可行的。当您按值传递对象作为内核参数时（正如您所指出的），实际上不需要进行太多与从主机到设备的传输相关的设置。

您需要在主机和设备上正确分配数据，并使用cudaMemcpy在适当的点键入操作来移动数据，就像在普通 CUDA 程序中一样。

在全局范围内声明对象时需要注意的一件事是，建议这样做not在对象的构造函数或析构函数中使用 CUDA API 调用。原因已涵盖here https://stackoverflow.com/questions/24869167/trouble-launching-cuda-kernels-from-static-initialization-code，我这里就不重复了。尽管这种处理主要集中在 main 之前启动的内核，但 CUDA 延迟初始化也会影响在 main 之外执行的任何 CUDA API 调用main范围，适用于在全局范围内实例化的对象的构造函数和析构函数。

以下是您所展示的一个充实的示例。我基本上没有更改您已经编写的代码，只是为您没有添加的代码添加了一些方法定义。显然这里有很多不同的可能方法。有关更多示例，您可能需要查看CUDA C++集成示例代码 http://docs.nvidia.com/cuda/cuda-samples/index.html#cpp-integration.

这是围绕您所展示的内容的一个有效示例：

$ cat t1236.cu
#include <cstdio>

class myClass
{
public:
        bool bool_var;    // Set from host and readable from device
        int  data_size;   // Set from host
        __host__ myClass();
        __host__ ~myClass();
        __host__ void setValues(bool iftrue, int size);
        __device__ void dosomething(int device_parameter);
        __host__ void export_data();

        // completely unknown methods
        __host__ void prepareDeviceObj();
        __host__ void retrieveDataToHost();
private:
        int *data; // Filled in device, shared between threads, at the end copied back to host for data output
        int *h_data;
};

__host__ myClass::myClass()
{
}

__host__ myClass::~myClass()
{
}

__host__ void myClass::prepareDeviceObj(){
        cudaMemcpy(data, h_data, data_size*sizeof(h_data[0]), cudaMemcpyHostToDevice);
}
__host__ void myClass::retrieveDataToHost(){
        cudaMemcpy(h_data, data, data_size*sizeof(h_data[0]), cudaMemcpyDeviceToHost);
}

__host__ void myClass::setValues(bool iftrue, int size)
{
        bool_var  = iftrue;
        data_size = size;
        cudaMalloc(&data, data_size*sizeof(data[0]));
        h_data = (int *)malloc(data_size*sizeof(h_data[0]));
        memset(h_data, 0, data_size*sizeof(h_data[0]));
}

__device__ void myClass::dosomething(int idx)
{
        int toadd = idx+data_size;
        atomicAdd(&(data[idx]), toadd); // data should be unique among threads
}
__host__ void myClass::export_data(){
        for (int i = 0; i < data_size; i++) printf("%d ", h_data[i]);
        printf("\n");
        cudaFree(data);
        free(h_data);
}


__global__ void myKernel(myClass obj)
{
        const int idx = blockIdx.x*blockDim.x + threadIdx.x;
        if(idx < obj.data_size)
        {
                if(!obj.bool_var)
                        printf("Object is not up to any task here!");
                else
                {
                        //printf("Object is ready!");
                        obj.dosomething(idx);
                }
        }
}


myClass globalInstance;

int main(int argc, char** argv)
{
        int some_number = 40;
        globalInstance.setValues(true, some_number);
        globalInstance.prepareDeviceObj();
        myKernel<<<1,some_number>>>(globalInstance);
        globalInstance.retrieveDataToHost();
        globalInstance.export_data();
        exit(EXIT_SUCCESS);
}
$ nvcc -o t1236 t1236.cu
$ cuda-memcheck ./t1236
========= CUDA-MEMCHECK
40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
========= ERROR SUMMARY: 0 errors
$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？的相关文章

MVVM：来自 FileOpenPicker 的图像绑定源

我将 OnActivated 添加到 app xaml cs 中它可以正常工作 protected async override void OnActivated IActivatedEventArgs args var continua
处理器关联组 C#

我使用的是 72 核的 Windows Server 2016 我看到有两组处理器我的 net 应用程序将使用一个或其他组我需要能够强制我的应用程序使用我选择的组我看到下面的代码示例但我无法使其工作我可能传递了错误的变量我希望应
没有配置身份验证处理程序来处理该方案

这是一个非常烦人的问题我在我的 asp net core 项目上设置 cookie 身份验证有时会出现此错误有时不会没有图案它只是开始抛出错误然后突然停止然后再次开始例外情况是 InvalidOperationExcepti
字符串/分段错误

Program to calculate trip and plan flights define TRIP 6 define NAMEMAX 40 define DEST 1 include
如何反序列化 XML 文档

如何反序列化此 XML 文档
如何将 dll 中包含的组件嵌入到 exe 中，以便它可以从内存运行？

我正在尝试制作一个必须从内存运行的程序通过Assembly Load bin 如上所述here http www codeproject com Articles 13897 Load an EXE File and Run It fro
MVC BaseController 处理 CRUD 操作

我想重构我的基本 CRUD 操作因为它们非常重复但我不确定最好的方法我的所有控制器都继承 BaseController 如下所示 public class BaseController
在 C++ 中，为什么 const 也可以工作时编译器选择非常量函数？ [复制]

这个问题在这里已经有答案了例如假设我有一堂课 class Foo public std string Name m maybe modified true return m name const std string Name cons
将两个垂直滚动条相互绑定

我在控件中有两个 TextBox 并且它们都有两个 VerticalScrollBar 我想在它们之间绑定 VerticalScrollBars 如果一个向上第二个也会向上等等如果可以的话我该怎么做 Thanks 不是真正的绑定但它有
绑定集合的子集

我有一个ObservableCollection
Qt 多重继承和信号

由于 QObject 我在 QT 中遇到了有关多重继承的问题我知道很多人也有同样的问题但我不知道该如何解决 class NavigatableItem public QObject Q OBJECT signals void desel
对列表中的一系列整数求和

假设我有一个这样的列表 List
Qt - 添加超链接到对话框

有没有办法在 Qt 对话框中添加可点击的超链接 IE 它应该看起来像一个超链接蓝色文本当您单击它时它应该在浏览器中打开该超链接像这样的东西 Use QLabel setOpenExternalLinks bool 并在标签上设置文本
模板类中模板方法专门化的 clang 自动返回类型错误？

试图理解另一个问题 https stackoverflow com questions 38054055 clang fails to compile template function with auto return type insi
使用 StartServiceCtrlDispatcher 与 StartService 从 C 语言启动 Windows 服务有什么区别？

我尝试使用 StartServiceCtrlDispatcher 中所述https msdn microsoft com en us library windows desktop bb540475 v vs 85 aspx https m
如何检查日期时间是否发生在今天？

有没有比下面的代码更好的 net 方法来检查今天是否发生了 DateTime if newsStory WhenAdded Day DateTime Now Day newsStory WhenAdded Month DateTime
C 中的等效 plpgsql 触发器

我有一个 PostgreSQL 9 0 服务器并且在某些表上使用继承因此我必须通过如下触发器模拟外键 CREATE OR REPLACE FUNCTION othertable before update trigger RETURNS
将“C# 友好类型”名称转换为实际类型：“int” => typeof(int)

我想得到一个System Type给定一个string指定原始类型C 友好名称基本上与 C 编译器读取 C 源代码时的方式相同我觉得描述我所追求的最好方式是单元测试的形式我希望存在一种通用技术可以使以下所有断言通过而不是尝试对
如何正确处置注入的DLL线程？

我将一个 DLL 注入到目标进程中以在玩 MMORPG 时充当助手当前功能将按键转换为鼠标点击因为 MMORPG 要求用户移动鼠标才能实现某些功能这是我所鄙视的假设我出于某种原因想要取消注入 DLL 我该怎么做呢这个方法干净吗
在派生类中访问基类变量

class Program static void Main string args baseClass obj new baseClass obj intF 5 obj intS 4 child obj1 new child Consol

随机推荐

WPF ListBox WrapPanel 剪辑长组

我创建了一个列表框来按组显示项目当组不再适合列表框面板的高度时它们会从右到左换行因此组在列表框中的显示与此类似其中每个组的高度是任意的例如组 1 的高度是组 2 的两倍 1 3 5 4 6 2 以下 XAML 工作正常因为它
malloc 如何与严格别名一起工作 - 它只能在单个编译单元内被违反吗？

看完之后this https stackoverflow com questions 54237004 strict aliasing rule uint8 t buffer to structure 我有一个类似的问题this one h
在 OSX 和 Mono 上使用 C# 进行开发

我即将启动一个需要我编写 C 代码的项目问题是我有一台 Mac 我想知道在 OSX 10 6 上使用 mono 进行 c 开发是否存在任何陷阱我认为该页面很清楚实现很清晰但另一方面我读到人们安装 VMWare 或类似的东西来使用
如何提交不更改和新消息？

我怎样才能制作一个新的commit如果没有对文件进行任何更改则创建一条新消息这是不可能的因为提交的代码 SHA 将是相同的很少有充分的理由这样做但参数是 allow empty对于空提交没有更改文件与 allow empty
Pandas groupby 结合 sklean 预处理续

从这篇文章继续 Pandas groupby 与 sklearn 预处理相结合 https stackoverflow com questions 42772758 pandas groupby in combination with sk
JavaScript 中数组扩展语法的替代方案

所以我正在使用使用 ES5 JavaScript 的旧代码库这意味着我无法传播数组 var listOfItems item1 test 1 item2 test2 2 var docDefinition style piecesTabl
如何创建一个有时间限制的哈希/密钥？

我正在尝试创建一个有时间限制的密钥以在我的一个应用程序中使用该密钥用于解锁应用程序中的某些功能到目前为止我的想法是生成加密哈希我需要的各种信息密钥生成日期验证加密哈希我需要的各种信息现在的日期如果所有信息都相同且日期相同
facebook-api：Facebook Connect 跨域接收者 URL 是什么？

我正在尝试配置我的 Facebook 应用程序可调整大小文档位于http wiki developers facebook com index php Ressized IFrame http wiki developers facebo
编译时检查特征特化是否具有唯一的 id

我看过很多帖子解释如何为类生成唯一的 id 就我而言 id 由用户选择出于各种原因但我想确保没有 id 在不同的类中使用两次我将问题简化为以下代码 struct A struct B template
html.hidden 未在 asp.net MVC 核心 Razor 视图中设置值

我正在开发一个 ASP NET MVC 核心应用程序我有一个带有如下表单元素的弹出窗口 using Html BeginForm AddIVR ITPVoice FormMethod Post new role form Html Hid
应用程序处理错误：意外的 CFBundleExecutable 密钥

我正在尝试在启用 bitCode 的情况下向 Apple 提交每次我提交时我都会收到这封电子邮件我们发现您最近交付的 MyAPPP 存在一个或多个问题要处理您的交货必须纠正以下问题意外CFBundle可执行密钥 Payload M
Sass 从模块扩展类

使用 sass 中的新模块系统使用 use 而不是 import 我如何在一个文件中定义一个类并使用 extend 在另一个文件中使用它 File 颜色 scss element background color blue 主文件 use
如何将包发布到 TeamCity nuget 服务器？

我们有一个为 nuget 配置的 TeamCity 7 服务器它托管在没有外部连接的计算机上是否可以将包发布到 TeamCity nuget 服务器例如如果我们想要将 log4net 包依赖项添加到我们的项目之一则需要将其发布到
查找数组中大于或等于N的数

如果我有一个 PHP 数组 array 具有价值观 45 41 40 39 37 31 我有一个变量 number 38 如何返回值 39 因为这是数组中最接近 38 向上计数的值 Regards taylor
通过 fontforge 脚本获取字形宽度

为了获取字形宽度我将TTF字体为AFM 然后解析内容AFM文件来获取每个字形的宽度由于从技术上来说 fontforge正在从二进制文件中捕获字形宽度TTF文件然后创建一个AFM字体文件基于AFM标准模板我想知道是否可以直接转换TTF
如何检查 django 模板中的复选框是否被选中

我需要检查 django 模板中是否选中了复选框如果为 False 则打开其他一些字段我已经尝试过类似的事情 if closed in is closed 但无论复选框是否选中它们始终为 True 这是我在模板中的复选框属性
如何在c#中获取先前的控制权

如何在c 中获取先前的控制权有一种方法可以GetNextControl但没有办法获得先前的控制权谁能告诉我如何得到这个提前致谢 GetNextControl Control control bool forward 您可以指定是否要向
将最喜欢的方法添加到 IntelliJ 中的静态导入？

在 Eclipse 中可以配置某些最喜欢的类在调用代码完成时将查找这些类以查看是否可以为方法添加静态导入这位于首选项 gt Java gt 编辑器 gt 内容辅助 gt 收藏夹例如我可以开始输入assertT Eclipse
Android CursorLoader，尝试重新查询已经关闭的游标

我刚刚开始使用新的cursorLoader 但遇到了问题下面的代码只是为了理解cursorLoader是如何工作的但我不断得到当我恢复此活动时尝试重新查询已关闭的游标在我开始使用 CursorLoader 之前该应用程序运行良好
从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？

我一直在努力改变一些cuda C代码变成更面向对象的代码但以我目前对cuda运行机制的理解来说我的目标似乎并不容易实现对于这种情况我也找不到很好的解释毕竟这可能是不可能的我有一个global类的对象myClass保存一个要填充到内

从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？

从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？ 的相关文章

随机推荐

热门标签

从 cuda 内核中访问类数据成员 - 如何设计正确的主机/设备交互？的相关文章