将 2D 数组复制到已知可变宽度的 GPU

2023-12-11

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中。

int rows = 1000;
int cols;
int** host_matrix = malloc(sizeof(*int)*rows);
int *d_array;
int *length;

...

Each host_matrix[i]可能有不同的长度，我知道length[i]，这就是问题开始的地方。我想避免复制虚拟数据。有更好的方法吗？

根据这个thread，这不是一个聪明的方法：

cudaMalloc(d_array, rows*sizeof(int*));  
for(int i = 0 ; i < rows ; i++)    {  
    cudaMalloc((void **)&d_array[i], length[i] * sizeof(int)); 
}

但我想不出任何其他方法。还有其他更聪明的方法吗？可以使用 cudaMallocPitch 和 cudaMemCpy2D 改进吗？

在 CUDA 中为 GPU 分配指针数组的正确方法是这样的：

int **hd_array, **d_array;
hd_array = (int **)malloc(nrows*sizeof(int*));
cudaMalloc(d_array, nrows*sizeof(int*));  
for(int i = 0 ; i < nrows ; i++)    {  
    cudaMalloc((void **)&hd_array[i], length[i] * sizeof(int)); 
}
cudaMemcpy(d_array, hd_array, nrows*sizeof(int*), cudaMemcpyHostToDevice);

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）

这个想法是你在中组装设备指针数组的副本host首先内存，然后将其复制到设备。对于 1000 行的假设情况，这意味着 1001 次调用cudaMalloc然后拨打 1001cudaMemcpy只需设置设备内存分配并将数据复制到设备中。那是一个enormous开销处罚，我建议不要尝试；表现将非常糟糕。

如果你有very锯齿状数据并且需要将其存储在设备上，我是否可以建议借鉴所有锯齿状数据问题的根源 - 大型、非结构化稀疏矩阵 - 并为您的数据复制一种稀疏矩阵格式。使用经典压缩稀疏行格式化为模型你可以这样做：

int * data, * rows, * lengths;

cudaMalloc(rows, nrows*sizeof(int));
cudaMalloc(lengths, nrows*sizeof(int));
cudaMalloc(data, N*sizeof(int));

在此方案中，将所有数据存储在单个线性内存分配中data。锯齿状数组的第 i 行开始于data[rows[i]]每行的长度为length[i]。这意味着您只需要三个内存分配和复制操作即可将任意数量的数据传输到设备，而不是nrows在你当前的计划中，即。它将开销从 O(N) 减少到 O(1)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 2D 数组复制到已知可变宽度的 GPU 的相关文章

CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
是否可以保证 WaveFront (OpenCL) 中的所有线程始终同步？

众所周知有WARP 在CUDA中和WaveFront 在OpenCL中 http courses cs washington edu courses cse471 13sp lectures GPUsStudents pdf http
CUDA 的嵌套循环

我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数？

我正在研究一个随机过程我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数这类似于我们在 C 中声明种子时间空接下来是 srand 种子和兰特我可以通过内核将种子从主机传递到设备但是这样做的问题是我必须将整个种子
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
goto 指令对 CUDA 代码中扭曲内发散的影响

对于CUDA中简单的warp内线程发散我所知道的是SM选择一个重新收敛点 PC地址并在两个多个路径中执行指令同时禁用未采用该路径的线程的执行效果例如在下面的代码中 if threadIdx x lt 16 A do someth
为什么 CUDA 内存复制速度会这样，有一些恒定的驱动程序开销？

在我的旧 GeForce 8800GT 上使用 CUDA 内存时我总是会遇到奇怪的 0 04 毫秒开销我需要将 1 2K 传输到设备的常量内存中处理其中的数据并从设备中仅获取一个浮点值我有一个使用 GPU 计算的典型代码 alloc
对浮点数求和的最佳 OpenCL 2 内核是什么？

C 17引入了许多新算法来支持并行执行特别是标准减少 http en cppreference com w cpp algorithm reduce是一个并行版本std 累积 http en cppreference com w cpp

随机推荐

避免身份列中的空白

我有一张桌子在MS SQL SERVER 2008我已经设置了它primary key自动递增但如果我从此表中删除任何行并在表中插入一些新行它将从下一个标识值开始这会在标识值中创建间隙我的程序要求所有身份或密钥按顺序排列喜欢分配
JavaScript 使用过滤器和循环从数组中删除多个值

我是新来的需要一些编写函数的帮助destroyer 从数组中删除多个值 destroyer 函数传入一个数组和附加数字作为参数这个想法是从数组中删除数字 E g destroyer 1 2 3 1 2 3 2 3 Output 1 1
如何转换Big Endian以及如何翻转最高位？

我正在使用 TStream 读取二进制数据感谢这篇文章如何使用 TFileStream 将二维矩阵读入动态数组我的下一个问题是数据是大端字节序根据我的阅读 Swap 方法似乎已被弃用我如何交换以下类型 16 bit two s c
为ARM处理器编译基本C文件

我正在使用 GCC 工具链的 Yagarto 重新编译我正在尝试编译这个简单的程序以获得 elf可执行文件 int main void return 0 当输入命令时arm none eabi gcc main c我收到错误消息 c ya
类型错误：无法在“URL”上执行“createObjectURL”：未找到与提供的签名匹配的函数

我有一个 Angular 8 应用程序我用 jasmine karma 做了一些单元测试这是 component ts export class DossierPersonalDataComponent implements OnIni
如何在 IndexedDB 中保存对象？

我想将我的API数据存储在浏览器的indexedDB中我本想尝试本地存储但它的限制为 5MB 但我的 JSON 数据超过 7MB 我想保存在indexedDB中以便更快地访问我想以 JSON 格式保存整个数据但不知道如何设置索引数据
Java Tab顺序：如何在java swing表中设置Tab顺序

我是 java 语言新手我想在其中设置制表符顺序JTable在java摇摆中我们如何在java swing中设置Tab顺序我假设您指的是 FocusTraversalPolicy 不确定这是否很容易在 JTable 内部处理但是这里
为什么在等待方法之后的代码中没有使用初始线程？

我不明白使用 async await 时如何将控制返回给调用者因为当我执行此代码时第一个线程在等待方法内调用任务时实际上被销毁并且给出结果的线程执行所有剩余代码下面我也画了一个我认为执行的图但似乎是错误的根据将控制权返回给调用者
Python 中的方法解析顺序

我是Python新手我正在使用 Python 2 7 我正在使用一个小片段来完成方法顺序解析如下所示 class A object attr A class B A pass class C A attr C class D B C p
使用 objshell.run 时找不到文件 -- vbscript

当我尝试运行脚本时它会抛出文件不存在的错误在脚本上它确实回显文件存在曾尝试过 objshell run apppath 但没有运气请帮忙 Set objFSO CreateObject Scripting FileSystemObj
PySide 将信号从 QThread 传递到另一个 QThread 中的槽

我通过移动解决了我的问题mySubQThread run 进入myQThread run 也就是说我仍然想知道为什么我之前尝试的方法不起作用我对线程很陌生我遇到了这个问题我认为我可能处理问题的方式是错误的无论如何我对不同的方法持
安装 psycopg2 时，在 venv 上使用 pip 时，“错误：--plat-name 必须是 ('win32'、'win-amd64'、'win-arm32'、'win-arm64') 之一”

点版本 23 1 1 Python版本 3 9 11 操作系统 Windows 11 我的python项目已创建并使用env作为虚拟环境 psycopg2 安装失败根据日志 psycopg2 构建轮子失败并且还显示不推荐使用许可证文
MGO：无法规范化查询：BadValue 未知运算符：$meta

我正在使用 MGO 与 mongodb 进行通信我想在集合中搜索并按搜索分数对结果进行排序 collection Find bson M text bson M search mysearch score bson M meta tex
当位置发生变化时如何获取位置

我想知道有没有一种方法可以在位置发生变化时获取位置我知道android提供了这个http developer android com training location receive location updates html获取位置更
Oracle - 修改现有表以自动增加列

我有一个包含以下列的表 NOTEID NUMBER NOT NULL 出于所有意图和目的此列是主键该表有几千行每行都有一个唯一的 ID 以前应用程序会从表中 SELECT MAX 值加一然后将其用作下一个值这是一个可怕的解决方
Android Studio ActionBar 宽度/图标位置

I have a problem with my ActionBar that results in my menu icon being pressed up against the edge of the screen 下面是我调整过的
从价格中删除无效字符

我有一个场景我必须使用 C 从价格字符串中删除某些字符我正在寻找一个正则表达式来删除这些字符或比这更好的东西例如如果价格字符串是 3 950 000 Ex TAX 我想删除 Ex TAX 从字符串中基本上我必须从字符串中删除除数字
v-for prop 值未通过引导模式更新

我有以下代码片段 div class list group item media div
计算在 Apple 地图中完成旅程所需的时间

我正在 MKMapView 上工作以获取两个位置之间的方向有什么方法可以获取完成此旅程所需的时间是否有任何内置属性MKRoute or MKDirection可以为我提供时间来完成这段旅程的课程吗任何帮助将不胜感激谢谢维卡斯 Y
将 2D 数组复制到已知可变宽度的 GPU

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each

将 2D 数组复制到已知可变宽度的 GPU

将 2D 数组复制到已知可变宽度的 GPU 的相关文章

随机推荐

热门标签