CUDA 零复制内存注意事项

2023-11-24

我试图弄清楚使用 cudaHostAlloc （或 cudaMallocHost？）是否合适。

我正在尝试运行一个内核，其中我的输入数据超过 GPU 上的可用数据量。

我的 cudaMallocHost 空间可以大于 GPU 上的空间吗？如果没有，假设我分配了我需要的 1/4 空间（适合 GPU），那么使用固定内存有什么优势吗？

我本质上仍然必须从 1/4 大小的缓冲区复制到我的全尺寸 malloc'd 缓冲区中，这可能不会比仅使用正常的 cudaMalloc 更快，对吧？

对于使用 cudaMallocHost，以下典型使用场景是否正确：

分配固定主机内存（我们称之为“h_p”）
用输入数据填充 h_p -
获取 GPU 上 h_p 的设备指针
使用该设备指针运行内核来修改数组的内容-
像平常一样使用 h_p，现在已经修改了内容 -

那么 - 在第 4 步和第 5 步之间没有副本必须满意，对吧？

如果这是正确的，那么我可以看到至少一次适合 GPU 的内核的优势

内存传输是影响 CUDA 应用程序性能的一个重要因素。cudaMallocHost可以做两件事：

分配固定内存：这是 CUDA 运行时可以跟踪的页锁定主机内存。如果以这种方式分配的主机内存涉及cudaMemcpy作为源或目标，CUDA 运行时将能够执行优化的内存传输。
分配映射内存：这也是页锁定内存，可以直接在内核代码中使用，因为它映射到 CUDA 地址空间。为此，您必须设置cudaDeviceMapHost标志使用cudaSetDeviceFlags在使用任何其他 CUDA 函数之前。 GPU内存大小不限制映射的主机内存的大小。

我不确定后一种技术的性能。它可以让你很好地重叠计算和通信。

如果您访问内核中的块内存（即您不需要整个数据，而只需要一部分），您可以使用利用异步内存传输的多缓冲方法cudaMemcpyAsync通过在 GPU 上拥有多个缓冲区：在一个缓冲区上进行计算，将一个缓冲区传输到主机，同时将一个缓冲区传输到设备。

使用时我相信您关于使用场景的断言是正确的cudaDeviceMapHost分配类型。您不必执行显式副本，但肯定会有您看不到的隐式副本。它有可能与您的计算很好地重叠。请注意，您可能需要同步内核调用以确保内核完成并且您在 h_p 中拥有修改后的内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

CUDA 零复制内存注意事项的相关文章

BASIC 中的 C 语言中的 PeekInt、PokeInt、Peek、Poke 等效项

我想知道该命令的等效项是什么Peek and Poke 基本和其他变体用 C 语言类似PeekInt PokeInt 整数涉及内存条的东西我知道在 C 语言中有很多方法可以做到这一点我正在尝试将基本程序移植到 C 语言这只是使用
在模板类中声明模板友元类时出现编译器错误

我一直在尝试实现我自己的链表类以用于教学目的我在迭代器声明中指定了 List 类作为友元但它似乎无法编译这些是我使用过的 3 个类的接口 Node h define null Node
STL 迭代器：前缀增量更快？ [复制]

这个问题在这里已经有答案了可能的重复 C 中的预增量比后增量快正确吗如果是为什么呢 https stackoverflow com questions 2020184 preincrement faster than postinc
在一个数据访问层中处理多个连接字符串

我有一个有趣的困境我目前有一个数据访问层它必须与多个域一起使用并且每个域都有多个数据库存储库具体取决于所调用的存储过程目前我只需使用 SWITCH 语句来确定应用程序正在运行的计算机并从 Web config 返回适当的连接字
std::list 线程push_back、front、pop_front

std list 线程安全吗我假设不是这样所以我添加了自己的同步机制我认为我有正确的术语但我仍然遇到问题每个函数都由单独的线程调用 Thread1 不能等待它必须尽可能快 std list
随着时间的推移，添加到 List 变得非常慢

我正在解析一个大约有 1000 行的 html 表我从一个字符串中添加 10 个字符串 td 每行到一个list td
如何使从 C# 调用的 C（P/invoke）代码“线程安全”

我有一些简单的 C 代码它使用单个全局变量显然这不是线程安全的所以当我使用 P invoke 从 C 中的多个线程调用它时事情就搞砸了如何为每个线程单独导入此函数或使其线程安全我尝试声明变量 declspec thread 但
用于 FTP 的文件系统观察器

我怎样才能实现FileSystemWatcherFTP 位置在 C 中这个想法是每当 FTP 位置添加任何内容时我都希望将其复制到我的本地计算机任何想法都会有所帮助这是我之前问题的后续使用 NET 进行选择性 FTP 下载 ht
对类 static constexpr 结构的未定义引用，g++ 与 clang

这是我的代码 a cp p struct int2 int x y struct Foo static constexpr int bar1 1 static constexpr int2 bar2 1 2 int foo1 return
C++ 多行字符串原始文字[重复]

这个问题在这里已经有答案了我们可以像这样定义一个多行字符串 const char text1 part 1 part 2 part 3 part 4 const char text2 part 1 part 2 part 3 part 4
需要帮助优化算法 - 两百万以下所有素数的总和

我正在尝试做一个欧拉计划 http projecteuler net问题我正在寻找 2 000 000 以下所有素数的总和这就是我所拥有的 int main int argc char argv unsigned long int su
访问外部窗口句柄

我当前正在处理的程序有问题这是由于 vista Windows 7 中增强的安全性引起的特别是 UIPI 它阻止完整性级别较低的窗口与较高完整性级别的窗口对话就我而言我想告诉具有高完整性级别的窗口进入我们的应用程序它在 XP 或
两个静态变量同名（两个不同的文件），并在任何其他文件中 extern 其中一个

在一个文件中将变量声明为 static 并在另一个文件中进行 extern 声明我认为这会在链接时出现错误因为 extern 变量不会在任何对象中看到因为在其他文件中声明的变量带有限定符 static 但不知何故链接器瑞萨没有显
结构体的内存大小不同？

为什么第一种情况不是12 测试环境最新版本的 gcc 和 clang 64 位 Linux struct desc int parts int nr sizeof desc Output 16 struct desc int parts
x:将 ViewModel 方法绑定到 DataTemplate 内的事件

我基本上问同样的问题这个人 https stackoverflow com questions 10752448 binding to viewmodels property from a template 但在较新的背景下x Bind V
C# xml序列化必填字段

我需要将一些字段标记为需要写入 XML 文件但没有成功我有一个包含约 30 个属性的配置类这就是为什么我不能像这样封装所有属性 public string SomeProp get return someProp set if som
为什么使用小于 32 位的整数？

我总是喜欢使用最小尺寸的变量这样效果就很好但是如果我使用短字节整数而不是整数并且内存是 32 位字可寻址这真的会给我带来好处吗编译器是否会做一些事情来增强内存使用对于局部变量它可能没有多大意义但是在具有数千甚至数百万项的结构
有没有办法让 doxygen 自动处理未记录的 C 代码？

通常它会忽略未记录的 C 文件但我想测试 Callgraph 功能例如您知道在不更改 C 文件的情况下解决此问题的方法吗设置变量EXTRACT ALL YES在你的 Doxyfile 中
在 WPF 中使用 ReactiveUI 提供长时间运行命令反馈的正确方法

我有一个 C WPF NET 4 5 应用程序用户将用它来打开某些文件然后应用程序将经历很多动作读取文件通过许多插件和解析器传递它这些文件可能相当大 gt 100MB 因此这可能需要一段时间我想让用户了解 UI 中发生的情况
C++ 中的 include 和 using 命名空间

用于使用cout 我需要指定两者 include

随机推荐

Meteor.js 可以使用 Cassandra 而不是 MongoDB 吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在启动一个创建客户支持系统的项目对于这个系统我看过Meteor js 看起来很有趣问题是我们想使用构建系统的其余部分卡桑德拉所以我的问题如下 meteor js 也可以与
Spring Boot 1.5.2 - Web 应用程序在加载徽标后停止？

我在使用 Spring Boot 时遇到了一个非常奇怪的问题我不知道为什么使用 Spring Boot 的 Web 应用程序无法启动并且即使我直接在终端上运行它也没有输出错误 java jar var lib tomcat webapp
读取带有动态键字段的表？

我有一张桌子的名字DATA lv tablename TYPE tabname VALUE xxxxx 和一个通用的FIELD SYMBOLS
激活资源过滤后编码错误

我正在开发一个基于 Maven 的网络项目在我的网络模块中我使用不同语言的特定资源包德语西班牙我的所有源代码均基于 UTF 8 一切正常现在需要根据不同的maven配置文件激活maven资源过滤来替换一些配置我的 pom xm
通过表达式在变量中设置 SSIS 包中昨天的日期

我正在设置一个变量SSIS包我正在使用这个表达式 DATEPART yyyy GETDATE 10000 DATEPART month GETDATE 100 DATEPART day GETDATE 该表达式将为我提供一个变量值例如
如何将 String 转换为 BeautifulSoup 对象？

我正在尝试抓取新闻网站并且需要更改一个参数我将其更改为替换为下一个代码 while i lt len links conn urllib urlopen links i html conn read soup BeautifulSoup
read.csv 警告“带引号的字符串内的 EOF”阻止完整读取文件

I have CSV 文件 24 1 MB 我无法完全读懂我的 R 会话当我在电子表格程序中打开该文件时我可以看到 112 544 行当我将其读入 R 时read csv我只收到 56 952 行和此警告 cit lt read cs
如何在 OpenCV 中读取 Adobe RGB 色彩空间的 jpeg 图像？

我正在尝试在 OpenCV 中使用 Adob e RGB 色彩空间读取和写入 jpeg OpenCV 假定 jpeg 具有 sRGB 色彩空间并且在显示或写入文件时图像会丢失一些颜色强度我发现这种强度损失是由于我的答案的色彩空间差异造
如何在 auto_increment 列中找到“漏洞”？

例如当我删除 id 3 时我有以下内容 id name 1 2 4 5 现在我想搜索丢失的 id 因为我想再次填充 id INSERT INTO xx id VALUES 3 有没有办法在 auto increment 索引中搜索漏
在 Visual Studio 2015 中调试本机 Android 库时断点不起作用

在全新安装的 Visual Studio 2015 上我创建了一个 Android 应用程序和 Android 本机库本机库中的函数通过 DllImport 指令在应用程序代码中引用当我为主应用程序选择 Xamarin 调试器并开始
如何让我的通用比较器 (IComparer) 处理空值？

我正在尝试编写一个用于排序的通用对象比较器但我注意到它不能处理它所比较的值之一为空的实例当一个对象为空时我希望它像空字符串一样对待它我尝试将 null 值设置为 String Empty 但在调用 CompareTo 时出现对象
如何调试已签名发布的 APK？

我有一个已发布的 APK 已签名上传到 Google Play 并安装在我的 Android 设备上我想在我的 Android 设备上运行此 APK 时对其进行调试通过 Android Studio 或 Eclipse 我以前做过这个
为什么当我将鼠标悬停在 VS Code 上时，它会出现类似芯片/扭曲的显示？

这是我尝试使用 VS Code 时得到的视图我已经重新安装并重新启动了系统但没有任何进展每当我打开 VS Code 并想要启动一个项目时当我悬停鼠标时情况会变得越来越糟我最初以为我的一般显示有问题它不会影响其他应用程序只是
我应该在构造函数中使用 getter 和 setter 吗？ [复制]

这个问题在这里已经有答案了初始化类时在构造函数中使用 getter 和 setter 函数是一个好习惯吗或者直接设置变量是一个好习惯因为构造函数可以被认为是一种变异器您不应该从构造函数中调用 getter 和 setter 构造函
带有宏的类型安全通用容器

我正在尝试使用宏在 C 中创建类型安全的通用链表它的工作方式应该与 C 中模板的工作方式类似例如 LIST int list LIST CREATE int 我的第一次尝试是为了 define LIST TYPE 我上面使用的宏定义一
从“react”导入 React 会导致未捕获的语法错误：意外的标识符

我已经安装了 webpack 3 以及 babel 和我的条目index js bundle js将构建并运行我已经使用 ES7 8 功能对其进行了测试但是导入不起作用并导致Uncaught SyntaxError Unexpected
“= =”是什么意思？ [复制]

这个问题在这里已经有答案了我注意到有人使用 PHP 运算符我无法理解我用一个函数尝试过它以疯狂的方式对应这个运算符的定义是什么我什至在 PHP 运算符的声明中找不到它 a b Identical TRUE if a等于 b 并且
Android：无法销毁活动

我使用以下代码来删除每个视图组上的子项 protected void onDestroy super onDestroy this liberarMemoria public void liberarMemoria imagenes rec
如何获取应用程序的Windows任务栏按钮以显示进度条的进度

Windows 7 或者是 Vista 中引入的功能之一是应用程序的任务栏按钮能够显示该应用程序中进度条的进度当我创建表单并在其上放置进度条时它不会显示在任务栏按钮中因此我认为这不会自动完成如何让 Windows 7 在应用程序的任
CUDA 零复制内存注意事项

我试图弄清楚使用 cudaHostAlloc 或 cudaMallocHost 是否合适我正在尝试运行一个内核其中我的输入数据超过 GPU 上的可用数据量我的 cudaMallocHost 空间可以大于 GPU 上的空间吗如果没有

CUDA 零复制内存注意事项

CUDA 零复制内存注意事项 的相关文章

随机推荐

热门标签

CUDA 零复制内存注意事项的相关文章