有没有一种有效的方法来优化我的序列化代码？

2024-05-06

这个问题缺乏细节。因此，我决定创建另一个问题而不是编辑这个问题。新问题在这里：我可以并行化我的代码吗？还是不值得？ https://stackoverflow.com/questions/17937438/can-i-parallelize-my-code-or-it-is-not-worth

我有一个在 CUDA 中运行的程序，其中一段代码在循环内运行（序列化，如下所示）。这段代码是在包含地址和/或 NULL 指针的数组中进行搜索。所有线程都执行下面的代码。

while (i < n) {
    if (array[i] != NULL) {
        return array[i];
    }
    i++;
}
return NULL;

Where n的大小是array并且数组位于共享内存中。我只对与 NULL（第一个匹配）不同的第一个地址感兴趣。

整个代码（我只发布了一段，整个代码很大）运行得很快，但是代码的“核心”（即重复较多的部分）是序列化的，如您所见。我想知道是否可以使用某些优化算法并行化这部分（搜索）。

就像我说的，程序已经在 CUDA 中（以及设备中的数组），因此它不会有从主机到设备的内存传输，反之亦然。

我的问题是：n不大。很难大于 8。

我尝试对其进行并行化，但我的“新”代码比上面的代码花费了更多时间。

我正在研究归约和最小运算，但我已经检查过它在以下情况下很有用：n is big.

那么，有什么建议吗？我可以有效地并行化它，即以较低的开销吗？

简单来说，GPGPU 代码的主要限制因素之一是内存管理。在大多数计算机中，将内存复制到设备 (GPU) 是一个缓慢的过程。

如图所示http://www.ncsa.illinois.edu/~kindr/papers/ppac09_paper.pdf http://www.ncsa.illinois.edu/~kindr/papers/ppac09_paper.pdf:

“获得有效的关键要求 GPU 子例程库的加速是最小化主机和 GPU 之间的 I/O。”

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPGPU

有没有一种有效的方法来优化我的序列化代码？的相关文章

cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数？

我正在研究一个随机过程我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数这类似于我们在 C 中声明种子时间空接下来是 srand 种子和兰特我可以通过内核将种子从主机传递到设备但是这样做的问题是我必须将整个种子
无法编译cuda_ndarray.cu：libcublas.so.7.5：无法打开共享对象文件

我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本其中我执行 py
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt

随机推荐

Android IllegalStateException：片段 null 必须是公共静态类才能从实例状态正确重新创建

我的 Android 应用程序出现以下异常 FATAL EXCEPTION main java lang IllegalStateException Fragment null must be a public static class t
我可以在导航抽屉的片段中使用 CollapsingToolbarLayout

我可以在导航抽屉的片段中使用 CollapsingToolbarLayout 吗我尝试这个样本 http www androidhive info 2015 04 android getting started with material
为什么我无法通过 Powershell DSC 在无人值守模式下配置 TFS Build Service？

使用以下 DSC 配置仅资源部分的片段删除 SO 的前导码诊断和 Start DscConfiguration 部分 Package TFSServer2013 Name Microsoft Team Foundation Serve
错误：找不到符号 array.add(element);

我有一个程序它从文件中读取获取每个单词并将其作为字符串添加到数组中我在将字符串添加到数组时遇到了一些麻烦我收到错误 SortingWords java 73 error cannot find symbol array add el
SendKeys 或 SendTextEntry 到游戏

我想制作一个程序来保存一些服务器 IP 地址并在用户想要使用时使用其中一个并且游戏不支持复制粘贴命令因此如果玩家想要加入另一个服务器就必须浪费时间输入IP地址我想让我的程序在用户按下 F12 按钮时在游戏的 IP 地址框中输入地
如何翻译 Sonata Admin Bundle 中的标签

我正在使用 Symfony 2 3 和 Sonata Admin Bundle 我知道我可以用这种方式翻译标签 gt add shortDescription null array label gt shortDescriptionTran
用于分页 ASP.Net 的中继器内的链接按钮

我正在制作一个带有搜索的网页该搜索从 MSSQL 中获取大量信息我所做的是一个存储过程仅返回要在网站上看到的页面现在我正在处理分页因为我需要显示类似于谷歌的内容如果您在第 1 页它们会显示前 10 页如果您在第 19 页它
MessageQueueException (0x80004005)：对消息队列系统的访问被拒绝

我有一个现有的应用程序可以在 Windows 2003 服务器上正常运行我已将其移至 Windows 2008r2 当应用程序尝试访问队列时出现以下错误我的应用程序池的 Indentity 用户可以完全控制我的消息队列有谁对如何解
从选定位置导入 Python 模块

假设我有三个脚本 Main py 包含所有导入 1 py 随机脚本 2 py 随机脚本 pyinstaller F onedir Main py 80mb pyinstaller F onedir 1 py 80mb pyinstaller
在 Python 中创建垂直 NumPy 数组

我在 Python 中使用 NumPy 来处理数组这是我用来创建垂直数组的方法 import numpy as np a np array 1 2 3 有没有一种简单更直接的方法来创建垂直数组您可以使用reshape or vstac
Scala：如何将“MatchesRegex”细化与包含反引号的正则表达式（细化库）一起使用？

The refined https github com fthomas refined库允许定义与给定匹配的细化regex 如图所示Readme import eu timepit refined import eu timepit re
如何在 Intellij IDEA 中构建和运行 Storm Topology

我按照 Storm Starter 说明并在 IntelliJ 中导入了 Twitter Storm 为了测试我编辑了感叹拓扑一点并使用以下 Maven 命令来构建并运行它 mvn f m2 pom xml compile exec ja
可运行的 JAR 无法与引用的库一起使用

我想创建一个可运行的 JAR 其中包含引用的库即jackson http jackson codehaus org 在 Eclipse 中通过导出过去有fat jar这似乎是 Eclipse 提供导出到可运行 JAR 之前的 goto
foo.Name undefined（类型接口{}没有字段或方法名称）

我使用本机 golang 包 container list 来管理堆栈中的 inotify 事件当我访问堆栈的项目时我的类型失败我认为 import golang org x exp inotify container list lo
C# 接口实现关系只是“Can-Do”关系？

今天有人告诉我 C 中的接口实现只是 Can Do 关系而不是 Is A 关系这与我长期以来所相信的LSP 里氏替换原理相冲突我一直认为所有的继承都应该意味着 Is A 关系所以如果接口实现只是一种 Can Do 关系如果有一
UICollectionView 单元格旋转后不水平

我有一个 UICollectionView 带有一个用于创建单元格的按钮该单元格应按创建顺序显示在空间允许的情况下横向和纵向 1 2 3 4 文本视图受到灵活宽度的限制以填充单元格单元格的大小取决于设备和旋转每行允许 1 2 3
是否可以仅在一张表上运行“symfonydoctrine build --all”任务？

如果我运行以下任务它会构建所有内容并清除数据库 php symfony doctrine build all 我希望此任务仅针对我放入 schema yml 的新表运行是否可以我认为你应该为此使用迁移首先您需要恢复初始状态当模式
实时搜索错误

我正在获取用户偏好和角色一切正常并且数据接收正确默认值放置在单选按钮上以突出显示用户当前拥有的选项我正在使用 Antd Design Table 组件问题当我将用户首选项更改为打印文档时它确实通过数据库的状态成功更改了它但是现
“该网站似乎使用了滚动链接定位效果。这可能不适用于异步平移”

我从 Firefox 收到了这个不寻常的警告它所指的定位效果是div我将旋转作为滚动高度的一个因素我从来没有遇到过任何问题但是这是我应该担心的事情吗如果没有这个警告是否有这样的效果演示此问题的 JavaScript 是 gear
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my

有没有一种有效的方法来优化我的序列化代码？

有没有一种有效的方法来优化我的序列化代码？ 的相关文章

随机推荐

热门标签

有没有一种有效的方法来优化我的序列化代码？的相关文章