GPU 上的高效全对集交集

2024-03-12

I have n集合，有限宇宙的子集。我想计算n*n矩阵，其中(I, J)条目包含集合交集的基数I并设置J. n的顺序是50000.

我的想法是将矩阵分割成足够小的块，以便每个条目都有一个线程。每个线程都应该使用以下方法计算交集bitwise and.

有没有更有效的方法来解决这个问题？

我假设您想要按照您所描述的方式计算它：实际上使用位集的按位和来计算每对集合的交集。

通过正确的数学设置，您实际上是在计算两个向量的外积，因此我会从高性能线性代数的角度进行思考。

性能的关键是减少内存流量，这意味着尽可能将数据保存在寄存器中。最重要的因素是你的元素很大；存储一组数据需要 6250 个 32 位字！例如，整个 cuda 计算能力 3.0 的多处理器只能在寄存器中保存区区 10 个集合。

您可能想要做的是将每个元素分布在整个线程块中。一个块中有 896 个线程，每个块有 7 个寄存器，您可以存储一组 200704 个元素。借助 cuda 计算功能 3.0，每个块将有 36 个可用寄存器。

最简单的实现是让每个块拥有输出矩阵的一行。它加载第二个向量的相应元素并将其存储在寄存器中，然后迭代第一个向量的所有元素，计算交集，计算并减少 popcount，然后将结果存储在输出向量中。

此优化应将内存读取总数减少 2 倍，因此可能使性能提高一倍。

更好的办法是让每个块同时拥有 3-4 行输出矩阵，并将第二个向量的相应 3-4 个元素加载到寄存器中。然后，该块迭代第一个寄存器的所有元素，并为每个元素计算 3-4 个交集，并将结果存储在输出矩阵中。

此优化将内存流量减少了 3-4 倍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GPU 上的高效全对集交集的相关文章

CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
神经网络的层和神经元

我想更多地了解神经网络我正在开发一个 C 程序来制作神经网络但我坚持使用反向传播算法很抱歉没有提供一些工作代码我知道有很多库可以用多种语言创建神经网络但我更喜欢自己制作一个关键是我不知道要实现特定目标例如模式识别或函数近似或其
填充体积算法

我有一个具有一定尺寸长度宽度高度的盒子我有不同长度宽度高度的物品是否有现有的算法可以确定放入盒子中的最佳物品这称为装箱切割库存背包问题并且是 NP 难问题一般来说您只能通过使用启发式方法获得近似解请参见示例 htt
一种良好且简单的随机性测量方法

获取一长整数序列例如 100 000 个并返回序列随机性的测量值的最佳算法是什么该函数应返回单个结果如果序列并非完全随机则返回 0 如果完全随机则返回 1 如果序列有点随机它可以给出介于两者之间的东西例如0 95 可能是一个
素数生成器算法

我一直在尝试解决素数生成算法的SPOJ问题这是问题彼得想为他的密码系统生成一些素数帮助他你的任务是生成两个给定之间的所有素数数字 Input 输入以单行中测试用例的数量 t 开始 t Output 对于每个测试用例打印所有素数
如何遍历任意给定集合中的枚举？

我有很多枚举类型它们与相应的集合相结合例如 type TMyEnum meOne meTwo meThree TMyEnums set of TMyEnum 我正在尝试提出一组可以运行的函数any枚举集而不是为每个枚举编写单独的函数
是否有一种算法可以在线性时间内计算数组反转？

我知道有多少倒转 en wikipedia org wiki Inversion 28discrete mathematics 29 in an n 元素数组可以在 O n log n 操作使用增强型归并排序 http www geeksf
什么是“朴素”算法，什么是“封闭式”解决方案？

我有一些关于描述算法时使用的术语语义的问题首先朴素算法是什么意思这与给定问题的其他解决方案有何不同解决方案还可以采取哪些其他形式其次我听到很多人提到封闭式解决方案我也不知道这意味着什么但在尝试解决递归关系时经常会出现
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt
当给定块大小时反转单链表

有一个单连接链表并给出了块大小例如如果我的链表是1 gt 2 gt 3 gt 4 gt 5 gt 6 gt 7 gt 8 NULL我的块大小是4然后反转第一个4元素然后是第二个 4 个元素问题的输出应该是4 gt 3 gt 2 g
坐标算法 - 绕中心旋转

通过查看这张图片我想您会很好地理解我的问题图片已删除网址不再有效现在返回广告所以基本上我想要一个函数它接受一个对象作为参数并根据我之前添加的对象数量为该对象提供正确的坐标假设我将所有这些对象添加到一个数组中 objectAr
heapq.nlargest 的时间复杂度是多少？

我在看演讲者说获得t列表中最大的元素n元素可以在O t n 这怎么可能我的理解是创建堆将是O n 但是复杂度是多少nlargest本身就是O n t or O t 实际的算法是什么在这种情况下说话者是错误的实际成本是O n log
如何在C中实现带连分数的自然对数？

这里我有一个小问题根据这个公式创建一些东西这就是我所拥有的但它不起作用弗兰基我真的不明白它应该如何工作我尝试用一些错误的指令对其进行编码 N 是迭代次数和分数部分我认为它会以某种方式导致递归但不知道如何谢谢你的帮助 do
如何计算 3D Morton 数（交织 3 个整数的位）

我正在寻找一种快速计算 3D Morton 数的方法这个网站 http www graphics stanford edu seander bithacks html InterleaveBMN有一个基于幻数的技巧来处理 2D Morto
优化计算中使用的 # 个线程的算法

我正在执行一个操作我们将其称为CalculateSomeData CalculateSomeData 在连续的代中运行编号为 1 x 整个运行中的代数由CalculateSomeData 的输入参数固定并且是先验已知的完成一次生
删除近排序数组中未排序/离群元素

给定一个像这样的数组 15 14 12 3 10 4 2 1 我如何确定哪些元素乱序并删除它们在本例中为数字 3 我不想对列表进行排序而是检测异常值并将其删除另一个例子 13 12 4 9 8 6 7 3 2 我希望能够删除 4 和
在一个区域中拟合二维多边形的算法？

这有标准吗算法名称说我有 10 个不同大小的多边形我有一个特定大小的区域我想知道如何填充该区域中的最多多边形以及它们是如何拟合的笔记多边形可以根据限制集进行旋转一个可能的名称是包装问题 http en wikipedia
面试题：三个数组，O(N*N)

假设我们有three长度数组N其中包含任意数量的类型long 然后我们得到一个数字M 相同类型我们的任务是选择三个数字A B and C每个数组中的一个换句话说A should从第一个数组中选取 B从第二个开始和C从第三个所以总和A
当满足动态条件时退出递归函数

使用来自的函数生成汉明距离 t 内的所有比特序列 https stackoverflow com questions 40813022 generate all sequences of bits within hamming distan

随机推荐

如何在react中进行fetch？

下午好我从服务器获取json 我处理它但是对渲染的调用发生了2次 Google 在构造函数中创建一个空对象如果该对象没有属性则返回 undefined 但我也有数组应用程序从中崩溃我附上代码如何将数据取出状态是否可以在渲染中
NSJSON序列化

我在使用某些公共 json 服务时遇到问题以这种方式格式化的服务 jsonFlickrFeed title Uploads from everyone link http www flickr com photos description
Android 本地化 es-r419

我正在本地化我的应用程序支持的语言区域之一是 Espanol 419 Android 不支持命名约定values es r419 但它接受values en rGB 我应该使用什么名称才能使其正常工作我不知道r419从何而来我唯一能
让左栏一直向下延伸

我已经为此绞尽脑汁近三天了我读过很多关于 3col 拉伸设置清晰和使用绝对位置和相对位置的文章很多是矛盾的我认为我想要一个非常简单的布局我想要左侧的导航 div 左侧有两个 div 和一个页脚如果我使用表格它会是这样的 ta
如何在不打开 Flutter 上默认电子邮件应用程序的情况下发送邮件？

是否可以在不打开默认电子邮件应用程序的情况下发送电子邮件直接地我用了两个插件但两者都是打开默认应用程序 Using flutter email sender plugin final Email email Email body Ve
为什么我不能将 PHP 类实例存储为 SESSION 变量

我有一个 PHP 脚本可以通过 Dojo Ajax xhrGet 调用以两种方式进行调用第一次使用 init 参数调用它这会导致脚本创建 StateList 类的实例并读入状态名称文件 session start include St
使用 Sharp 库的 Firebase 部署功能在 Google Cloud Build 中失败

从 Bitbucket Pipelines 迁移到 Google Cloud Build 后 Firebase 部署失败该设置在 Bitbucket Pipelines 和本地都成功部署除了下面的错误之外没有给出进一步的解释我对代码
如何启用码头登录？

我正在尝试调试我的情况其中简单的 ActiveWeb 应用程序未在 Jetty 下运行它的行为就像不存在任何用于请求处理的类一样并返回错误 404 问题不在于 ActiveWeb 这是关于杰蒂的如何发现 Jetty 有一些 Web
谷歌浏览器扩展：如何多次打开新的浏览器窗口？

我的 Chrome 扩展程序使用这个简单的 JS 打开一个新的浏览器窗口 chrome browserAction onClicked addListener function tab var room new Date getTime w
ViewPager 使用视图而不是片段

I ve a ViewPager现在使用Views代替Fragments显示每个选项卡每个选项卡都会扩展相同的布局文件 Overview In this ViewPager 我应该将地雷添加为选项卡因此基本上每个选项卡都对应于一个特定的
如何不使用gopath导入本地包

我用过GOPATH但对于我当前面临的这个问题它没有帮助我希望能够创建特定于项目的包 myproject binary1 go binary2 go package1 go package2 go 我尝试了多种方法但如何得到packag
无法在 Electron 应用程序中使用 Discord OAuth2

我正在尝试创建一个 Electron 应用程序使用 Electron net 和 MVC 并使用 Discord 的 OAuth2 进行用户登录然而当加载 OAuth2 页面时 Discord 认为我使用的 Discord 安装已损坏
如何捕获远程系统网络流量？

我一直在使用wire shark来分析socket程序的数据包现在我想看看其他主机的流量因为我发现我需要使用只有Linux平台支持的监控模式所以我尝试了但我无法捕获在我的网络中传输的任何数据包列为捕获的 0 个数据包设想我有一个
升级到 flutter 3.0.1 后更新 CocoaPods 时出错

我在用MacBook Pro M1 芯片 OS is MacOS 蒙特利 12 3 1 今天我将flutter从2 5 4升级到3 0 1 我可以在 Android 中完美运行我的项目但是在 iOS 中我收到以下错误 Launching
关闭 seeds.rb 中的验证

如何关闭验证Rails 3 2 3 in seeds rb 我做了这个 u1 User create email email protected cdn cgi l email protection password 123 validat
如何使用 pyminizip 在 Python 3.x 中创建临时 ZIP？

我需要创建一个临时 zip 文件来存储文件该 ZIP 文件需要加密所以zipfile不会在这里做的伎俩该文件将被进一步加密 ZIP 将再次加密为另一个文件因此压缩文件被用作减小其大小以实现更快的互联网传输以及第一层加密的一种方法这
使用 setjmp / longjmp 的通信协议和本地环回

我使用共享内存和共享互斥体编写了一些相对简单的通信协议但后来我想扩展支持以在使用不同运行时的两个 dll 之间进行通信很明显如果你有一些std vector lt int64 gt 和两个 dll 一个 vs2010 一个 vs201
Hive “alter table <表名称> 连接”如何工作？

I have n large 我想要合并的小尺寸 orc 文件的数量k small 大型 orc 文件的数量这是使用完成的alter table table name concatenateHive 中的命令我想了解 Hive 是如何实
如何在JSP页面中迭代session？

如何迭代会话并将每个提交值保留在同一页面直到会话结束
GPU 上的高效全对集交集

I have n集合有限宇宙的子集我想计算n n矩阵其中 I J 条目包含集合交集的基数I并设置J n的顺序是50000 我的想法是将矩阵分割成足够小的块以便每个条目都有一个线程每个线程都应该使用以下方法计算交集bitwise a

GPU 上的高效全对集交集

GPU 上的高效全对集交集 的相关文章

随机推荐

热门标签

GPU 上的高效全对集交集的相关文章