如何在 AVX 或 SSE 指令中进行间接加载（聚集-分散）？

2023-11-25

我已经搜索了一段时间，但似乎在文档或 SO 中找不到任何有用的东西。这个问题并没有真正帮助我，因为它引用了修改程序集，而我正在用 C 编写。

我有一些代码进行间接访问，我想对其进行矢量化。

for (i = 0; i < LENGTH; ++i) {
   foo[bar[i]] *= 2;
}

因为我有索引，所以我想在里面加倍bar，我想知道是否有办法加载这些索引foo到向量寄存器中，然后我可以应用我的数学并将其存储回相同的索引。

像下面这样的东西。这load and store我刚刚编写的说明，因为我在 AVX 或 SSE 文档中找不到类似的内容。我想我在某处读到过 AVX2 具有类似的功能，但我正在使用的处理器不支持 AVX2。

for (i = 0; i < LENGTH; i += 8) {
   // For simplicity, I'm leaving out any pointer type casting
   __m256 ymm0 = _mm256_load_indirect(bar+i);
   __m256 ymm1 = _mm256_set1_epi32(2); // Set up vector of just 2's
   __m256 ymm2 = _mm256_mul_ps(ymm0, ymm1);
   _mm256_store_indirect(ymm2, bar+i);
}

AVX 或 SSE 中是否有任何指令允许我使用来自不同数组的索引数组加载向量寄存器？或者如果没有显式函数，有什么“hacky”方法可以解决它吗？

（我写了这个老问题的答案，因为我认为这可能对其他人有帮助。）

简短回答

否。SSE 和 AVX 指令集中没有分散/聚集指令。

更长的答案

分散/聚集指令的实现成本很高（就复杂性和芯片面积而言），因为分散/聚集机制需要与高速缓存存储器控制器紧密交织。我相信这就是 SSE/AVX 缺少此功能的原因。

对于较新的指令集，情况有所不同。在AVX2你有

VGATHERDPD、VGATHERDPS、VGATHERQPD、VGATHERQPS对于浮点聚集（这里的内在函数)
VPGATHERDD、VPGATHERQD、VPGATHERDQ、VPGATHERQQ对于整数聚集（这里的内在函数)

In AVX-512 we got

VSCATTERDPD、VSCATTERDPS、VSCATTERQPD、VSCATTERQPS对于浮点分散（这里的内在函数)
VPSCATTERDD、VPSCATTERQD、VPSCATTERDQ、VPSCATTERQQ对于整数散布 (这里的内在函数)

然而，使用分散/聚集进行如此简单的操作是否真正有效仍然是一个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

vector

intel

SSE

avx

如何在 AVX 或 SSE 指令中进行间接加载（聚集-分散）？的相关文章

用于代数简化和求解的 C# 库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案网络上有很多代数求解器和简化器例如 algebra com 上不错的代数求解器和简化器然而我正在
每个托管线程是否都有自己对应的本机线程？

我想知道是否在 Net 中创建托管线程通过调用Thread Start 导致在后台创建一个本机线程那么托管线程是否有对应的本机线程呢如果是当托管线程等待或睡眠时是否意味着相应的本机线程也在等待或睡眠是的 NET 线程映射到所有当
如何将 protobuf-net 与不可变值类型一起使用？

假设我有一个像这样的不可变值类型 Serializable DataContract public struct MyValueType ISerializable private readonly int x private readon
如何让 Swagger 插件在自托管服务堆栈中工作

我已经用 github 上提供的示例重新提出了这个问题并为任何想要自己运行代码的人提供了一个下拉框下载链接 Swagger 无法在自托管 ServiceStack 服务上工作 https stackoverflow com questio
提交后禁用按钮

当用户提交付款表单并且发布表单的代码导致 Firefox 中出现重复发布时我试图禁用按钮去掉代码就不会出现这个问题在firefox以外的任何浏览器中也不会出现这个问题知道如何防止双重帖子吗 System Text StringBui
复制 std::function 的成本有多高？

While std function是可移动的但在某些情况下不可能或不方便复制它会受到重大处罚吗它是否可能取决于捕获变量的大小如果它是使用 lambda 表达式创建的它依赖于实现吗 std function通常被实现为值语义小缓
单个对象的 Monogame XNA 变换矩阵？

我读过一些解释 XNA Monogame 变换矩阵的教程问题是这些矩阵应用于 SpriteBatch Begin matrix 这意味着所有 Draw 代码都将被转换如何将变换矩阵应用于单个可绘制对象就我而言我想转换滚动背景使其自
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
qdbusxml2cpp 未知类型

在使用 qdbusxml2cpp 程序将以下 xml 转换为 Qt 类时我收到此错误 qdbusxml2cpp c ObjectManager a ObjectManager ObjectManager cpp xml object ma
是否有实用的理由使用“if (0 == p)”而不是“if (!p)”？

我倾向于使用逻辑非运算符来编写 if 语句 if p some code 我周围的一些人倾向于使用显式比较因此代码如下所示 if FOO p some code 其中 FOO 是其中之一false FALSE 0 0 0 NULL etc
从 Linux 内核模块中调用用户空间函数

我正在编写一个简单的 Linux 字符设备驱动程序以通过 I O 端口将数据输出到硬件我有一个执行浮点运算的函数来计算硬件的正确输出不幸的是这意味着我需要将此函数保留在用户空间中因为 Linux 内核不能很好地处理浮点运算这是设
如何在 Xaml 文本中添加电子邮件链接？

我在 Windows Phone 8 应用程序中有一些大文本我希望其中有电子邮件链接例如 mailto 功能这是代码的一部分
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
使用

因此我决定开始使用 C 进行编程我所做的一件事就是创建一个 pausec exe pause exe 克隆它有效但是当像这样调用它时 lt nul pausec 它崩溃了据我所知我得到的错误是这样的未处理的异常 System

C#：帮助理解 UML 类图中的 <>

我目前正在做一个项目我们必须从 UML 图编写代码我了解 UML 类图的剖析但我无法理解什么 lt
C# HashSet 只读解决方法

这是示例代码 static class Store private static List
CMake 无法确定目标的链接器语言

首先我查看了this https stackoverflow com questions 11801186 cmake unable to determine linker language with c发帖并找不到解决我的问题的方法我
AES 128 CBC 蒙特卡罗测试

我正在 AES 128 CBC 上执行 MCT 如中所述http csrc nist gov groups STM cavp documents aes AESAVS pdf http csrc nist gov groups STM ca
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
按 Esc 按键关闭 Ajax Modal 弹出窗口

我已经使用 Ajax 显示了一个面板弹出窗口我要做的是当用户按 Esc 键时关闭该窗口这可能吗如果有人知道这一点或以前做过这一点请帮助我 Thanks 通过以下链接您可以通过按退出按钮轻松关闭窗口 http www codepro

随机推荐

如何记住哪个扩展 ${var%} ${var#} 从哪一端起作用？ [关闭]

Closed 这个问题是基于意见的目前不接受答案我很难记住哪一个参数扩展 var subst or var subst 从绳子的前面取下一个从后面取下一个例子 var a b c echo dirname var filename
在不规则网格上绘制和着色数据

我的数据格式为 x y z 其中 x 和 y 不在常规网格上我希望显示这些数据的 2D 颜色图并将强度例如灰度映射到 z 变量一个明显的解决方案是在规则网格上进行插值见下文 d lt data frame x runif 1e3
概括 NumPy 数组中的切片操作

这个问题是基于this较旧的问题给定一个数组 In 122 arr np array 1 3 7 4 9 8 arr Out 122 array 1 3 7 4 9 8 并给出其指数 In 127 np indices arr shape
CollapsingToolbarLayout 滚动时不起作用（折叠）

我正在尝试创建一个CollapsingToolbarLayout在它下面是一个列表视图当列表视图滚动时工具栏应该折叠但是当滚动时工具栏不折叠它不起作用使用了这个教程 http android developers blogspot
java中jar文件的热交换

我有两个 jar 文件其中一个 jar 包含启动进程的 main 方法其他两个 jar 仅包含类文件在 One jar 中我在其清单类路径中引用了 Two jar One jar 包含使用 Class forName 动态加载类的机
最快的 Java HashSet 库 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案此外这个很旧的帖子我需要一些能够使用原语并为包含大量内容的应用程序提供加速的东西HashSets of Integers Set
设置 jax-ws 客户端超时

我在设置 jax ws 超时时遇到问题我的代码是 WebServiceClient name VoipDBJDBCService targetNamespace http db server voipmeter jextreme eu w
Crystal Reports 图像和 ASP.Net MVC

当我使用使用 CrystalImageHandler aspx 的图表和图像时我在使用 Crystal Reports 时遇到了问题图像无法显示我怀疑这是由于 MVC 路由问题造成的路径图像路径类似这样 src CrystalIma
Symfony2/Twig - 迭代选择选项

常用显示方式select字段是要调用的 form row form doctor service id attr class form control 我想执行两件事检查该字段是否实际上是一个选择字段迭代每个选项值名称我知道该怎样
React useState setter 内的更新被调用两次

我正在尝试更新 useState setter 范围内的内容这正如我在以下 codepen 示例中所期望的那样更新状态变量之外的值但正如我的应用程序中所实现的insideCallCount每人都会被叫两次toggleCell称呼相关
Google 字体无法在 Internet Explorer (IE) 11 中运行

目前正在使用 Google Fonts 构建一个网站一切都可以在 IE6 到 10 Firefox Chrome 和移动浏览器上运行然而在 IE 11 上不会加载任何字体并且所有内容都使用后备字体无衬线字体等显示同样的问题似
AngularJS：何时使用服务而不是工厂

请耐心听我说我知道还有其他答案例如 AngularJS 服务提供商工厂但是我仍然不知道你什么时候会使用工厂服务据我所知工厂通常用于创建可由多个控制器调用的通用函数创建通用控制器功能 Angular 文档似乎更喜欢工厂而不
SQL Server 清除内存

是否可以从 SQL Server 填充的数据中清除 RAM 内存有什么程序或选项可以做到这一点吗您可以使用 CHECKPOINT DBCC DROPCLEANBUFFERS to 从内存中删除所有数据页测试服务器性能很有用如果查询所
即使机器人是管理员，Discord JS 管理角色权限也丢失

我的 Discord 机器人没有向使用该命令的用户添加角色 My Code if userCmd toLowerCase prefix verify if message member roles cache find role gt ro
让 Django 1.7 在 Google App Engine 上运行

任何人都可以帮助向我们指出如何让 Django gt 1 5 在 Google App Engine 上运行的说明吗我看到很多人声称他们可以使用 Django 1 6 我们希望运行 1 6 或 1 7 我在这里搜索了有关如何设置的说明到
iOS5 UITapRecognizer 用于 UIScrollView 干扰按钮。怎么修？

我有一堆UIButtons 内UIView在一个UIScrollView 我正在尝试向滚动视图添加点击识别器点击识别器会触发但现在我的按钮都不起作用我知道在iOS5中 UIScrollView可以在完成触摸事件后以某种方式将其传递到控
UIImage 的 CGImage 返回 NULL

我创建了一个将图像分割成多个图像的函数但是当我获取 UIImage 的 CGImage 时 CGImage 返回 NULL NSArray splitImage UIImage image NSUInteger pieces NSLog
如何从 Core 2 Razor 页面 ViewModel 处理程序返回部分视图

在 Asp Net MVC 中您可以通过执行以下操作轻松返回部分视图 return PartialView ModelName Model 这是如何在 RazorPage ViewModel 处理程序上完成的我明白了这一点它并不像 M
为什么这里Java运行得比C快呢？

灵感来自这个问题 Now visible only for users with gt 10k rep 我想出了以下代码 cat loop c int main int argc char argv int i 0 while i lt 2
如何在 AVX 或 SSE 指令中进行间接加载（聚集-分散）？

我已经搜索了一段时间但似乎在文档或 SO 中找不到任何有用的东西这个问题并没有真正帮助我因为它引用了修改程序集而我正在用 C 编写我有一些代码进行间接访问我想对其进行矢量化 for i 0 i lt LENGTH i foo b

热门标签