将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？

2024-02-07

是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高/低 32 位组件重新打包到 SSE 寄存器中？使用 AVX2 的解决方案就可以了。

到目前为止，我正在使用以下代码，但探查器说它速度很慢锐龙 1800X:

// Global constant
const __m256i gHigh32Permute = _mm256_set_epi32(0, 0, 0, 0, 7, 5, 3, 1);

// ...

// function code
__m256i x = /* computed here */;
const __m128i high32 = _mm256_castsi256_si128(_mm256_permutevar8x32_epi32(x,
  gHigh32Permute)); // This seems to take 3 cycles

那个随机播放+强制转换_mm256_permutevar8x32_ps对于一个向量来说是最优的在 Intel 和 Zen 2 或更高版本上。一条单微操作指令是您能得到的最好的指令。（AMD Zen 2 和 Zen 3 上有两个微指令。Zen 4 上有一个微指令。https://uops.info/ https://uops.info/)

Use vpermps代替vpermd如果您的输入向量是由创建的，则可以避免 int / FP 绕过延迟的任何风险pd指令而不是负载或其他东西。在 Intel 上，使用 FP 洗牌的结果作为整数指令的输入通常没问题（我不太确定是否将 FP 指令的结果提供给整数洗牌）。

如果针对 Intel 进行调整，您可以更改周围的代码，以便可以洗入每个 128 位通道的底部 64 位。它避免了交叉车道的混乱。（然后你可以使用vshufps ymm，或者如果针对 KNL 进行调整，vpermilps由于 2 输入vshufps速度较慢。）

有了 AVX512，就有它将元素跨通道打包，并进行截断。

Zen 1 上的车道交叉洗牌速度很慢. 阿格纳·雾 http://agner.org/optimize/没有号码vpermd，但列出vpermps（可能在内部使用相同的硬件）三个微指令，五个延迟周期，每四个吞吐量周期一个。https://uops.info/ https://uops.info/证实了 Zen 1 的这些数字。

Zen 2 和 Zen 3 大部分具有 256 位宽的向量执行单元，但有时它们的跨车道混洗与小于 128 位的元素需要多个微指令。 Zen 4 有所改进，例如 0.5 个周期的吞吐量vpermps有四个周期的延迟。

vextractf128 xmm, ymm, 1在 Zen 1 上非常高效（1c 延迟，0.33c 吞吐量），这并不奇怪，因为它将 256 位寄存器跟踪为两个 128 位一半。shufps也很高效（1c 延迟，0.5c 吞吐量），并且可以让您将两个 128b 寄存器洗牌为您想要的结果。

这也为您节省了一个寄存器vpermps洗牌面具，你不再需要了。（一vpermps获取您想要分组到高车道和低车道的元素vextractf128。或者，如果延迟很重要，则两个控制向量为 2xvpermps在单微指令的 CPU 上）因此对于多微指令的 CPUvpermps，特别是 Zen 1，我建议：

__m256d x = /* computed here */;

// Tuned for Zen 1 through Zen 3.  Probably sub-optimal everywhere else.
__m128 hi = _mm_castpd_ps(_mm256_extractf128_pd(x, 1));  // vextractf128
__m128 lo = _mm_castpd_ps(_mm256_castpd256_pd128(x));    // no instructions
__m128 odd  = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(3,1,3,1));
__m128 even = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(2,0,2,0));

在英特尔上，使用三次洗牌而不是两次洗牌可达到最佳吞吐量的三分之二，并且第一个结果有一个周期的额外延迟。

在 Zen 2 和 Zen 3 上，vpermps是两个微操作数与一个微操作数vextractf128, 提取 + 2xvshufps优于 2xvpermps.

Alder Lake 上的 E 核心也有两个 uopvpermps但一微操作vextractf128 and vshufps xmm

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？的相关文章

在 C++ 中使用 matlab 结构（matlab 函数调用的返回值）（由 matlab 编译器生成的库）

你好我有一个相当简单的 matlab 函数例如 function MYSTRUCT myfunc MYSTRUCT prop1 test MYSTRUCT prop2 foo MYSTRUCT prop3 42 end 我用 matla
注销租约抛出 InvalidOperationException

我有一个使用插件的应用程序我在另一个应用程序域中加载插件我使用 RemoteHandle 类http www pocketsilicon com post Things That Make My Life Hell Part 1 App
如何在 .NET Framework 2.0 中模拟“Func<(Of <(TResult>)>) 委托”？

我尝试使用这个类代码项目文章 http www codeproject com KB threads AsyncVar aspx在 VB NET 和 NET Framework 2 0 中除了这一行之外所有内容似乎都可以编译Privat
为什么 int8_t 和用户通过 cin 输入显示奇怪的结果[重复]

这个问题在这里已经有答案了一小段代码让我发疯但希望你能阻止我跳出窗外看这里 include
如何将 protobuf-net 与不可变值类型一起使用？

假设我有一个像这样的不可变值类型 Serializable DataContract public struct MyValueType ISerializable private readonly int x private readon
ClickOnce 应用程序错误：部署和应用程序没有匹配的安全区域

我在 IE 中使用 FireFox 和 Chrome 的 ClickOnce 应用程序时遇到问题它工作正常异常的详细信息是 PLATFORM VERSION INFO Windows 6 1 7600 0 Win32NT Common
C中的malloc内存分配方案

我在 C 中尝试使用 malloc 发现 malloc 在分配了一些内存后浪费了一些空间下面是我用来测试 malloc 的一段代码 include
复制目录内容

我想将目录 tmp1 的内容复制到另一个目录 tmp2 tmp1 可能包含文件和其他目录我想使用C C 复制tmp1的内容包括模式如果 tmp1 包含目录树我想递归复制它们最简单的解决方案是什么我找到了一个解决方案来打开目录并读
获取两个工作日之间的天数差异

这听起来很简单但我不明白其中的意义那么获取两次之间的天数的最简单方法是什么DayOfWeeks当第一个是起点时如果下一个工作日较早则应考虑在下周 The DayOfWeek 枚举 http 20 20 5B1 5D 3a 20htt
将 Word 文档另存为图像

我正在使用下面的代码将 Word 文档转换为图像文件但是图片显得太大内容不适合有没有办法渲染图片或将图片保存到合适的尺寸 private void btnConvert Click object sender EventArgs e
Qt - ubuntu中的串口名称

我在 Ubuntu 上查找串行端口名称时遇到问题如您所知为了在 Windows 上读取串口我们可以使用以下代码 serial gt setPortName com3 但是当我在 Ubuntu 上编译这段代码时我无法使用这段代码 se
使用

因此我决定开始使用 C 进行编程我所做的一件事就是创建一个 pausec exe pause exe 克隆它有效但是当像这样调用它时 lt nul pausec 它崩溃了据我所知我得到的错误是这样的未处理的异常 System

C#：帮助理解 UML 类图中的 <>

我目前正在做一个项目我们必须从 UML 图编写代码我了解 UML 类图的剖析但我无法理解什么 lt
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
使用管道时，如果子进程数量大于处理器数量，进程是否会被阻塞？

当子进程数量很大时我的程序停止运行我不知道问题是什么但我猜子进程在运行时以某种方式被阻止下面是该程序的主要工作流程 void function int process num int i initial variables for
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
无法接收 UDP Windows RT

我正在为 Windows 8 RT 编写一个 Windows Store Metro Modern RT 应用程序需要在端口 49030 上接收 UDP 数据包但我似乎无法接收任何数据包我已按照使用教程进行操作DatagramSock
WebSocket安全连接自签名证书

目标是一个与用户电脑上安装的 C 应用程序交换信息的 Web 应用程序客户端应用程序是 websocket 服务器浏览器是 websocket 客户端最后用户浏览器中的 websocket 客户端通过 Angular 持久创建并且
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData
当我使用 OpenSSL1.1.0g 根据固定的 p 和 g 值创建 Diffie Hellman 密钥协议密钥时，应该执行哪些检查？

您好我尝试通过这段代码使用修复 p 和 g 参数来制作 Diffie Hellman Keysanswer https stackoverflow com a 54538811 4706711 include

随机推荐

AngularJs 将 HTML 中每个 ng-repeat 的实例传递给指令

我认为这应该很简单但我错过了一些东西我怎样才能通过flowObj in my ng repeat下面是我的指令我想将它传递给我的指令然后单击使用它FlowObj 然后应用一些逻辑我尝试在我的指令中使用注释代码 scope tes
Ruby：为什么我不能创建新文件？

我正在尝试创建一个 json 文件并写入它我的代码如下所示 def save as json object f File new file json f puts object to json w f close end save as
android-support-v4 删除未使用的类

实际上我正在尝试将应用程序的 apk 缩小到尽可能小的大小我目前导入了 android support v4 jar 文件我的问题是如何从此 jar 文件中删除未使用的类经过一番搜索后没有找到任何信息如果 ProGuard 是解
如何使用 Salt 创建 SHA256 哈希？

我目前正在开发一个 Visual Studio C Windows 窗体项目但是我对 SHA256 salted 的工作原理感到困惑我在网上找到了一些例子但无法理解如何调用这个函数我想在连接到数据库 Microsoft Acces
如何在 ag-grid 表的页脚中启用或显示总行数

我正在使用 Ag Grid 表我想在表的页脚中显示总行我如何通过使用 2 个表来实现它第 1 个表用于实际数据第 2 个表用于总计行它与普通的不可滚动表格一起工作正常但如果它是固定或可滚动表格则顶部表格会滚动但底部表格会粘在
在 HashMap 或 LinkedList 中将嵌套类设为静态的原因是什么？ [复制]

这个问题在这里已经有答案了在大多数情况下我看到嵌套类是static 让我们举个例子Entry上课于HashMap static class Entry
Protractor browser.wait 不等待

我假设 browser wait 应该是一个阻塞调用但它没有按我的预期工作这是我的样本 describe browser wait function beforeEach function browser wait function c
问题：使用 Windows 7，运行我的应用程序时出现未经授权的访问异常

我的应用程序引发未经授权的访问错误运行我的应用程序时我尝试访问以下位置的目录 Application UserAppDataPath 问题它说我无权访问 Application UserAppDataPath 目录有没有办法在我的应
pyqtgraph：同步不同图中轴的缩放

我想同步几个 pyqtgraph 图的 X 轴当用户通过鼠标交互重新缩放 X 轴时例如鼠标在 x 轴上时滚动滚轮我想将相同的更改分配给所有其他绘图那么我该怎么做呢我从下面的基本示例中导出了最小化代码我是否必须覆盖viewRan
在 html 表中将单行加粗 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我使用以下
来自 iOS 的 Instagram 签名 API 调用

对 Instagram 帖子方法进行签名 API 调用以关注用户点赞用户的图像等用户每小时的关注次数限制为 20 次但如果我们进行签名 API 调用那么用户每小时可以进行 60 次关注但我的问题是如何进行签名 API 调用我尝试
限制 Apigility 中的结果

我使用 Apigility 创建了一个代码连接 API 现在我正在使用标准创建存根在我的PostResource有一种方法叫做fetchAll params array 我为该方法创建了代码以便它返回一组可分页的结果 var Hydra
在 MySQL 中查找同一个表中的重复项

我有一个包含两列的表艺术家 release id 我可以运行什么查询来显示重复记录例如我的桌子是 ArtistX 45677 ArtistY 378798 ArtistX 45677 ArtistZ 123456 ArtistY 888
显示ajax、Jquery返回的响应的html代码

我有一个 jquery AJAX 函数它检索一些 HTML 标记并将其显示在页面上我还想显示返回的 HTML 的 html 代码我四处寻找解决方案但没有找到任何解决方案有人可以帮忙吗非常感谢 post get news php
4x4 矩阵预乘和后乘

我有以下功能 void Matrix Scale const float xScale const float yScale const float zScale Matrix scaleMatrix scaleMatrix m data
如何查明某个函数被 javascript/jquery 调用了多少次？

也许是一个奇怪的问题但事实是我有一个定期调用的函数在该函数中我需要知道我处于哪个迭代中或者该函数被调用了多少次问题的简化版本 jQuery document ready function setInterval myFunctio
有没有办法让 HTML5 数据列表使用模糊搜索？

我有一组数据列表选项我想在搜索时进行模糊匹配例如如果我输入 PHP HTML 或 PHPAndHTML 我希望其中任何一个与 PHP And HTML 选项匹配有什么办法可以做到这一点吗请参见这把小提琴 https jsfiddl
JavaScript + MVC + 用户界面

我正在寻找新的 JavaScript 编程方法我的目标是创建像 GMail 这样的 JavaScript 应用程序我尝试过 GWT 但它看起来很复杂而且代码也不时尚我发现 MVC 模式是一种很好的编程方式我总是在用 javascr
JavaFX 可重用 FXML 片段

我正在实现一个选项卡式部分其中每个选项卡将包含一个表视图在此表视图中无论选择哪个选项卡都会呈现一个列子集但某些选项卡将包含其他列以编程方式处理由于这些原因每个选项卡都需要有一个单独的控制器但我想知道是否可以在每个选项卡中重
将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？

是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高低 32 位组件重新打包到 SSE 寄存器中使用 AVX2 的解决方案就可以了到目前为止我正在使用以下代码但探查器说它速度很慢锐龙 1800X Global c

将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？

将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？ 的相关文章

随机推荐

热门标签

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？的相关文章