打乱 SSE 寄存器中的偶数和奇数值

2024-03-02

我用 16 位值加载两个 SSE 128 位寄存器。这些值按以下顺序排列：

src[0] = [E_3, O_3, E_2, O_2, E_1, O_1, E_0, O_0]
src[1] = [E_7, O_7, E_6, O_6, E_5, O_5, E_4, O_4]

我想要实现的是这样的命令：

src[0] = [E_7, E_6, E_5, E_4, E_3, E_2, E_1, E_0]
src[1] = [O_7, O_6, O_5, O_4, O_3, O_2, O_1, O_0]

您知道是否有一个好的方法可以做到这一点（通过使用 SSE 内在函数直至 SSE 4.2）？

我现在陷入困境，因为我无法在 128 位寄存器的上半部分和下半部分之间洗牌 16 位值。我只找到了_mm_shufflelo_epi16 and _mm_shufflehi_epi16内在函数。

Update:

感谢 Paul，我考虑过使用 epi8 内在函数来表示 16 位值。

我的解决方案如下：

shuffle_split = _mm_set_epi8(15, 14, 11, 10,  7,  6,  3,  2, 13, 12,  9,  8,  5,  4,  1,  0);

xtmp[0] = _mm_load_si128(src_vec);
xtmp[1] = _mm_load_si128(src_vec+1);
xtmp[0] = _mm_shuffle_epi8(xtmp[0], shuffle_split);
xtmp[1] = _mm_shuffle_epi8(xtmp[1], shuffle_split);

xsrc[0] = _mm_unpacklo_epi16(xtmp[0], xtmp[1]);
xsrc[0] = _mm_shuffle_epi8(xsrc[0], shuffle_split);
xsrc[1] = _mm_unpackhi_epi16(xtmp[0], xtmp[1]);
xsrc[1] = _mm_shuffle_epi8(xsrc[1], shuffle_split);

还有更好的解决方案吗？

上交所的排列并不容易。有多种方法可以通过不同的指令组合来实现相同的结果。不同的组合可能需要不同数量的指令、寄存器或存储器访问。我不想手动解决这样的难题，我更喜欢看看 LLVM 编译器做了什么，所以我用 LLVM 的中间语言编写了您想要的排列的简单版本，它利用了极其灵活的向量洗牌指令：

define void @shuffle_even_odd(<8 x i16>* %src0) {
  %src1 = getelementptr <8 x i16>* %src0, i64 1
  %a = load <8 x i16>* %src0, align 16
  %b = load <8 x i16>* %src1, align 16
  %x = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
  %y = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
  store <8 x i16> %x, <8 x i16>* %src0, align 16
  store <8 x i16> %y, <8 x i16>* %src1, align 16
  ret void
}

使用 LLVM IR-to-ASM 编译器对其进行编译：llc shuffle_even_odd.ll -o shuffle_even_odd.s你会得到类似以下 x86 程序集的内容：

movdqa  (%rdi), %xmm0
movdqa  16(%rdi), %xmm1
movdqa  %xmm1, %xmm2
pshufb  LCPI0_0(%rip), %xmm2
movdqa  %xmm0, %xmm3
pshufb  LCPI0_1(%rip), %xmm3
por %xmm2, %xmm3
movdqa  %xmm3, (%rdi)
pshufb  LCPI0_2(%rip), %xmm1
pshufb  LCPI0_3(%rip), %xmm0
por %xmm1, %xmm0
movdqa  %xmm0, 16(%rdi)

我排除了上面 LCPIO_* 引用的常量数据部分，但这大致翻译为以下 C 代码：

void shuffle_even_odd(__m128i * src) {
    __m128i shuffle0 = _mm_setr_epi8(128, 128, 128, 128, 128, 128, 128, 128, 2, 3, 6, 7, 10, 11, 14, 15);
    __m128i shuffle1 = _mm_setr_epi8(2, 3, 6, 7, 10, 11, 14, 15, 128, 128, 128, 128, 128, 128, 128, 128);
    __m128i shuffle2 = _mm_setr_epi8(128, 128, 128, 128, 128, 128, 128, 128, 0, 1, 4, 5, 8, 9, 12, 13);
    __m128i shuffle3 = _mm_setr_epi8(0, 1, 4, 5, 8, 9, 12, 13, 128, 128, 128, 128, 128, 128, 128, 128);
    __m128i a = src[0];
    __m128i b = src[1];
    src[0] = _mm_or_si128(_mm_shuffle_epi8(b, shuffle0), _mm_shuffle_epi8(a, shuffle1));
    src[1] = _mm_or_si128(_mm_shuffle_epi8(b, shuffle2), _mm_shuffle_epi8(a, shuffle3));
}

这只是 4 个随机播放和 2 个按位或指令。我怀疑这些按位指令可以比您建议的解包指令更有效地在 CPU 管道中进行调度。

您可以在 LLVM 下载页面的“Clang Binaries”包中找到“llc”编译器：http://www.llvm.org/releases/download.html http://www.llvm.org/releases/download.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

打乱 SSE 寄存器中的偶数和奇数值的相关文章

对静态成员变量的未定义引用

我有一个有静态成员的类它也是我的程序中其他几个类的基类这是它的头文件 ifndef YARL OBJECT HPP define YARL OBJECT HPP namespace yarlObject class YarlObject
C语言中的递归是如何工作的？

我试图了解 C 中递归的工作原理任何人都可以给我解释控制流吗 include
代码块 power 函数在 c 中不起作用

我正在使用代码块来学习c 我的代码是 include
将 Python 控制台集成到 GUI C++ 应用程序中

I m going to add a python console widget into a C GUI below some other controls 许多类将暴露给 python 代码包括一些对 GUI 的访问也许我会考虑 P
Confuser .NET 混淆器。安全吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我目前正在开发一个应用程序其中阻止用户反编译代码非常重要现在我意识到如果由经验丰富的程序员执行大多数 exe 都是可反编译的
StreamReader，C#，peek

我有一个 StreamReader 它偶尔会检查它是否有更多内容可以从简单的文本文件中读取它使用 peek 属性问题是当我使用 peek 时位置发生了变化尽管不应该发生 FileStream m fsReader new File
使用 size_t 值反向遍历向量

我想以相反的方向遍历向量的值如您所知向量的大小为 size t 当我使用以下代码时 for size t r m size 1 r gt 0 r x r f r for size t c r 1 c lt m size c x r m
求一个数的因数。无法得到准确的结果

有人可以帮助纠正我的算法吗我已经对几个数字进行了测试但它没有输出完整的因式分解对于具有大量因子的数字它完全失败 int num 20 for int i 2 i lt num i if num i 0 cout lt lt i lt
在 C++ 中使用表达式模板进行符号微分

如何在 C 中使用表达式模板实现符号微分一般来说您需要一种表示符号的方法即编码的表达式模板例如3 x x 42 以及一个可以计算导数的元函数希望您对 C 中的元编程足够熟悉知道这意味着什么和需要什么但可以给您一个想法 This
WinForms - 表单大小错误

我们有以下代码 private void MainForm Shown object sender EventArgs e RepositionForm private void RepositionForm Rectangle rect
Qt QML 数据模型似乎不适用于 C++

我一直在使用中的示例http doc qt digia com 4 7 qdeclarativemodels html http doc qt digia com 4 7 qdeclarativemodels html这是 QML 声明性数
命名空间“Microsoft”中不存在类型或命名空间名称“Practices”

我正在使用 Microsoft Visual Studio 2005 for c 我的代码中有以下命名空间 using Microsoft Practices EnterpriseLibrary using Microsoft Practi
C for 循环索引：新 CPU 中的前向索引更快吗？

在我订阅的邮件列表上两位知识渊博的 IMO 程序员正在讨论一些优化的代码并说了以下内容在 5 8 年前发布的 CPU 上向后迭代 for 循环稍微快一些 e g for int i x 1 i gt 0 i 因为比较i归零比将其与其
函数参数评估顺序[重复]

这个问题在这里已经有答案了在 C 和 C 中函数参数的求值是否有固定的顺序我的意思是标准怎么说是吗left to right or right to left 我从书中得到的信息令人困惑是否有必要function call应该使
ASP.NET MVC 路由 - 向路由添加 .html 扩展名

我对 MVC 和路由非常陌生我被要求修改一个应用程序以使用不同的 url 由于我没有经验这项任务对我来说有点困难好吧让我们谈谈一些代码 routes MapRoute CategoryBySeName Route name prod
带双重检查锁的单例设计模式

假设您有以下代码 1 为什么我们使用双重检查锁为什么单锁不够好请提供详细的例子 2 这种实施方式的主要缺点是什么我该如何证明呢 Thanks public sealed class SomeSingleton5 private sta
printf() 使用字符串表“解码器环”调试库

我写这封信是想看看你们中是否有人见过或听说过我即将描述的想法的实现我有兴趣为嵌入式目标开发 printf 风格的调试库目标非常遥远并且我和目标之间的通信带宽预算非常紧张因此我希望能够以非常有效的格式获取调试消息通常调试语句如下所
修改代码以从 Windows 中的 PE 可执行文件检索双重签名信息？

我已经挣扎了一段时间想要修改这段代码示例 https support microsoft com en us help 323809 how to get information from authenticode signed execu
OpenGL 计算着色器调用

我有一个与新计算着色器相关的问题我目前正在研究粒子系统我将所有粒子存储在着色器存储缓冲区中以便在计算着色器中访问它们然后我派遣一个一维工作组 define WORK GROUP SIZE 128 shaderManager gt u
如何在用户空间程序中使用内核 libcrc32c （或相同的函数）？

我想在我自己的用户空间程序中进行一些 CRC 检查我发现内核加密库已经在系统中并且支持 SSE4 2 我尝试直接 include

随机推荐

将 abel 包裹在复合材料中

I have ScrolledComposite只允许垂直滚动 heighthint 400 在这个 ScrolledComposite 中我还有另一个CompositeA 滚动高度可能超过 400 来存储所有其他小部件我有一个很长的标
PIL ValueError：图像数据不足？

当我尝试从 URL 获取图像并将其响应中的字符串转换为Image在 App Engine 内 from google appengine api import urlfetch def fetch img url try result ur
ConcurrentQueue 保存对象的引用或值？ “内存不足”异常

排队到 ConcurrentQueue 的对象是被复制到队列还是仅复制到它们的引用我不明白任何场景解释我这样定义了一个 ConcurrentQueue BufferElement is a class I created privat
可观察队列？

是否有人编写了实现 INotifyCollectionChanged 的 Net 通用队列版本或者是否已经在 Net 框架深处隐藏了某个版本快速搜索没有显示任何结果但接口很简单扩展 Queue 类并添加对该接口的支持几乎是微不足道的
Dropbox SDK 401 错误

我正在使用 Dropbox SDK 并且已将其设置为应用程序只能访问 Apps MyAPP 文件夹我正在测试它并在线删除了该文件夹现在当我在应用程序中而不是要求重新链接 Dropbox 时它会给我一个 401 错误我不知道为什么它
Docker 在构建期间不会创建目录

第一次尝试使用 Docker 在我的 Dockerfile 中执行以下步骤来创建目录但是当我运行容器时该目录不存在 FROM ubuntu MAINTAINER AfterWorkGuinness RUN apt get update
actix-web 中“扩展”的作用是什么？

我想弄清楚如何Extension https docs rs actix web 3 3 2 actix web dev struct Extensions htmls 创建于Actix 网络 https crates io crates
无法将焦点设置在 Windows 窗体文本框上

当选项卡页首次出现时我似乎无法在文本框中获得输入焦点我正在使用 Windows 窗体 VB NET 3 5 我在选项卡页的面板上有一个文本框我希望当选项卡页出现时焦点位于文本框上我希望用户能够立即开始在聚焦的文本框中键入内容而无需
如何在 iOS 中更改 ePub 图书的字体颜色和字体样式？

我创建了支持 pdf 和 ePub 格式的书籍应用程序在该应用程序中 pdf 仅显示为图像而 ePub 在 Web 视图中打开因为 EPUB 只是存储在带有 XML 清单的 zip 文件中的 XHTML 现在我想改变字体样式 and
django 中 settings.py 中的密钥中的“Django-insecure”

创建新项目后django admin startproject my settings py包含 SECRET KEY django insecure
当 Task.Status 更改为正在运行时，有没有办法收到通知？

我正在编写一个运行任务并基于通知的类this https msdn microsoft com en us magazine dn605875 aspx 我想不出解决方案的一个问题是如何在 Task Status 离开时发出通知TaskSt
如何在Java、SQL、ORM中使用money数据类型

在 Java 应用程序中使用货币数据类型的最佳实践是什么钱应该是双变量吗四舍五入货币等又如何呢有专门的图书馆吗最流行数据库中的 ORM 和 SQL 又如何呢据我所知并非所有 SQL 引擎中都是 Money 数据类型在这种情况
如果值为负数，如何更改文本颜色？

我正在开发一个网络应用程序它可以在整数之间进行加法我有两个函数叫做num1 and num2 获取两个整数作为用户的输入如果两个整数之和为负数我想更改结果输出文本颜色我如何使用 JavaScript 来做到这一点我看过很多 jQ
Spring MVC：和标签之间的区别？ [复制]

这个问题在这里已经有答案了前几天开始研究这个Spring Hello World教程 http viralpatel net blogs spring 3 mvc create hello world application spring
CSS渐变棋盘图案

I want to create a checkerboard pattern using gradients I ve found an example and modified it to my needs however it onl
如何在 Mac 上通过终端访问 XAMPP/Lampp 文件夹

我最近开始在 Mac 上使用 XAMPP 它在共享下安装了 lampp 文件夹并在 Finder 中显示为 IP 地址因此我可以通过 Finder 访问这些文件但无法通过终端 cd 进入该文件夹共享文件夹根本不可见我尝试 V
无法通过 docker-letsencrypt-nginx-proxy-companion 启用 ssl

我想通过以下方式启用 ssldocker letsencrypt nginx proxy companion 这是 docker compose yml version 3 3 services nginx proxy image jwil
返回选定的指定列

我想从某个 Blob 表中仅选择几列我有以下字段 Id RowVersion Size Signature Blob 我只想选择前四个我这样做 gt 是一个错误的地方 public List
从 http 而不是 https 加载图像时出现 403 错误

我的问题类似于this one https stackoverflow com questions 22958559 403 when trying to download a remote image 但我只使用 html 和 javas
打乱 SSE 寄存器中的偶数和奇数值

我用 16 位值加载两个 SSE 128 位寄存器这些值按以下顺序排列 src 0 E 3 O 3 E 2 O 2 E 1 O 1 E 0 O 0 src 1 E 7 O 7 E 6 O 6 E 5 O 5 E 4 O 4 我想要实现的是

打乱 SSE 寄存器中的偶数和奇数值

打乱 SSE 寄存器中的偶数和奇数值 的相关文章

随机推荐

热门标签

打乱 SSE 寄存器中的偶数和奇数值的相关文章