使用 x64 SIMD 进行半字节改组

2024-04-01

我知道字节改组 https://www.felixcloutier.com/x86/pshufb指令，但我想对半字节（4 位值）做同样的事情，具体来说，我想在 64 位字中混洗 16 个半字节。我的洗牌索引也存储为 16 个半字节。最有效的实施是什么？

带有必须以这种方式存储的控制向量的任意洗牌？唉，很难共事。我猜你必须将两者都解压才能提供 SSSE3pshufb然后重新打包该结果。

大概只是punpcklbw反对右移副本，然后 AND 掩码以仅保留每个字节中的低 4 位。然后pshufb.

有时，奇数/偶数分割比加宽每个元素更容易（因此位仅保留在其原始字节或字内）。在这种情况下，如果我们可以更改您的半字节索引编号，punpcklqdq可以将奇数或偶数半字节放入高半部分，准备将它们带回下方并进行“或”操作。

但如果不这样做，重新包装就是一个单独的问题。我猜想将相邻的字节对组合成低字节中的一个字，也许是pmaddubsw https://www.felixcloutier.com/x86/pmaddubsw如果吞吐量比延迟更重要。然后你可以packuswd https://www.felixcloutier.com/x86/packuswb（针对零或自身）或pshufb（具有恒定的控制向量）。

如果您要进行多次这样的洗牌，您可以将两个向量打包为一个，以便存储movhps / movq。使用 AVX2，可以让所有其他指令在两个 128 位通道中的两个独立的洗牌上工作。

// UNTESTED, requires only SSSE3
#include <stdint.h>
#include <immintrin.h>

uint64_t shuffle_nibbles(uint64_t data, uint64_t control)
{
  __m128i vd = _mm_cvtsi64_si128(data);    // movq
  __m128i vd_hi = _mm_srli_epi32(vd, 4);   // x86 doesn't have a SIMD byte shift
  vd = _mm_unpacklo_epi8(vd, vd_hi);       // every nibble at the bottom of a byte, with high garbage
  vd = _mm_and_si128(vd, _mm_set1_epi8(0x0f));  // clear high garbage for later merging

  __m128i vc = _mm_cvtsi64_si128(control);
  __m128i vc_hi = _mm_srli_epi32(vc, 4);
  vc = _mm_unpacklo_epi8(vc, vc_hi);

  vc = _mm_and_si128(vc, _mm_set1_epi8(0x0f));  // make sure high bit is clear, else pshufb zeros that element.
       //  AVX-512VBMI  vpermb doesn't have that problem, if you have it available
  vd = _mm_shuffle_epi8(vd, vc);

       // left-hand input is the unsigned one, right hand is treated as signed bytes.
  vd = _mm_maddubs_epi16(vd, _mm_set1_epi16(0x1001));  // hi nibbles << 4 (*= 0x10), lo nibbles *= 1.

  // vd has nibbles merged into bytes, but interleaved with zero bytes
  vd = _mm_packus_epi16(vd, vd);  // duplicate vd into low & high halves.
  //  Pack against _mm_setzero_si128() if you're not just going to movq into memory or a GPR and you want the high half of the vector to be zero.
  return _mm_cvtsi128_si64(vd);
}

屏蔽数据0x0f在 shuffle 之前（而不是之后）允许在具有两个 shuffle 单元的 CPU 上实现更多 ILP。至少如果它们在向量寄存器中已经有 uint64_t 值，或者数据和控制值来自内存，那么两者都可以在同一周期中加载。如果来自 GPR，则为 1/时钟吞吐量vmovq xmm, reg意味着 dep 链之间存在资源冲突，因此它们不能在同一周期中启动。但由于数据可能在控制之前就准备好了，因此提前屏蔽可以使其远离控制->输出延迟的关键路径。

如果延迟而不是通常的吞吐量成为瓶颈，请考虑更换pmaddubsw右移 4，por，和/包。或者pshufb打包，同时忽略奇数字节中的垃圾。既然你无论如何都需要另一个常量，不妨将其设为pshufb常数而不是and.

如果您有 AVX-512，则进行移位和位混合vpternlogd可以避免在洗牌之前需要屏蔽数据，并且vpermb代替vpshufb将避免需要屏蔽控件，因此您可以避免set1_epi8(0x0f)完全恒定。

clang 的 shuffle 优化器没有发现任何东西，只是像 GCC 那样编译它（https://godbolt.org/z/xz7TTbM1d https://godbolt.org/z/xz7TTbM1d），即使-march=sapphirerapids。没有发现它可以使用vpermb代替vpand / vpshufb.

shuffle_nibbles(unsigned long, unsigned long):
        vmovq   xmm0, rdi
        vpsrld  xmm1, xmm0, 4
        vpunpcklbw      xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
        vmovq   xmm1, rsi
        vpsrld  xmm2, xmm1, 4
        vpunpcklbw      xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
        vmovdqa xmm2, xmmword ptr [rip + .LCPI0_0] # xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
        vpand   xmm0, xmm0, xmm2
        vpand   xmm1, xmm1, xmm2
        vpshufb xmm0, xmm0, xmm1
        vpmaddubsw      xmm0, xmm0, xmmword ptr [rip + .LCPI0_1]
        vpackuswb       xmm0, xmm0, xmm0
        vmovq   rax, xmm0
        ret

（没有AVX，需要额外2个movdqa注册复制指令。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 x64 SIMD 进行半字节改组的相关文章

为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？

我正在运行一些测试来比较 C 和 Java 并遇到了一些有趣的事情在 main 调用的函数中而不是在 main 本身中运行具有优化级别 1 O1 的完全相同的基准代码导致性能大约翻倍我正在打印 test t 的大小以毫无疑问地验
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
在 C# 中按元素相乘数组具有意想不到的性能

我想找到按元素相乘两个数组的最佳方法这是更广泛项目的一部分其中性能而不是唯一的考虑因素我今天开始用 C Linqpad 编写一些函数因此它还没有以任何方式进行优化下面代码的输出如下 Environment ProcessorCou
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
为什么 printf 使用浮点和整数格式说明符打印随机值

我在64位机器上写了一个简单的代码 int main printf d 2 443 所以这就是编译器的行为方式它将识别第二个参数为双精度型因此它将在堆栈上压入 8 个字节或者可能只是在调用之间使用寄存器来访问变量 d需要 4 字节整
为什么X86中没有NAND、NOR和XNOR指令？

它们是您可以在计算机上执行的最简单的指令之一它们是我亲自实施的第一个指令执行 NOT AND x y 会使执行时间和依赖链长度和代码大小加倍 BMI1 引入了 andnot 这是一个有意义的补充是一个独特的操作为什么不是这个问题
SSE：跨页边界的未对齐加载和存储

我在页面边界旁边执行未对齐加载或存储之前读过某处例如使用 mm loadu si128 mm storeu si128内在函数代码应首先检查整个向量在本例中为 16 个字节是否属于同一页如果不属于同一页则切换到非向量指令我知道
在 Intel x86 架构上使用非 AVX 指令移动 xmm 整数寄存器值

我有以下问题需要使用 AVX2 以外的任何工具来解决我有 3 个值存储在 m128i 变量中不需要第四个值需要将这些值移动 4 3 5 我需要两个功能一个用于按这些值进行右逻辑移位另一个用于左逻辑移位有谁知道使用 SSE AV
如何有效地扫描每次迭代交替的 2 位掩码

给定 2 个位掩码应交替访问 0 1 0 1 我尝试获得运行时高效的解决方案但找不到比以下示例更好的方法 uint32 t mask 2 uint8 t mask index 0 uint32 t f tzcnt u32 mask ma
SMP 上如何处理中断？

SMP 对称多处理器多核机器上如何处理中断内存管理单元是只有一个还是多个假设两个线程 A 和 B 运行在不同的内核上同时访问页表中不存在的内存页面在这种情况下将会出现页面错误并从内存中引入新页面将会发生的事件的顺序是什么
为什么“+=”在 SSE 内在函数中给出了意想不到的结果

sse内在累加有两种实现方式但其中之一得到了错误的结果 include
在 SSE 和 AVX512 寄存器之间移动数据？

我想将四个 xmm 寄存器移动到一个 zmm 寄存器中使用 AVX512 指令执行一些计算并将结果返回到 XMM 寄存器不通过内存来做到这一点的最有效方法是什么 None
64 位上的 ASLR 和内存布局：是否仅限于规范部分 (128 TiB)？

当加载启用 ASLR 的 PIE 可执行文件时 Linux 是否会限制程序段到规范部分最多 0000 7fff ffff ffff 的映射还是会使用完整的较低部分起始位 0 显然 Linux 不会给你的进程提供不可用的地址这会导致它
与 SSE 比较 16 字节字符串

我有 16 字节的字符串它们可能更短但您可能会假设它们在末尾用零填充但您可能不会假设它们是 16 字节对齐的至少不总是如何编写一个例程将它们与 SSE 内在函数进行比较是否相等我发现这个代码片段可能会有帮助但我不确定它是否
段寄存器如何参与内存地址转换？

到目前为止我所学到的有关细分的知识虚拟地址包含段选择器和偏移量段选择器与GDTR配合使用查找段描述符的线性地址段描述符保存有关所选段的信息包括其线性地址所以我的问题是根据我所读到的内容虚拟地址被加载到段寄存器中然后以某种
从 64 位 nasm 代码接收 32 位寄存器

我正在学习 64 位 nasm 我通过执行以下操作来汇编 nasm 文件该文件仅包含 64 位寄存器 nasm f elf64 HelloWorld nasm o HelloWorld o 并链接它执行以下操作 ld HelloWorld
使用非规范地址检索内存数据会导致 SIGSEGV 而不是 SIGBUS

我无法使用以下汇编代码产生总线错误这里我使用的内存地址不是合法的规范地址那么我怎样才能触发该错误呢我在带有 NASM 2 14 02 的 Ubuntu 20 04 LTS 下运行这段代码但它会导致负载出现 SIGSEGV 分段

随机推荐

如何匹配scala泛型类型？

有没有办法只匹配函数中传递的泛型类型我想做 def getValue T cursor Cursor columnName String T val index cursor getColumnIndex columnName T mat
jest.mock() 内的 jest.fn() 返回未定义

我有一个简单的 util 模块带有默认导出和 2 个命名导出 const foo gt foo export default foo export const bar gt bar export const baz gt baz 在我的测
将laravel 4.2项目导入eclipse

我已经安装了laravel 4 2 via composer并创建于htdocs folder of my xampp安装一个新项目当我进入localhost一切都运行得很好现在我想将这个项目导入到eclipse luna 我已经在ec
如何从 Liferay 速度模板获取服务器名称和服务器端口？

在jsp页面中我们可以使用以下命令获取服务器名称和服务器端口 request getServerName 和 request getServerPort 由于我们无法从Liferay速度模板获取HttpServletRequest 是否有
在 Android 中每天首次启动应用程序时显示警报

我正在开发 Android 应用程序其中我遇到了一个问题我想做的是当用户一天中第一次启动该应用程序时我想向他显示一些警报当他在同一天第二次打开应用程序时它不会收到警报他只会在当天首次启动应用程序时收到警报第二天如果他再次第
Java 字体大小与 HTML 字体大小

我正在图像上写文字我正在使用 DrawString x y string 方法并将字体大小设置如下 Font font new Font fontName fontWeight fontSize 正如您所看到的左侧文本以 12 磅大小
如何在 IHttpModule 中测试 HttpApplication 事件

我在写信HttpModule并且需要测试它我正在使用C NET4 5 2 NUnit and Moq 我想测试的方法是Context BeginRequest public class XForwardedForRewriter IHtt
为什么 C++ 需要对 malloc() 进行强制转换，而 C 不需要？

我一直对此感到好奇为什么在 C 中我必须转换返回值malloc但不是C语言下面是 C 中有效的示例 int int ptr int malloc sizeof int 下面是 C 中的示例该示例不起作用无强制转换 int int p
Zed-Graph 以编程方式将比例设置为默认值

我有一个 winforms 应用程序它使用 zed graph 库来绘制图表当我右键单击控件应用程序运行时时会显示上下文菜单我可以选择Set Scale to default 我如何实现这个目标Set Scale to defa
如何打开给定文件的用户系统首选编辑器？

我试图弄清楚如何打开给定文件的系统首选编辑器假设我们有一个用 Java 编写的文件管理器用户转到文件夹并查看文件列表并且例如有一个文件Icon jpg 用户双击文件名文件将在系统的首选编辑器即 Gimp 中打开主要问题是如
如何在 Oracle Weblogic 12.1 中部署 JSF 2.1 Web 应用程序？

我正在尝试将 JSF 2 1 Web 应用程序部署到 Weblogic 12 1 应用程序服务器但部署失败并出现以下异常
使用 SocketServer 中的子进程调用停止主 Python 进程

我正在尝试实现一种反向终端在某台计算机 foo 上启动 server py 在其他计算机上运行 nc foo 2000 并且您将连接到 foo 上的 bash shell 我正在使用以下服务器代码 import socket os thr
如何让 Mercurial 将“hg out --patch”差异显示为视觉差异？

看起来像hg out patch or hg out p是查看哪些代码被推送到存储库推送时的好方法但差异是文本格式的有没有办法让它使用kdiff3还有 hg outgoing patch单独显示每个变更集中的更改如果您正在寻找可视
如何判断sidekiq是否连接到redis服务器？

使用控制台如何判断 sidekiq 是否连接到 Redis 服务器我希望能够做这样的事情 if sidekiq is connected to redis psuedo code MrWorker perform async do wo
Python - Vincenty 反演公式不收敛（查找地球上点之间的距离）

我正在尝试实现维基百科上描述的文森蒂逆问题HERE http en wikipedia org wiki Vincenty 27s formulae Inverse problem 问题在于 lambda 根本不收敛如果我尝试迭代公式序列
Opera 控制台中出现红色警告消息

出现红色消息大概是在浏览器自动更新之后 Warning 该区域仅供开发人员使用众所周知骗子会鼓励人们在此处复制粘贴信息来破解帐户如果您不确定请不要继续浏览器是 Opera 87 0 4390 36 似乎它不适用于 Chrome
为什么在使用带有类名的静态变量时未显示非法前向引用错误

在下面的代码中当使用类名访问静态变量时它不会引发前向引用错误但在没有类名的情况下访问它会引发前向引用错误为什么使用类名访问时不会发生这种情况 class Test static System out println a shows
Azure 计算服务工作线程在扩展后变得“忙碌”

我正在 Azure 中运行一项具有 4 个工作实例的服务当我扩展到 5 个工作实例时已启动的第一个实例进入繁忙状态这是为什么扩大规模期间会发生什么 azure 是否重新运行所有启动任务我很困惑似乎找不到任何有关此的文档扩展
获取 Node.js 中的完整文件路径

我有一个将 csv 文件上传到特定文件夹例如上传的应用程序现在我想获取该 csv 文件的完整路径例如 D MyNodeApp uploads Test csv 如何获取 Node js 中的文件位置我使用 multer 上传文件
使用 x64 SIMD 进行半字节改组

我知道字节改组 https www felixcloutier com x86 pshufb指令但我想对半字节 4 位值做同样的事情具体来说我想在 64 位字中混洗 16 个半字节我的洗牌索引也存储为 16 个半字节最有效的实施

使用 x64 SIMD 进行半字节改组

使用 x64 SIMD 进行半字节改组 的相关文章

随机推荐

热门标签

使用 x64 SIMD 进行半字节改组的相关文章