排列 SSE __m128i 寄存器内的字节

2024-04-30

我有以下问题：

In __m128i寄存器有 16 个 8bit 值，顺序如下：

[ 1, 5, 9, 13 ] [ 2, 6, 10, 14] [3, 7, 11, 15]  [4, 8, 12, 16]

我想要实现的是有效地洗牌字节以获得此排序：

[ 1, 2, 3, 4 ] [ 5, 6, 7, 8] [9, 10, 11, 12]  [13, 14, 15, 16]

它实际上类似于 4x4 矩阵转置，但在 8 位元素上运行在一个寄存器内。

您能告诉我什么样的SSE（最好

为此，您确实会想要使用 SSSE3，它比尝试使用

您的代码将如下所示：

   #include <tmmintrin.h> // _mm_shuffle_epi8
   #include <tmmintrin.h> // _mm_set_epi8
   ...
   // check if your hardware supports SSSE3
   ...
   __m128i mask = _mm_set_epi8(15, 11, 7, 3,
                               14, 10, 6, 2,
                               13,  9, 5, 1,
                               12,  8, 4, 0);
   __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                               15, 11, 7, 3,
                               14, 10, 6, 2,
                               13,  9, 5, 1);
   mtrx         = _mm_shuffle_epi8(mtrx, mask);

如果你真的想要 SSE2 这就足够了：
（假设我正确解释了您的初始订单）

  __m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF);
  __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                              15, 11, 7, 3,
                              14, 10, 6, 2,
                              13,  9, 5, 1);                                   // [1, 5, 9, 13] [2,  6, 10, 14] [3,  7, 11, 15] [ 4,  8, 12, 16]
  mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 9, 2, 10] [3, 11,  4, 12] [5, 13,  6, 14] [ 7, 15,  8, 16]
  mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 2, 3,  4] [5,  6,  7,  8] [9, 10, 11, 12] [13, 14, 15, 16]

或者更容易调试：

  __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                              15, 11, 7, 3,
                              14, 10, 6, 2,
                              13, 9, 5, 1);            // [1, 5,  9, 13] [ 2,  6, 10, 14] [ 3,  7, 11, 15] [ 4,  8, 12, 16]
  __m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF);
  __m128i temp = _mm_srli_epi16(mtrx, 8);              // [5, 0, 13,  0] [ 6,  0, 14,  0] [ 7,  0, 15,  0] [ 8,  0, 16,  0]
  mtrx         = _mm_and_si128(mtrx, mask);            // [1, 0,  9,  0] [ 2,  0, 10,  0] [ 3,  0, 11,  0] [ 4,  0, 12,  0]
  mtrx         = _mm_packus_epi16(mtrx, temp);         // [1, 9,  2, 10] [ 3, 11,  4, 12] [ 5, 13,  6, 14] [ 7, 15,  8, 16]
  temp         = _mm_srli_epi16(mtrx, 8);              // [9, 0, 10,  0] [11,  0, 12,  0] [13,  0, 14,  0] [15,  0, 16,  0]
  mtrx         = _mm_and_si128(mtrx, mask);            // [1, 0,  2,  0] [ 3,  0,  4,  0] [ 5,  0,  6,  0] [ 7,  0,  8,  0] 
  mtrx         = _mm_packus_epi16(mtrx, temp);         // [1, 2,  3,  4] [ 5,  6,  7,  8] [ 9, 10, 11, 12] [13, 14, 15, 16]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Optimization

SSE

SIMD

排列 SSE __m128i 寄存器内的字节的相关文章

强制初始化模板类的静态数据成员

关于模板类的静态数据成员未初始化存在一些问题不幸的是这些都没有能够帮助我解决我的具体问题的答案我有一个模板类它有一个静态数据成员必须为特定类型显式实例化即必须专门化如果不是这种情况使用不同的模板函数应该会导致链接器错误这是
Java 反射性能

使用反射创建对象而不是调用类构造函数是否会导致任何显着的性能差异是的一点没错通过反射查找类是按幅度更贵 Quoting Java关于反射的文档 http java sun com docs books tutorial refle
如何在 AVX/AVX2 中递增向量

我想使用内在函数来增加 SIMD 向量的元素最简单的方法似乎是为每个元素加 1 如下所示 note vec inc之前已设置为1 vec mm256 add epi16 vec vec inc 但是是否有任何特殊指令来增加向量类似于in
优化正则表达式以过滤数千个 HTML 选择选项

背景我开发了一个基于 jQuery 的穿梭小部件 https stackoverflow com a 13557000 59087对于 HTMLselect元素因为我找不到一个经过最低限度编码并提供正则表达式过滤器来补偿的元素变音符号
将 javascript 合并到一个文件中

最近阅读了雅虎的网络优化技巧并使用 YSlow 我在我的一个网站上实现了他们的一些想法http www gwynfryncottages com http www gwynfryncottages com你可以在这里看到该文件http ww
跨多个控件共享事件处理程序

在我用 C 编写的 Windows 窗体应用程序中我有一堆按钮当用户的鼠标悬停在按钮上时我希望按钮的边框发生变化目前我有以下多个实例每个按钮一个副本 private void btnStopServer MouseEnter ob
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i
L-BFGS 是否有 tf.keras.optimizers 实现？

有人有 L BFGS 算法的 Tensorflow 2 tf keras 子类吗如果想使用 L BFGS 目前有两个官方选项 TF概率 SciPy 优化这两个选项使用起来相当麻烦尤其是在使用自定义模型时因此我计划实现 tf k
同时使用 SSE2 内在函数和 gcc 内联汇编器

我尝试在 gcc 中混合 SSE2 内在函数和内联汇编器但是如果我将变量指定为 xmm0 register 作为输入那么在某些情况下我会收到编译器错误例子 include
为什么此代码生成的程序集比等效的 C++/Clang 多得多？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我编写了一个简单的 C 函数来检查编译器优化 bool f1 bool a bool b return a a b 之后我检查了
单个返回语句与多个返回语句？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
MATLAB 中时间戳过滤器的优化 - 处理非常大的数据集

我正在 MATLAB 中编写一个程序必须使用 MATLAB 并且不能真正使用 MEX 来过滤大量数据我需要实现的过滤器之一要求我将时间戳向量与其他时间戳不会出现的已知不良时间列表进行比较一个典型的时间戳向量有大约 2 000 00
在 clang 中向量化函数

我正在尝试根据此用 clang 对以下函数进行矢量化铿锵参考 http llvm org docs Vectorizers html 它采用字节数组向量并根据以下条件应用掩码this RFC https www rfc editor org
malloc和gcc优化2

while count lt 30000000 malloc 24 count 上面的代码在我用 gcc O0 编译的计算机上运行大约需要 170 毫秒但是使用 Ox 其中 x gt 0 进行编译时优化器会巧妙地发现所请求的内存永远不
MSVC 可能/不太可能等效

GCC 编译器支持 builtin expect 语句用于定义可能和不可能的宏 eg define likely expr builtin expect expr 1 define unlikely expr builtin expect
lmfit 最小化失败并出现 ValueError：数组太大

我正在尝试使用暴力方法来最小化 20 个变量的函数它因神秘错误而失败这是完整的代码 import random import numpy as np import lmfit def progress update params i
如何用gcc进行矢量化？

v4系列的gcc编译器可以使用以下方法自动向量化循环SIMD http en wikipedia org wiki SIMD某些现代 CPU 上的处理器例如 AMD Athlon 或 Intel Pentium Core 芯片这是怎么做
Oracle 中的 SQL 调优 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何文章链接可以让我找到 SQL 调优 Oracle 的示例如果能用例子来解释那就太好了我需
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
优化视图状态

是否有人对优化 ASP NET 应用程序的视图状态有任何想法或参考可以向我指出我不想把它全部关闭优化它的主要目标是提高性能所以我不想运行一个昂贵的函数来递归地禁用某些控件的视图状态因为该函数会减慢速度页面的加载时间会达不到目的有任

随机推荐

如何链接 SSL 证书

有没有什么方法可以将我们自己生成的密钥对与已链接到根 CA 例如 verisign 的现有证书链接起来基本上我的问题如下图所示 Verisign Root CA gt Company XYZ certificate gt Server f
mysql 日期与 date_format 的比较

我用谷歌搜索并尝试了几种方法来比较日期但不幸的是没有得到预期的结果我的当前记录状态如下 mysql gt select date format date starttime d m Y from data date format dat
如何将wordpress从mamp推送到hostgator

我在 mamp 中写了一个博客想推入 hostgator 我必须像 Hostgator 一样重新创建所有内容吗在 Hostgator 上安装 WordPress http www probloggingsuccess com instal
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解
如何从具有另一个环境的另一个脚本运行一个具有其环境的Python脚本？

我有两个脚本 script1 py and script2 py script1 有它自己的环境比如 python 2 而 script2 有它自己的环境比如 python 3 如何使脚本 1 调用脚本 2 及其相应的环境 Thanks
在 Vim 中以反转模式突出显示匹配项

如何在 Vim 中使用 match 命令突出显示与给定模式不匹配的文本所以我想要相反的 match myGroup foo 好吧你可以这样做 match myBaseHighlight foo 2match myGroup where
iPhone，如何在代码中将日期选择器的最小日期设置为今天？

我需要在代码中将日期选择器的最小日期设置为今天只需使用minimumdate属性 datePicker minimumDate NSDate date
kdb+：使用字符串作为变量名

如何使用字符串作为变量名我希望在运行时构建变量名但是如何将它用作左参数并为其赋值 Example test 1 assign error 您可以使用 set 但它会创建一个全局的 q test set 1 test 1 q test 1
使用 TFLite 量化模型的参数进行计算操作

我正在尝试使用量化的 Mobilenetv2 模型在硬件中实现图像分类here https www tensorflow org lite guide hosted models 为此我首先需要从头到尾重现推理过程以确保我理解对数据执行
检查一个类是否是 Laravel 5 中的 Model

我在 Laravel 5 2 中有这段代码用于检查给定的数据库表名称 what 是否有自己的 Model public function manage what model Str studly Str singular what if
加载视频数据集（Keras）

我正在尝试实现 LRCN C LSTM RNN 来对视频中的情绪进行分类我的数据集结构分为两个文件夹 train set 和 valid set 当你打开其中任何一个时你可以找到3个文件夹积极消极和惊喜最后这 3 个文件夹中
如何在 Google 文档电子表格中使用 regexextract 函数来获取字符串的“所有”出现位置？

我的文本字符串位于单元格 D2 中 Decision ERC Case No 2009 094 MC In the Matter of the Application for Authority to Secure Loan from th
颜色重新映射 - 使用 3D 网格匹配目标调色板？

假设我有颜色 FOO 它以 RGB 格式存储我需要重新着色 FOO 以便它与颜色列表中最接近的颜色匹配即时执行此操作我是否无法将每种颜色的 RGB 值视为 3D 网格上的点 r x g y b z 并计算点 FOO 与每个颜色点之间的
如何给gRaphael图形添加jquery点击事件？

我用 g Raphael 做了一个图表 function var r Raphael pieChart pie r piechart 320 240 100 55 20 13 32 5 1 2 10 r text 320 100 Inter
如何创建可以使用拨号盘启动的应用程序

我想知道如何使用 Dialpad 中的一些代码启动我的 Android 应用程序就像如果你 3214789650 它会从您的星系启动angryGps 应用程序如何实施 Thanks 试试这个使用广播接收器来监听去电号码清单 xml
Maven 依赖项插件无法解析插件的手动指定依赖项

我遇到了一个问题maven dependency plugin Maven版本3 2 3 maven dependency plugin版本2 10 我正在尝试引入插件依赖项我创建了一个简单的项目
MongoError: 使用 mongoosejs 连接 mLab 时数据库名称不能包含字符 ' '

这是我的JS代码 var mongoose require mongoose mongoose connect mongodb myUsername email protected cdn cgi l email protection 61
GetWindowLong(int hWnd, GWL_STYLE) 在 C# 中返回奇怪的数字

我使用 GetWindowLong 窗口 api 来获取 C 中窗口的当前窗口状态 DllImport user32 dll static extern int GetWindowLong IntPtr hWnd int nIndex Pr
有没有办法让 EF 5 代码优先迁移使用 ASP.NET MVC 4 中的 SQL Server 数据库来完成所有操作？

当我开始一个新的 ASP NET MVC 4 Web 应用程序项目时我希望它默认使用 SQL Server 来处理所有事情默认情况下当您运行此项目时它会创建一个 LocalDb 实例并在其中创建以下表网页会员资格网页 OAut
排列 SSE __m128i 寄存器内的字节

我有以下问题 In m128i寄存器有 16 个 8bit 值顺序如下 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 我想要实现的是有效地洗牌字节以获得此排序 1 2 3 4 5 6 7 8 9 10 11

排列 SSE __m128i 寄存器内的字节

排列 SSE __m128i 寄存器内的字节 的相关文章

随机推荐

热门标签

排列 SSE __m128i 寄存器内的字节的相关文章