用于左包装字节元素的高效 sse shuffle mask 生成

2024-01-31

使用 sse 优化以下代码的有效方法是什么？

uint16_t change1= ... ;
uint8_t* pSrc   = ... ;
uint8_t* pDest  = ... ;

if(change1 & 0x0001) *pDest++ = pSrc[0];
if(change1 & 0x0002) *pDest++ = pSrc[1];
if(change1 & 0x0004) *pDest++ = pSrc[2];
if(change1 & 0x0008) *pDest++ = pSrc[3];

if(change1 & 0x0010) *pDest++ = pSrc[4];
if(change1 & 0x0020) *pDest++ = pSrc[5];
if(change1 & 0x0040) *pDest++ = pSrc[6];
if(change1 & 0x0080) *pDest++ = pSrc[7];

if(change1 & 0x0100) *pDest++ = pSrc[8];
if(change1 & 0x0200) *pDest++ = pSrc[9];
if(change1 & 0x0400) *pDest++ = pSrc[10];
if(change1 & 0x0800) *pDest++ = pSrc[11];

if(change1 & 0x1000) *pDest++ = pSrc[12];
if(change1 & 0x2000) *pDest++ = pSrc[13];
if(change1 & 0x4000) *pDest++ = pSrc[14];
if(change1 & 0x8000) *pDest++ = pSrc[15];

到目前为止，我正在使用一个相当大的查找表，但我真的想摆脱它：

SSE3Shuffle::Entry& e0 = SSE3Shuffle::g_Shuffle.m_Entries[change1];
_mm_storeu_si128((__m128i*)pDest, _mm_shuffle_epi8(*(__m128i*)pSrc, e0.mask));
pDest += e0.offset;

假设：

change1 = _mm_movemask_epi8(bytemask);
offset = popcnt(change1);

在大型缓冲区上，使用两次洗牌和 1 KiB 表仅比使用 1 次洗牌和 1MiB 表慢约 10%。我尝试通过前缀和和位旋转来生成洗牌掩码，大约是基于表的方法速度的一半（解决方案使用pext/pdep没有探索过）。

减少表大小：对 2 KiB 表使用两次查找，而不是对 1 MiB 表进行 1 次查找。始终保留最上面的字节 - 如果要丢弃该字节，那么该位置是什么字节并不重要（低至 7 位索引或 1 KiB 表）。通过手动打包每个 16 位通道中的两个字节（减少到 216 字节表），进一步减少可能的组合。

以下示例使用以下方法从文本中去除空格SSE4.1。要是SSSE3那么可用blendv可以效仿。 64 位的一半通过重叠写入内存来重新组合，但它们可以在xmm注册（如在AVX2例子）。

#include <stdint.h>
#include <smmintrin.h> // SSE4.1

size_t despacer (void* dst_void, void* src_void, size_t length)
{
    uint8_t* src = (uint8_t*)src_void;
    uint8_t* dst = (uint8_t*)dst_void;

    if (length >= 16) {
        // table of control characters (space, tab, newline, carriage return)
        const __m128i lut_cntrl = _mm_setr_epi8(' ', 0, 0, 0, 0, 0, 0, 0, 0, '\t', '\n', 0, 0, '\r', 0, 0);

        // bits[4:0] = index -> ((trit_d * 0) + (trit_c * 9) + (trit_b * 3) + (trit_a * 1))
        // bits[15:7] = popcnt
        const __m128i sadmask = _mm_set1_epi64x(0x8080898983838181);

        // adding 8 to each shuffle index is cheaper than extracting the high qword
        const __m128i offset = _mm_cvtsi64_si128(0x0808080808080808);

        // shuffle control indices
        static const uint64_t table[27] = {
            0x0000000000000706, 0x0000000000070600, 0x0000000007060100, 0x0000000000070602,
            0x0000000007060200, 0x0000000706020100, 0x0000000007060302, 0x0000000706030200,
            0x0000070603020100, 0x0000000000070604, 0x0000000007060400, 0x0000000706040100,
            0x0000000007060402, 0x0000000706040200, 0x0000070604020100, 0x0000000706040302,
            0x0000070604030200, 0x0007060403020100, 0x0000000007060504, 0x0000000706050400,
            0x0000070605040100, 0x0000000706050402, 0x0000070605040200, 0x0007060504020100,
            0x0000070605040302, 0x0007060504030200, 0x0706050403020100
        };

        const uint8_t* end = &src[length & ~15];
        do {
            __m128i v = _mm_loadu_si128((__m128i*)src);
            src += 16;

            // detect spaces
            __m128i mask = _mm_cmpeq_epi8(_mm_shuffle_epi8(lut_cntrl, v), v);

            // shift w/blend: each word now only has 3 states instead of 4
            // which reduces the possiblities per qword from 128 to 27
            v = _mm_blendv_epi8(v, _mm_srli_epi16(v, 8), mask);

            // extract bitfields describing each qword: index, popcnt
            __m128i desc = _mm_sad_epu8(_mm_and_si128(mask, sadmask), sadmask);
            size_t lo_desc = (size_t)_mm_cvtsi128_si32(desc);
            size_t hi_desc = (size_t)_mm_extract_epi16(desc, 4);

            // load shuffle control indices from pre-computed table
            __m128i lo_shuf = _mm_loadl_epi64((__m128i*)&table[lo_desc & 0x1F]);
            __m128i hi_shuf = _mm_or_si128(_mm_loadl_epi64((__m128i*)&table[hi_desc & 0x1F]), offset);

            // store an entire qword then advance the pointer by how ever
            // many of those bytes are actually wanted. Any trailing
            // garbage will be overwritten by the next store.
            // note: little endian byte memory order
            _mm_storel_epi64((__m128i*)dst, _mm_shuffle_epi8(v, lo_shuf));
            dst += (lo_desc >> 7);
            _mm_storel_epi64((__m128i*)dst, _mm_shuffle_epi8(v, hi_shuf));
            dst += (hi_desc >> 7);
        } while (src != end);
    }

    // tail loop
    length &= 15;
    if (length != 0) {
        const uint64_t bitmap = 0xFFFFFFFEFFFFC1FF;
        do {
            uint64_t c = *src++;
            *dst = (uint8_t)c;
            dst += ((bitmap >> c) & 1) | ((c + 0xC0) >> 8);
        } while (--length);
    }

    // return pointer to the location after the last element in dst
    return (size_t)(dst - ((uint8_t*)dst_void));
}

尾循环是否应该向量化或使用cmov留给读者作为练习。当输入不可预测时，无条件/无分支地写入每个字节的速度很快。

Using AVX2使用寄存器内表生成洗牌控制掩码仅比使用大型预计算表慢一点。

#include <stdint.h>
#include <immintrin.h>

// probably needs improvment...
size_t despace_avx2_vpermd(const char* src_void, char* dst_void, size_t length)
{
    uint8_t* src = (uint8_t*)src_void;
    uint8_t* dst = (uint8_t*)dst_void;

    const __m256i lut_cntrl2    = _mm256_broadcastsi128_si256(_mm_setr_epi8(' ', 0, 0, 0, 0, 0, 0, 0, 0, '\t', '\n', 0, 0, '\r', 0, 0));
    const __m256i permutation_mask = _mm256_set1_epi64x( 0x0020100884828180 );
    const __m256i invert_mask = _mm256_set1_epi64x( 0x0020100880808080 ); 
    const __m256i zero = _mm256_setzero_si256();
    const __m256i fixup = _mm256_set_epi32(
        0x08080808, 0x0F0F0F0F, 0x00000000, 0x07070707,
        0x08080808, 0x0F0F0F0F, 0x00000000, 0x07070707
    );
    const __m256i lut = _mm256_set_epi32(
        0x04050607, // 0x03020100', 0x000000'07
        0x04050704, // 0x030200'00, 0x0000'0704
        0x04060705, // 0x030100'00, 0x0000'0705
        0x04070504, // 0x0300'0000, 0x00'070504
        0x05060706, // 0x020100'00, 0x0000'0706
        0x05070604, // 0x0200'0000, 0x00'070604
        0x06070605, // 0x0100'0000, 0x00'070605
        0x07060504  // 0x00'000000, 0x'07060504
    );

    // hi bits are ignored by pshufb, used to reject movement of low qword bytes
    const __m256i shuffle_a = _mm256_set_epi8(
        0x7F, 0x7E, 0x7D, 0x7C, 0x7B, 0x7A, 0x79, 0x78, 0x07, 0x16, 0x25, 0x34, 0x43, 0x52, 0x61, 0x70,
        0x7F, 0x7E, 0x7D, 0x7C, 0x7B, 0x7A, 0x79, 0x78, 0x07, 0x16, 0x25, 0x34, 0x43, 0x52, 0x61, 0x70
    );

    // broadcast 0x08 then blendd...
    const __m256i shuffle_b = _mm256_set_epi32(
        0x08080808, 0x08080808, 0x00000000, 0x00000000,
        0x08080808, 0x08080808, 0x00000000, 0x00000000
    );

    for( uint8_t* end = &src[(length & ~31)]; src != end; src += 32){
        __m256i r0,r1,r2,r3,r4;
        unsigned int s0,s1;

        r0 = _mm256_loadu_si256((__m256i *)src); // asrc

        // detect spaces
        r1 = _mm256_cmpeq_epi8(_mm256_shuffle_epi8(lut_cntrl2, r0), r0);

        r2 = _mm256_sad_epu8(zero, r1);
        s0 = (unsigned)_mm256_movemask_epi8(r1);
        r1 = _mm256_andnot_si256(r1, permutation_mask);

        r1 = _mm256_sad_epu8(r1, invert_mask); // index_bitmap[0:5], low32_spaces_count[7:15]

        r2 = _mm256_shuffle_epi8(r2, zero);

        r2 = _mm256_sub_epi8(shuffle_a, r2); // add space cnt of low qword
        s0 = ~s0;

        r3 = _mm256_slli_epi64(r1, 29); // move top part of index_bitmap to high dword
        r4 = _mm256_srli_epi64(r1, 7); // number of spaces in low dword 

        r4 = _mm256_shuffle_epi8(r4, shuffle_b);
        r1 = _mm256_or_si256(r1, r3);

        r1 = _mm256_permutevar8x32_epi32(lut, r1);
        s1 = _mm_popcnt_u32(s0);
        r4 = _mm256_add_epi8(r4, shuffle_a);
        s0 = s0 & 0xFFFF; // isolate low oword

        r2 = _mm256_shuffle_epi8(r4, r2);
        s0 = _mm_popcnt_u32(s0);

        r2 = _mm256_max_epu8(r2, r4); // pin low qword bytes

        r1 = _mm256_xor_si256(r1, fixup);

        r1 = _mm256_shuffle_epi8(r1, r2); // complete shuffle mask

        r0 = _mm256_shuffle_epi8(r0, r1); // despace!

        _mm_storeu_si128((__m128i*)dst, _mm256_castsi256_si128(r0));
        _mm_storeu_si128((__m128i*)&dst[s0], _mm256_extracti128_si256(r0,1));
        dst += s1;
    }
    // tail loop
    length &= 31;
    if (length != 0) {
        const uint64_t bitmap = 0xFFFFFFFEFFFFC1FF;
        do {
            uint64_t c = *src++;
            *dst = (uint8_t)c;
            dst += ((bitmap >> c) & 1) | ((c + 0xC0) >> 8);
        } while (--length);
    }
    return (size_t)(dst - ((uint8_t*)dst_void));
}

对于后代，1 KiB 版本（生成表格留给读者作为练习）。

static const uint64_t table[128] __attribute__((aligned(64))) = {
    0x0706050403020100, 0x0007060504030201, ..., 0x0605040302010700, 0x0605040302010007 
};
const __m128i mask_01 = _mm_set1_epi8( 0x01 );

__m128i vector0 = _mm_loadu_si128((__m128i*)src);
__m128i vector1 = _mm_shuffle_epi32( vector0, 0x0E );

__m128i bytemask0 = _mm_cmpeq_epi8( ???, vector0); // detect bytes to omit

uint32_t bitmask0 = _mm_movemask_epi8(bytemask0) & 0x7F7F;
__m128i hsum = _mm_sad_epu8(_mm_add_epi8(bytemask0, mask_01), _mm_setzero_si128());

vector0 = _mm_shuffle_epi8(vector0, _mm_loadl_epi64((__m128i*) &table[(uint8_t)bitmask0]));
_mm_storel_epi64((__m128i*)dst, vector0);
dst += (uint32_t)_mm_cvtsi128_si32(hsum);

vector1 = _mm_shuffle_epi8(vector1, _mm_loadl_epi64((__m128i*) &table[bitmask0 >> 8]));
_mm_storel_epi64((__m128i*)dst, vector1);
dst += (uint32_t)_mm_cvtsi128_si32(_mm_unpackhi_epi64(hsum, hsum));

https://github.com/InstLatx64/AVX512_VPCOMPRESSB_Emu https://github.com/InstLatx64/AVX512_VPCOMPRESSB_Emu有一些基准。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于左包装字节元素的高效 sse shuffle mask 生成的相关文章

代表和结构的速度问题

我遇到了一些与结构和委托有关的速度问题采用以下控制台应用程序代码 public delegate string StringGetter public class LocalString public LocalString string
在循环内部或外部声明本地更好吗？ [复制]

这个问题在这里已经有答案了我习惯这样做 do local a for i 1 1000000 do a
SQL 中的 JOIN 成本有多高？和/或，性能和标准化之间的权衡是什么？

我发现了一个类似的线程但它并没有真正抓住我想要问的本质所以我创建了一个新线程我知道规范化和性能之间存在权衡我想知道划定这条线的最佳实践是什么在我的特定情况下我有一个消息传递系统它具有三个不同的表 messages thread
如何防止Googlebot淹没网站？

我正在中间的专用服务器上运行一个内容很多但流量很少的网站有时 Googlebot 会踩踏我们导致 Apache 耗尽内存导致服务器崩溃我怎样才能避免这种情况在谷歌网站管理员工具上注册验证您的网站并限制谷歌机器人提交站点地图阅
您可以从 MethodInfo 对象获取 Func （或类似的）吗？

我意识到一般来说使用反射会对性能产生影响实际上我本人根本不喜欢反思这纯粹是学术问题假设存在一些如下所示的类 public class MyClass public string GetName return My Name 请耐
按类型进行弹簧接线比按名称接线要慢很多

在我的项目中我试图迁移 Foo foo Foo beanFactory getBean name into Foo foo beanFactory getBean Foo class 好处是显而易见的类型安全更少复杂的代码更少无用的
从 JavaScript 数组中获取对象值的最大值和最小值

从 JavaScript 对象数组中获取最大值和最小值的最佳方法是什么 Given var a x 1 y 0 x 1 y 10 x 12 y 20 x 61 y 10 var minX Infinity maxX Infinity for
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
去除字符串的最佳方法是什么？

我需要具有最佳性能的想法来删除过滤字符串 I have string Input view 512 3 159 删除 view 和的最佳性能方法是什么和引号我可以做这个 Input Input Replace view Replac
为什么 Android Eclipse 不断刷新外部文件夹并花费很长时间？

我只有一部新的 Android 手机我一直在修补一些基本的应用程序每当我保存任何内容时 Eclipse 的 Android 插件就会刷新外部文件夹这让我抓狂通常我不会介意但当需要 10 秒才能刷新时我开始注意到我已经搜索过其
从视频创建缩略图 - 提高速度性能 - AVAsset - iPhone [重复]

这个问题在这里已经有答案了我正在使用基于以下线程中的代码的代码来生成视频缩略图从 iPhone SDK 中的视频 URL 或数据获取缩略图 https stackoverflow com questions 1347562 gettin
嵌套辅助函数和性能

嵌套辅助函数对于使代码更易于理解非常有用谷歌甚至建议在他们的应用程序中使用嵌套函数时尚指南 https google styleguide googlecode com svn trunk javascriptguide xml Nest
在Python列表中交换元素的最快方法

在Python中交换两个列表元素是否有比 L a L b L b L a 或者我必须求助于Cython http cython org or Weave http www scipy org Weave或类似的看起来 Python 编译器
随机数但不重复

我想生成一个小于 50 的随机数但一旦生成该数字我希望它不能再次生成谢谢您的帮助请参见费舍尔耶茨洗牌 http en wikipedia org wiki Fisher E2 80 93Yates shuffle public
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
汇编程序中的过程调用如何工作？

我刚刚开始摆弄 ASM 我不确定我对过程调用的理解是否正确假设代码中的某个时刻有一个过程调用 call dword ptr 123 该过程仅包含一个命令 ret ret 0004 该过程调用的效果是什么返回值将存储在哪里我在某处读到
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
将 1 字节立即值添加到 2 字节内存位置

The add说明文档来自这一页 http x86 renejeschke de html file module x86 id 5 html说如下请注意我突出显示的两条说明我在 NASM 中尝试了以下代码符合第一个突出显示的指令
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in

随机推荐

如何从 mongodb 检索 datetiime？通过与jDateChosser Java比较数据

private void showdataTable btnActionPerformed java awt event ActionEvent evt try DateFormat df new SimpleDateFormat YYYY
如何创建IOS模拟器Flutter

我是使用 AndroidStudio 作为 IDE 的 flutter 新手我成功创建了 Flutter 应用程序并能够在 Android 模拟器上运行它我可以创建 IOS 模拟器来使用 Android studio 测试应用程序吗如
如何使用 AJAX 动态更改 Select2 中的 URL？

我在 angularjs 中使用 ui select2 进行远程数据访问我有一个下拉菜单根据下拉菜单中选择的值 ajax 调用中存在的 URL 应动态更改以便我可以从该特定 URL 获取数据是否可以根据下拉列表中的值动态更改 URL
HTML5 视频元素请求永远处于待处理状态（在 Chrome 上）

我在 Chrome 中遇到了一个奇怪的问题每次我加载一个
如何在 Linux 中用 C 打印精确到毫秒和纳秒的时间差？

我有这个程序它打印两个不同实例之间的时间差但它打印的精度为秒我想以毫秒为单位打印它以纳秒为单位打印另一个差异 Prints in accuracy of seconds include
将 Python 连接到 Heroku PostgreSQL 数据库？

我正在探索 Python 语言的各种功能我已经在 Heroku 上创建了一个 Postgres 数据库我希望连接到它我有主机数据库用户端口和密码设置我不想部署到 Heroku 只是在本地连接到这个数据库我可以从哪里开始 Fro
在android TextView中按单词换行文本

我有一个包含一段信息的文本视图我想让文本按单词而不是字符换行目前如果单词太长它将插入一个连字符并在单词中间断开这是我的 TextView 的 xml 代码
如何在 if else 语句中使用微调器和数字选择器的选定值

我想一起使用数字选择器和旋转器的值在选择旋转器的值后然后数字选择器用户输入搜索这将统计另一个具有列表视图的活动我想根据所选值显示列表的选择性项目 package myfyp pkg futureadvisor import java
如何检查react-native库的64位兼容性

我已将我的react native项目升级到0 59 x 以便它可以提供64位版本我现在需要检查我使用的每个库是否提供64位版本例如react native firebase或各种其他流行的图书馆我已经解压了 APK 并观察到 x86
如何在列表项长按时弹出确认删除对话框？

我正在学习在线教程并尝试自己实现一些功能当检测到长按列表项时如何弹出对话框来提醒用户以下是该教程中的一些代码 public class FriendList extends ListActivity private static f
找到不是直接来自我的代码的托管异常的来源？

如果这确实是一个超级用户问题我提前道歉我只是不确定但这似乎更多地取决于开发人员方面而不是技术支持方面这不一定是问题但它确实让我对我的系统彻底抓狂它也只发生在我的电脑上当我启动任何应用程序时即使是空白的 WPF 应用程序我
我可以限制 AWS Lambda 的并发调用吗？

我有一个 Lambda 函数该函数由对 S3 存储桶的 PUT 操作触发我想限制此 Lambda 函数使其一次仅运行一个实例我不希望两个实例同时运行我浏览了 Lambda 配置和文档但没有看到任何明显的内容我可以编写自己的锁定
并行 linq 中的 let 子句是否强制并行计算？

在 xamarin iOS 网站上有以下并行 linq 示例 from item in items AsParallel let result DoExpensiveWork item select result 这个可以不写吗 from
QnA 机器人无法正确显示表格格式

我的 QnA 制造商知识库当前由 pdf 文件训练 http download microsoft com download 2 9 B 29B20383 302C 4517 A006 B0186F04BE28 surface pro 4
更改 Laravel 刀片分隔符

我知道您可以使用以下命令更改默认刀片分隔符 Blade setEscapedContentTags Blade setContentTags 但是我不知道应该把它放在哪里这样它只会影响单个刀片模板而不是把它放在app start glo
类成员——Java 与 Python

我现在从 Java 开始学习 Python 我尝试理解Python中类成员的概念下面是一个 Java 示例程序 class Hello int x 0 void ex x 7 public static void main String
Fancybox 无法处理来自 Twitter API 的图像

使用 Fancybox 2 下面的示例可以完美运行省略其他代码 a class fancybox href https si0 twimg com profile images 2169856486 avatar jpg title so
如何读取 Micronaut 中的应用程序属性？

我使用指南将 AWS SES API 集成到我的 Micronaut Groovy 应用程序中在 micronaut 中发送邮件 http guides micronaut io micronaut email groovy guide i
在 C++ 构造函数中分配内存的正确方法是什么？

这是通过分配内存的正确方法new在 C 构造函数中参数列表中的第一种方式 class Boda int memory public Boda int length memory new int length Boda delete mem
用于左包装字节元素的高效 sse shuffle mask 生成

使用 sse 优化以下代码的有效方法是什么 uint16 t change1 uint8 t pSrc uint8 t pDest if change1 0x0001 pDest pSrc 0 if change1 0x0002 pDest

用于左包装字节元素的高效 sse shuffle mask 生成

用于左包装字节元素的高效 sse shuffle mask 生成 的相关文章

随机推荐

热门标签

用于左包装字节元素的高效 sse shuffle mask 生成的相关文章