AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

2024-01-12

我有两个 __m256i 向量，填充了 32 个 8 位整数。像这样的东西：

    __int8 *a0 = new __int8[32] {2};
    __int8 *a1 = new __int8[32] {3};

    __m256i v0 = _mm256_loadu_si256((__m256i*)a0);
    __m256i v1 = _mm256_loadu_si256((__m256i*)a1);

我如何使用类似的方法将这些向量相乘_mm256_mul_epi8(v0, v1)（不存在）或任何其他方式？

我想要 2 个结果向量，因为输出元素宽度是输入元素宽度的两倍。或者类似的东西_mm_mul_epu32仅使用偶数输入元素（0、2、4 等）就可以了

您希望将结果分成两个向量，所以这是我对您的问题的建议。我试图说得清楚、简单和可实现：

#include <stdio.h>
#include <x86intrin.h>
 void _mm256_print_epi8(__m256i );
 void _mm256_print_epi16(__m256i );
 void _mm256_mul_epi8(__m256i , __m256i , __m256i* , __m256i* );


int main()
{
    char a0[32] = {1, 2, 3, -4, 5, 6, 7, 8, 9, -10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, -24, 25, 26, 27, 28, 29, 30, 31, 32};
    char a1[32] = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, -13, 14, 15, 16, 17, 18, 19, -20, 21, 22, 23, 24, -25, 26, 27, 28, 29, 30, 31, 32, 33};

    __m256i v0 = _mm256_loadu_si256((__m256i*) &a0[0]);
    __m256i v1 = _mm256_loadu_si256((__m256i*) &a1[0]);

    __m256i r0, r1;//for 16 bit results

    _mm256_mul_epi8(v0, v1, &r0, &r1);

    printf("\nv0 = ");_mm256_print_epi8(v0);
    printf("\nv1 = ");_mm256_print_epi8(v1);
    printf("\nr0 = ");_mm256_print_epi16(r0);
    printf("\nr1 = ");_mm256_print_epi16(r1);
    printf("\nfinished\n");


    return 0;
}
//v0 and v1 are 8 bit input vectors. r0 and r1 are 18 bit results of multiplications
 void _mm256_mul_epi8(__m256i v0, __m256i v1, __m256i* r0, __m256i* r1)
{
    __m256i tmp0, tmp1;
    __m128i m128_v0, m128_v1;

    m128_v0 = _mm256_extractf128_si256 (v0, 0);
    m128_v1 = _mm256_extractf128_si256 (v1, 0);

    tmp0= _mm256_cvtepi8_epi16 (m128_v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    tmp1= _mm256_cvtepi8_epi16 (m128_v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);


    *r0 =_mm256_mullo_epi16(tmp0, tmp1);

    m128_v0 = _mm256_extractf128_si256 (v0, 1);
    m128_v1 = _mm256_extractf128_si256 (v1, 1);

    tmp0= _mm256_cvtepi8_epi16 (m128_v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    tmp1= _mm256_cvtepi8_epi16 (m128_v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);

    *r1 =_mm256_mullo_epi16(tmp0, tmp1);


}
 void _mm256_print_epi8(__m256i vec)
{
    char temp[32];
    _mm256_storeu_si256((__m256i*)&temp[0], vec);
    int i;
    for(i=0; i<32; i++)
        printf(" %3i,", temp[i]);


}

 void _mm256_print_epi16(__m256i vec)
{
    short temp[16];
    _mm256_storeu_si256((__m256i*)&temp[0], vec);
    int i;
    for(i=0; i<16; i++)
        printf(" %3i,", temp[i]);   
}

输出是：

[martin@mrt Stack over flow]$ gcc -O2 -march=native mul_epi8.c -o out
[martin@mrt Stack over flow]$ ./out

v0 =    1,   2,   3,  -4,   5,   6,   7,   8,   9, -10,  11,  12,  13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23, -24,  25,  26,  27,  28,  29,  30,  31,  32,
v1 =    2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12, -13,  14,  15,  16,  17,  18,  19, -20,  21,  22,  23,  24, -25,  26,  27,  28,  29,  30,  31,  32,  33,
r0 =    2,   6,  12, -20,  30,  42,  56,  72,  90, -110, 132, -156, 182, 210, 240, 272,
r1 =  306, 342, -380, 420, 462, 506, 552, 600, 650, 702, 756, 812, 870, 930, 992, 1056,
finished
[martin@mrt Stack over flow]$

NOTE:我已经在推荐代码中注释了中间结果 tmp0 和 tmp1。此外，正如彼得在评论中建议的并提供了一个 Godbolt 链接，如果您的程序从内存加载并且不需要乘以向量中的元素，您可以使用以下代码：

#include <immintrin.h>

//v0 and v1 are 8 bit input vectors. r0 and r1 are 18 bit results of multiplications
__m256i mul_epi8_to_16(__m128i v0, __m128i v1)
{
    __m256i tmp0 = _mm256_cvtepi8_epi16 (v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    __m256i tmp1 = _mm256_cvtepi8_epi16 (v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);

    return _mm256_mullo_epi16(tmp0, tmp1);
}

__m256i mul_epi8_to_16_memsrc(char *__restrict a, char *__restrict b){

    __m128i v0 = _mm_loadu_si128((__m128i*) a);
    __m128i v1 = _mm_loadu_si128((__m128i*) b);
    return mul_epi8_to_16(v0, v1);
}


int main()
{
    char a0[32] = {1, 2, 3, -4, 5, 6, 7, 8, 9, -10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, -24, 25, 26, 27, 28, 29, 30, 31, 32};
    char a1[32] = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, -13, 14, 15, 16, 17, 18, 19, -20, 21, 22, 23, 24, -25, 26, 27, 28, 29, 30, 31, 32, 33};

    __m256i r0 = mul_epi8_to_16_memsrc(a0, a1);

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

SIMD

avx

avx2

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？的相关文章

向进度条添加百分比文本 C#

我有一个方法可以显示进程栏何时正在执行以及何时成功完成我工作得很好但我想添加一个百分比如果完成则显示 100 如果卡在某个地方则显示更少我在网上做了一些研究但我无法适应我正在寻找的解决方案这是我的代码 private voi
在 C++ 中使用 matlab 结构（matlab 函数调用的返回值）（由 matlab 编译器生成的库）

你好我有一个相当简单的 matlab 函数例如 function MYSTRUCT myfunc MYSTRUCT prop1 test MYSTRUCT prop2 foo MYSTRUCT prop3 42 end 我用 matla
注销租约抛出 InvalidOperationException

我有一个使用插件的应用程序我在另一个应用程序域中加载插件我使用 RemoteHandle 类http www pocketsilicon com post Things That Make My Life Hell Part 1 App
Directory.Delete 之后 Directory.Exists 有时返回 true ？

我有非常奇怪的行为我有 Directory Delete tempFolder true if Directory Exists tempFolder 有时 Directory Exists 返回 true 为什么可能是资源管理器打开了
确保 StreamReader 不会挂起等待数据

下面的代码读取从 tcp 客户端流读取的所有内容并且在下一次迭代中它将仅位于 Read 上我假设正在等待数据我如何确保它不会在没有任何内容可供读取时返回我是否必须设置低超时并在失败时响应异常或者有更好的办法吗 TcpClient
C中的malloc内存分配方案

我在 C 中尝试使用 malloc 发现 malloc 在分配了一些内存后浪费了一些空间下面是我用来测试 malloc 的一段代码 include
在 LINQ 中按 Id 连接多表和分组

我想按categoryId显示列表产品的名称组这是我的代码我想要我的视图显示结果 Desktop PC HP Red PC Dell Yellow PC Asus Red SmartPhone Lumia 720 Blue 我的组模型
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
将 Word 文档另存为图像

我正在使用下面的代码将 Word 文档转换为图像文件但是图片显得太大内容不适合有没有办法渲染图片或将图片保存到合适的尺寸 private void btnConvert Click object sender EventArgs e
qdbusxml2cpp 未知类型

在使用 qdbusxml2cpp 程序将以下 xml 转换为 Qt 类时我收到此错误 qdbusxml2cpp c ObjectManager a ObjectManager ObjectManager cpp xml object ma
DbContext 和 ObjectContext 有什么区别

From MSDN 表示工作单元和存储库模式的组合使您能够查询数据库并将更改分组在一起然后将这些更改作为一个单元写回存储 DbContext在概念上类似于ObjectContext 我虽然DbContext只处理与数据库的连接以及针对数
如何在 Xaml 文本中添加电子邮件链接？

我在 Windows Phone 8 应用程序中有一些大文本我希望其中有电子邮件链接例如 mailto 功能这是代码的一部分
Azure 辅助角色“请求输入之一超出范围”的内部异常。

我在辅助角色中调用 CloudTableClient CreateTableIfNotExist 方法但收到一个异常其中包含请求输入之一超出范围的内部异常我做了一些研究发现这是由于将表命名为非法表名引起的但是我尝试为我的表命
C# 中的合并运算符？

我想我记得看到过类似的东西三元运算符 http msdn microsoft com en us library ty67wk28 28VS 80 29 aspx在 C 中它只有两部分如果变量值不为空则返回变量值如果为空则返回默
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
按 Esc 按键关闭 Ajax Modal 弹出窗口

我已经使用 Ajax 显示了一个面板弹出窗口我要做的是当用户按 Esc 键时关闭该窗口这可能吗如果有人知道这一点或以前做过这一点请帮助我 Thanks 通过以下链接您可以通过按退出按钮轻松关闭窗口 http www codepro
不同类型指针之间的减法[重复]

这个问题在这里已经有答案了我试图找到两个变量之间的内存距离具体来说我需要找到 char 数组和 int 之间的距离 char data 5 int a 0 printf p n p n data 5 a long int distan
当从finally中抛出异常时，Catch块不会被评估

出现这个问题的原因是之前在 NET 4 0 中运行的代码在 NET 4 5 中因未处理的异常而失败部分原因是 try finallys 如果您想了解详细信息请阅读更多内容微软连接 https connect microsoft com
如何将 PostgreSql 与 EntityFramework 6.0.2 集成？ [复制]

这个问题在这里已经有答案了我收到以下错误实体框架提供程序类型的实例成员 Npgsql NpgsqlServices Npgsql 版本 2 0 14 2 文化中性 PublicKeyToken 5d8b90d52f46fda7 没

随机推荐

HTML5 输入 datetime-今天和当前时间的本地默认值

无论如何我可以将 HTML5 input type datetime local 的默认值设置为今天的日期和当前时间之前谢谢您可以将其缩短
django 中的 get_list_or_404 排序

我正在尝试对 get list or 404 方法的结果进行排序 get list or 404 order by name 似乎不起作用有什么方法可以做到这一点你可以这样做 get list or 404 Model objects
Verilog 错误：必须连接到结构网络表达式

我收到错误 output or inout port Qout must be connected to a structural net expression 我评论了下面代码中发生错误的行代码被修剪压缩我搜索了答案似乎我无法将输
Svelte/Typescript 错误：类型声明期间出现“意外标记”

所以我有一个Svelte启用了 TypeScript 的应用程序但现在我在运行它时遇到问题 Error Unexpected token Note that you need plugins to import files that ar
NLTK 和语言检测

如何使用 NLTK 检测文本是用什么语言编写的我见过的例子使用nltk detect 但是当我在我的Mac上安装它时我找不到这个包您是否遇到过以下代码片段 english vocab set w lower for w in nltk
.NET 中是否可以进行被动日志记录？

我经常对代码中必须包含的日志量感到沮丧这让我想知道是否有更好的方法来做事情我不知道这是否已经完成或者是否有人提出了更好的主意但我想知道是否有人知道有一种方法可以将记录器注入到应用程序中以便它被动地监视线程并安静地记录日志流程发
如何在没有 root 访问权限的计算机上安装 virtualenv

我想在没有root权限的Linux机器上安装virtualenv 我在 nettuts 上看到了截屏视频 http net tutsplus com tutorials python tutorials python power tools
将两个文件中的对象数组与特定键 1.4 下的 jq 结合起来

我有两个具有以下 JSON 的文件我需要使用每个对象的相对数组位置来组合它们 PS 我被限制为 1 4 版本就像在 Solaris 上一样所以没有 inputs 功能 File 1 input email email protecte
指定直接主机的 Ansible ad-hoc 命令 - 没有匹配的主机

我正在使用 VirtualBox 运行 16 04 Ubuntu 桌面计算机该虚拟机安装了 Ansible 2 4 0 我正在尝试运行一个临时的 ansible 命令只是为了证明它有效我正在上在线课程为了模拟小型服务器场我使用 lx
Objective C - NSArray 子类化

我正在尝试子类化NSArray 但是当尝试访问 count 方法时它会使应用程序崩溃我知道NSArray is a 类簇但是这是什么意思有没有办法可以子类化 NSArray 我知道我可以简单地子类化NSObject并将我的数组作为实
如何在 Android 中附加 XML 文件？

我正在将 XML 文件写入 SD 卡并且我需要能够打开该 XML 文件并向其中添加数据我怎样才能做到这一点例如我的 XML 文件是
jquery 防止触摸时悬停功能

我有一个悬停功能如果它是触摸设备我希望悬停事件不会发生问题是当您使用触摸设备点击链接时它会在执行单击事件之前执行悬停事件因此您必须点击它两次才能正常工作这是悬停功能 close hover function close 2 c
立即交付第一个项目，“消除”后续项目

考虑以下用例需要尽快交付第一个项目 need to debounce以下事件有 1 秒超时我最终实现了基于的自定义运算符OperatorDebounceWithTime然后像这样使用它 lift new CustomOperatorDe
计算 Levenshtein 编辑距离的复杂度

我一直在研究这个简单的Python实现编辑距离 http en wikipedia org wiki Levenshtein distance现在一整天 def lev a b Recursively calculate the Leven
无法验证证书 - 请设置 'ENV['SSL_CERT_FILE'] = path_to_file'

我有一个使用 Carrierwave 上传文件的 Rails 4 应用程序安装 Fog 将文件上传到 Amazon 3 后我在上传文件时开始收到以下错误 Excon Errors SocketError in VideosControl
在选择下拉列表时，检索数据为空，除了谷歌网络应用程序中的第一个项目选择之外[重复]

这个问题在这里已经有答案了我正在开发谷歌网络应用程序我想根据下拉选择检索数据我只能在从下拉列表中选择第一个项目时完美检索数据其余的我收到空数组我已经通过手动调用检查服务器端代码其工作正常并完美地发送回数据问题出在客户端代码中
如何在SSRS中将数字格式化为小数点后1位？

我有一份包含完整数字字段的 SSRS 报告我希望将其显示为一位小数我尝试使用F1 它在 html 渲染中只给了我一位小数点但在 Excel 导出版本中它显示了 2 位小数我如何才能在 ecxel 和 html 渲染中都只有一位小数点
Visual Studio Code 断点警告：源代码与原始版本不同

我对 Visual Studio Code 非常陌生我正在尝试调试一个已经存在的应用程序该应用程序是我通过 Git 克隆的我的文件还没有被修改我已经下载了微软扩展 C for Visual Studio Code 由 OmniSha
Microsoft Dynamics 365 SDK 核心程序集 .NET Core 移植错误

当尝试使用时Microsoft Dynamics 365 SDK 核心程序集 https www nuget org packages Microsoft CrmSdk CoreAssemblies 在 NET Core 2 0 项目中运
AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

我有两个 m256i 向量填充了 32 个 8 位整数像这样的东西 int8 a0 new int8 32 2 int8 a1 new int8 32 3 m256i v0 mm256 loadu si256 m256i a0 m256

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？ 的相关文章

随机推荐

热门标签

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？的相关文章