为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

2024-02-24

有谁知道为什么pmulhrsw指示或

_mm_mulhrs_epi16(x) := RoundDown((x * y + 16384) / 32768)

总是向正无穷大舍入？对我来说，这对负数有很大的偏差，因为像 -0.6, 0.6, -0.6, 0.6, ... 这样的序列平均起来不会等于 0。

这种行为是有意还是无意？如果是故意的，那有什么用呢？有没有一种简单的方法可以减少偏见？

对我来说幸运的是，我只需更改操作顺序即可获得偏差较小的结果（我的函数是带符号的几何平均值）：

__m128i ChooseSign(x, sign)
{
  return _mm_sign_epi16(x, sign)
}
signsDifferent = _mm_srai_epi16(_mm_xor_si128(a, b), 15)   // (a ^ b) >> 15
sign = _mm_andnot_si128(signsDifferent, a)    // !signsDifferent & a
//result = ChooseSign(sqrt(a * b), sign) * fraction   // biased
result = ChooseSign(sqrt(a * b) * fraction, sign)

一个最严重的错误。我在上问了同样的问题英特尔开发者论坛 https://software.intel.com/en-us/forums/topic/540117andysem 纠正了我，指出行为是四舍五入到最接近的整数。

我错误地认为这是有偏见的，因为来自MSDN的公式 https://learn.microsoft.com/en-us/previous-versions/bb513995(v=vs.120)

was (x * y + 16384) >> 15。这看起来非常相似int(x + 0.5)舍入方法，我知道这种方法对负数有偏见并且畏缩。但我没有意识到负数的右移与除法和转换为 int 不同。

另外，它与我的非 SIMD 参考实现不匹配，结果证明这是有偏差的，因为我正在计算int(sum / 9.0f)，向零舍入。

在质疑硬件中实现的某些东西的行为之前，我应该有更多的怀疑，因为硬件会经过严格的审查，因为int(x + 0.5)将是一个非常昂贵的错误。

_mm_mulhrs_epi16()仍然有一些偏差，总是将 x.5 舍入到+infinity。但这对我的申请来说不是什么大问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rounding

multiplication

SIMD

SSE

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？的相关文章

C++ 错误：“_mm_sin_ps”未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试 why is mm sin ps在我的范围内不知道但是 mm sqrt ps is 我怎样才能让它知道并且编译没有错误 include
使用乘法执行整数除法[重复]

这个问题在这里已经有答案了查看编译器生成的 x86 程序集我注意到无符号整数除法有时会实现为整数乘法这些优化似乎遵循以下形式 value n gt value 0xFFFFFFFF n 1 0x100000000 例如除以 9
如何使用 JavaScript 四舍五入到任意数量的有效数字？

我尝试了下面的示例代码 function sigFigs n sig if n 0 return 0 var mult Math pow 10 sig Math floor Math log n lt 0 n n Math LN10 1 r
SSE、内在函数和对齐

我使用大量 SSE 编译器内在函数编写了一个 3D 矢量类一切都工作正常直到我开始使用 new 来实例化具有 3D 向量作为成员的类我在发布模式下经历了奇怪的崩溃但在调试模式下却没有反之亦然因此我阅读了一些文章并认为我需要将
排列 SSE __m128i 寄存器内的字节

我有以下问题 In m128i寄存器有 16 个 8bit 值顺序如下 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 我想要实现的是有效地洗牌字节以获得此排序 1 2 3 4 5 6 7 8 9 10 11
优化数组压缩

假设我有一个数组k 1 2 0 0 5 4 0 我可以按如下方式计算掩码m k gt 0 1 1 0 0 1 1 0 仅使用掩码 m 和以下操作左移右移 And Or 加减乘我可以将 k 压缩为以下形式 1 2 5 4 以下是我目
使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

我已经使用 Intel 的 SSE 内在函数相当长一段时间了并取得了良好的性能提升因此我希望 AVX 内在函数能够进一步加速我的程序不幸的是直到现在情况并非如此可能我犯了一个愚蠢的错误所以如果有人能帮助我我将非常感激我使用
Ruby - 乘法问题

我的输出是这样的 ruby 1 9 2 p290 011 gt 2 32 3 gt 6 959999999999999 我记得有一天在另一台机器上我得到了它就像 2 32 3 6 我的错误是什么非常感谢您阅读本文如果您确实想向下舍入为整
Numpy 的舍入方式与 Python 不同

The code import numpy as np a 5 92270987499999979065 print round a 8 print round np float64 a 8 gives 5 92270987 5 92270
C# 中四舍五入到偶数

我没有看到 Math Round 的预期结果 return Math Round 99 96535789 2 MidpointRounding ToEven returning 99 97 据我了解 MidpointRounding ToE
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
如何自定义舍入形式

我的问题可能看起来很简单但仍然无法得到有效的东西我需要自定义 Math round 舍入格式或其他格式以使其工作如下如果数字是 1 6 他应该四舍五入到 1 如果大于或等于 1 7 他应该四舍五入到 2 0 对于所有其他带有 6 的小
MS Access 中的舍入

VBA Access 中舍入的最佳方法是什么我目前的方法是利用Excel方法 Excel WorksheetFunction Round 但我正在寻找一种不依赖Excel的方法请注意 VBA Round 函数使用 Banker 舍入将
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits
R中舍入单位的舍入数字[重复]

这个问题在这里已经有答案了我正在尝试按舍入单位对数字进行舍入例如 value lt c 8 21 1 76 6 42 1 94 10 38 如果舍入单位为 0 2 则结果为 8 2 1 8 6 4 2 0 10 4 我怎样才能在R中做到
为什么 Sql Server 2000 上的 TSQL 对小数点的舍入不一致？

我正在尝试计算美元金额的折扣百分比在 50 的情况下有时你会得到半分钱我需要将其四舍五入到最接近的一分钱在Sql中我的计算如下 round retail 0 5 2 0 如果我采用以下值我会得到不同的结果 4 39 2 49 不
汇编语言程序中连续两次相乘

我正在使用 8086 模拟器以及 DOSBOX 和 MASM 我知道当我们将 8 位与 8 位相乘时答案将是 16 位 al 8 bit ax 当我们将 16 位与 16 位相乘时答案将是 32 位 ax 16 bit dx ax 但如
如何在 AVX/AVX2 中递增向量

我想使用内在函数来增加 SIMD 向量的元素最简单的方法似乎是为每个元素加 1 如下所示 note vec inc之前已设置为1 vec mm256 add epi16 vec vec inc 但是是否有任何特殊指令来增加向量类似于in

随机推荐

Firebase：仍启用每个电子邮件一个帐户，Firebase 使用同一电子邮件创建多个帐户

在我的项目中首先默认启用每个电子邮件一个帐户 AuthCredential credential FacebookAuthProvider getCredential token getToken mAuth signInWithCre
有没有一个插件可以自动压缩和缓存 JavaScript？

我正准备开始一个新项目我想知道是否有一种方法可以在服务器端自动缩小 JavaScript 并在 JavaScript 缩小一次后提供缓存我可以简单地编写一个构建脚本来完成此任务但如果我可以一劳永逸可以自动缩小那就太好了在这种情
如何从 WP7 中的字符串中删除重音符号

我想从 Windows Phone 7 中的字符串中删除重音符号变音符号解决方案here https stackoverflow com questions 249087 how do i remove diacritics accen
在 Vue.js 中如何使用多个路由器视图，其中一个视图位于另一个组件内？

我有一个 Vue js 单页应用程序其中有一个使用的主导航栏
在网站访问之间安全存储凭据

我正在建立一个网站允许用户创建帐户并访问网站的内容我不希望用户每次访问该网站时都登录因此我计划将用户名和密码存储在 cookie 中但是我听说这是不好的做法即使密码经过哈希处理饼干我应该遵循哪些最佳实践才能在用户访问我的网
将字节数组转换为十六进制字符串

令人惊讶的是对我来说这段代码没有达到我想要的效果 fun ByteArray toHexString String return this joinToString it toString 16 事实证明Byte is signed 因
服务模型和 f#

我刚刚从 f 开始所以这个问题对你们中的一些人来说可能看起来很简单所以我尝试使用位于 System ServiceModel Syndicate 命名空间中的 SyndicateFeed 我向项目添加了以下引用 System Serv
`iter().map().sum()` 和 `iter().fold()` 一样快吗？

编译器是否生成相同的代码iter map sum and iter fold 最终他们实现了相同的目标但是第一个代码将迭代两次一次是为了map并一次为sum 这是一个例子哪个版本会更快total pub fn square s u32
数组到二叉搜索树快速

给定一个整数数组有没有办法将其快速转换为二叉搜索树不平衡我尝试为每个元素一一插入但这意味着我必须从头开始遍历每次插入它工作得很好但我认为最坏的情况是 O N 2 不平衡例如数组已排序鉴于 N 个很大我认为这将需要一些时间
尝试用另一种语言解密时出现错误的 AES 解密

当我尝试在 C 中加密并在 C 中解密时出现错误输入数据不是一个完整的块但这对我来说没有任何意义因为如果我尝试用 C 解密消息与我进行加密的语言相同它工作得很好所以 C 部分的一些代码 int main int argc ch
Mysql select递归获取具有多个级别的所有子级

我有一张桌子 CREATE TABLE IF NOT EXISTS Folder idFolder INT 11 NOT NULL AUTO INCREMENT FolderName VARCHAR 150 NOT NULL idFolde
强制关闭电报上的弹出窗口“打开此链接？”

当我在帖子中使用 html 格式并创建链接时 Telegram 会显示一个弹出窗口before打开链接是否有脚本或其他东西可以强制关闭弹出窗口并立即打开链接我不想插入链接没有 HTML 在单击链接之前我按下 Enter 键我使用 A
Android - 在 TextView 上显示带边框文本的方法？

有没有办法在 TextView 上显示带边框的文本我建议延长TextView http developer android com reference android widget TextView html See Android 自定
如何在 MacBook Air 上的 iOS 模拟器中滚动？

我有一个滚动视图和一个嵌入的 UIImageView 代码是正确的但我无法在模拟器中滚动可能是因为我有触控板而不是鼠标或者我可以吗您需要启用 3 指拖动从 Apple 菜单中选择系统偏好设置单击辅助功能图标在侧边栏中选择
如何禁用 openssl 中的特定密码套件？

我想保护我的服务器免受 FREAK 攻击因此我想禁用所有使用 Openssl 导出级 RSA 密钥的密码套件有没有办法禁用 openssl 中的特定密码套件如果是我该怎么做有没有办法禁用 openssl 中的特定密码套件如果是
内存限制=80M。 imagecreatefromjpeg() 的最大图像尺寸是多少？

我有一个虚拟主机最大内存限制为 80M 即 ini set memory limit 80M 我正在使用使用函数 imagecreatefromjpeg 的照片上传当我上传大图片时出现错误致命错误允许的内存大小 83886080 字
使用 then() 使函数在节点中顺序运行

我想在序列总线中运行循环函数该函数总是异步的有什么方法可以使其同步而不使用回调或任何外部库 file 1 var db require promiseUnderStanding var fun function for var i 0
如何求两个表的总和？

我有两个表第一个名称是销售第二个名称是项目两个表中都有相同的 code 和 qtd 列我想编写 MYSQL 查询我需要两个表中的 sum qtd 其中两个表中的代码相同对于单表我正在使用这个按代码从销售组中选择代码 su
FORTRAN 95：是否可以在不共享源代码的情况下共享模块？

我希望能够共享 FORTRAN 95 模块而不共享其源代码是否可以这样做也许通过共享 MOD 文件如果这是相关的我在 Plato 上使用 Silverfrost FTN95 编译器到目前为止我只能通过使用外部模块的源代码来完成这
为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

有谁知道为什么pmulhrsw指示或 mm mulhrs epi16 x RoundDown x y 16384 32768 总是向正无穷大舍入对我来说这对负数有很大的偏差因为像 0 6 0 6 0 6 0 6 这样的序列平均起来不会

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？ 的相关文章

随机推荐

热门标签

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？的相关文章