_mm_max_ss 在 clang 和 gcc 之间有不同的行为

2024-05-22

我正在尝试使用 clang 和 gcc 交叉编译一个项目，但在使用时发现一些奇怪的差异_mm_max_ss e.g.

__m128 a = _mm_set_ss(std::numeric_limits<float>::quiet_NaN());
__m128 b = _mm_set_ss(2.0f);
__m128 c = _mm_max_ss(a,b);
__m128 d = _mm_max_ss(b,a);

现在我期望std::max涉及 NaN 时的类型行为，但 clang 和 gcc 给出不同的结果：

Clang: (what I expected)
c: 2.000000 0.000000 0.000000 0.000000 
d: nan 0.000000 0.000000 0.000000 

Gcc: (Seems to ignore order)
c: nan 0.000000 0.000000 0.000000 
d: nan 0.000000 0.000000 0.000000

当我使用 _mm_max_ps 时，它会执行预期的操作。我尝试过使用-ffast-math, -fno-fast-math但似乎没有效果。有什么想法可以使编译器之间的行为相似吗？

神箭链接here https://godbolt.org/z/7jTbPP

我的理解是 IEEE-754 要求：(NaN cmp x)回来false for all cmp运营商{==, <, <=, >, >=}，除了{!=}返回true。一个实现max()函数可以根据任何不等式运算符来定义。

那么，问题是，如何_mm_max_ps实施的？和{<, <=, >, >=}，或者有点比较？

有趣的是，当禁用优化您的链接，相应的maxssgcc 和 clang 都使用指令。两者产量：

2.000000 0.000000 0.000000 0.000000 
nan 0.000000 0.000000 0.000000

这表明，鉴于：max(NaN, 2.0f) -> 2.0f, that: max(a, b) = (a op b) ? a : b, where op是其中之一：{<, <=, >, >=}。根据 IEEE-754 规则，此比较的结果始终为 false，因此：

(NaN op val) is always错误，返回(val),
(val op NaN) is always错误，返回(NaN)

启用优化后，编译器可以自由地进行预计算(c) and (d)在编译时。看来 clang 将结果评估为maxss指令将 - 纠正“假设”行为。 GCC 要么依靠另一种实现max()- 它使用 GMP 和 MPFR 库进行编译时数字 - 或者只是不小心_mm_max_ss语义。

GCC 在 godbolt 上的 10.2 和 trunk 版本上仍然出现错误。所以我认为你发现了一个错误！我还没有回答第二部分，因为我想不出可以有效解决这个问题的万能黑客。

来自 Intel 的 ISA 参考：

如果被比较的值都是 0.0s（任一符号），则该值返回第二个源操作数。如果第二个值源操作数是一个 SNaN，该 SNaN 会原封不动地返回到目的地（即不返回 SNaN 的 QNaN 版本）。

如果该指令只有一个值为 NaN（SNaN 或 QNaN），则第二个源操作数，可以是 NaN 或有效的浮点值，被写入结果。如果不是这种行为，而是需要返回来自任一源操作数的 NaN，操作可以使用一系列指令来模拟 MAXSS，例如比较后跟 AND、ANDN 和 OR。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

_mm_max_ss 在 clang 和 gcc 之间有不同的行为的相关文章

对静态成员变量的未定义引用

我有一个有静态成员的类它也是我的程序中其他几个类的基类这是它的头文件 ifndef YARL OBJECT HPP define YARL OBJECT HPP namespace yarlObject class YarlObject
代码块 power 函数在 c 中不起作用

我正在使用代码块来学习c 我的代码是 include
是什么使 ELF 库中的符号成为对象或普通符号？

我有一个正在加载一些插件的应用程序dlopen 具体来说dlopen name RTLD LAZY RTLD DEEPBIND 有一些插件以二进制形式提供可以正常加载但我尝试构建的插件无法加载并出现错误 opt app plugins
有没有办法将 boost::json::serializer 切换为美化输出？

Using boost json serializer如中的示例所示文档快速查看 http vinniefalco github io doc json json usage quick look html以紧凑格式保存 json tre
使用 size_t 值反向遍历向量

我想以相反的方向遍历向量的值如您所知向量的大小为 size t 当我使用以下代码时 for size t r m size 1 r gt 0 r x r f r for size t c r 1 c lt m size c x r m
求一个数的因数。无法得到准确的结果

有人可以帮助纠正我的算法吗我已经对几个数字进行了测试但它没有输出完整的因式分解对于具有大量因子的数字它完全失败 int num 20 for int i 2 i lt num i if num i 0 cout lt lt i lt
是否有一种算法可以在线性时间内计算数组反转？

我知道有多少倒转 en wikipedia org wiki Inversion 28discrete mathematics 29 in an n 元素数组可以在 O n log n 操作使用增强型归并排序 http www geeksf
C for 循环索引：新 CPU 中的前向索引更快吗？

在我订阅的邮件列表上两位知识渊博的 IMO 程序员正在讨论一些优化的代码并说了以下内容在 5 8 年前发布的 CPU 上向后迭代 for 循环稍微快一些 e g for int i x 1 i gt 0 i 因为比较i归零比将其与其
如何强制用户仅使用“new”创建从我派生的类的对象？

为了实现引用计数我们使用IUnknown http msdn microsoft com en us library ms680509 VS 85 aspx类接口和智能指针模板类该接口具有所有引用计数方法的实现包括Release vo
按值返回的函数的返回语句中的初始化

我的问题源于深入研究std move in return语句例如以下示例 struct A A std cout lt lt Constructed lt lt this lt lt std endl A A noexcept std c
printf() 使用字符串表“解码器环”调试库

我写这封信是想看看你们中是否有人见过或听说过我即将描述的想法的实现我有兴趣为嵌入式目标开发 printf 风格的调试库目标非常遥远并且我和目标之间的通信带宽预算非常紧张因此我希望能够以非常有效的格式获取调试消息通常调试语句如下所
带有自定义鉴别器的 EntityFramework Code First 继承

我正在尝试在 EntityFramework Code First 中映射以下继承 public class Member public string ProjectName get set public string AssemblyNa
SQL参数化查询不显示结果

我的 DataAcess 类中有以下函数但它没有显示任何结果我的代码如下 public List
如何解决内存碎片

我们偶尔会遇到这样的问题长时间运行的服务器进程在 Windows Server 2003 上运行由于内存分配失败而引发异常我们怀疑这些分配由于内存碎片而失败因此我们一直在寻找一些可能对我们有帮助的替代内存分配机制我希望有人能告
char* argv[] 在 c/c++ 中如何工作？ [复制]

这个问题在这里已经有答案了我知道它用于使用命令行中的参数但我没有得到声明字符 argv 它是否意味着指向 char 数组的指针如果是的话为什么没有大小如果不是动态数组就不需要有大小吗我做了一些研究发现有人说它会衰减为 cha
修改代码以从 Windows 中的 PE 可执行文件检索双重签名信息？

我已经挣扎了一段时间想要修改这段代码示例 https support microsoft com en us help 323809 how to get information from authenticode signed execu
清理堆分配对象的良好实践或约定？

我正在学习C 我有 C C ObjC 背景相当高级的语言在 C 或 ObjC 上作为函数或方法的结果返回堆分配的对象是很简单的因为对象的清理是受管理的按照惯例会在适当的时候销毁但我不知道在 C 中应该如何处理这个问题例如 s
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
C# amo 获取角色完整

我正在开发一个 SSAS 项目其中除其他事项外我需要获取 C 中表格多维数据集的完整用户列表目前我让它以这样的方式工作我可以获得角色但数据不完整当我调用 Server Database Roles 为了便于阅读而简化属性并枚举
类模板的 C++ 静态成员 - 链接器警告“多重定义”[重复]

这个问题在这里已经有答案了假设出于某种原因我想要一个类模板 MyTemp 和一些静态数据成员 smDummyVar Mytemp h ifndef MY TEMP H define MY TEMP H template

随机推荐

从代码访问 WPF 控件验证规则

XAML
使用 Youtube API 播放音频

我们是几个软件开发人员计划制作一些商业扩展程序或一些网站使互联网连接速度慢或数据有限的用户可以通过 YouTube 的 API 播放几乎任何视频尽管在浏览 API 文档时我们看到了以下部分 Your API Client will
Spring cron 表达式每 30 分钟一次

Java spring 我有以下 cron 作业的 cron 表达式 0 0 35 但上面提到的 cron 表达式每小时触发一次如下所示 1 35 2 35 3 35 4 35 我想每 35 分钟触发一次而不是一小时触发一次有什么快速
在 NumberPicker 中显示更多数字

我有两个问题第一个问题是删除 NumberPicker 中的分隔线我在 Android 中扩展 NumberPicker 来解决这个问题如下所示 import android content Context import androi
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
C#：使用 System.Text 和 System.Text.RegularExpressions 之间的区别

在 ASP NET C 应用程序中我注意到为了使用 Regex 和 StringBuilder 我必须将两者都放在 using System Text using System Text RegularExpressions 从简单的角度
未安装 Apple 的全球开发者关系 (WWDR) 中间证书

我今天无法通过 Appcelerator Titanium 发布我的应用程序 AdHoc 我开始收到此错误错误未安装 Apple 的全球开发者关系 WWDR 中间证书错误这将阻止您为 iOS 设备构建应用程序或用于分发的软件包我上
Hibernate - 如何通过 Hibernate 将 java.net.URL 存储到数据库中

我有一块田地URL countryURL in a Country班级我想将其数据存储到COUNTRY通过 Hibernate 将表存储在数据库中哪个休眠type我应该在休眠映射文件中使用
推送 Lua 表

我已经创建了一个Lua表C 但我不知道如何将该表推入堆栈顶部以便我可以将其传递给 Lua 函数有谁知道如何做到这一点这是我当前的代码 lua createtable state libraries size 0 int table i
如何在 CoreOS 中重启后自动重启 Docker 容器？

假设当操作系统重新启动时 Docker 守护进程由任何 init d 或 systemd 之类的进程自动重新启动那么重新启动一个或多个 Docker 容器的首选方法是什么例如我可能在反向代理或数据库服务器后面有许多 Web 服务器如
从 mongodb 集合中查找前 20 个文档

我想在一个 Jframe 上显示集合中的前 20 条记录在另一个框架上显示接下来的 20 条记录我是 MongoDB 的新手请提出查询以查找前 20 个和后 20 个文档在 MongoDB shell 上您可以执行以下操作 db c
如何在不使用reinterpret_cast的情况下使用dlsym()加载函数？

我正在尝试使用 clang tidy 来强制执行 C 核心指南虽然它确实有很多有效点但有一件事我无法真正解决 dlsym 返回一个void 我需要以某种方式将其转换为正确的函数指针为此我使用reinterpret cast 由于指南
如何使用“downloadHandler”在闪亮的可反应内部创建下载按钮？

我创建downloadlinksa 的行内reactable 我这样做是为了DT datatable and a reactable reactable 我还创建了相应的output downloadHandler在 ids 上使用 app
如何在 CAST/CONVERT 之前检查 VARCHAR(n) 的 XML 格式是否正确

我的公司有一个日志表其中包含VARCHAR N 放置字符串的列即supposed是 XML 但事实证明它并不总是格式良好的为了对日志记录进行分析以确定错误趋势等我一直在使用LIKE陈述然而这非常慢最近我发现SQL Serv
App_offline.htm、CSS、图像和 aspnet_isapi.dll

因此我正在开发的网站正在使用 urlrewriting 与 aspnet isapi dll 配合所有内容都映射到它我放置了 app offline htm 文件所有文本均显示但是 CSS 或图像未提供我猜测由于通配符映射而不是
for 循环 - 没有效果的语句

由于某种原因我收到错误 statement with no effect关于这个声明 for j idx j lt iter j increment printf from loop idx i int idx punc ctxt j 你
Vue.js - 以编程方式设置槽内容

有什么办法可以从组件内部设置覆盖插槽的内容吗喜欢模板 div div
jQuery.ajax() 记录 HTTP 请求

我有一个发送 HTTP POST 请求的函数我想记录它以进行调试这是函数 function serverRequest URL DATA callback ajax url URL type POST dataType text con
按正确的顺序在字符串数组中查找常见字符

我花了几天时间研究一个函数以正确的顺序获取字符串数组中的常见字符以创建通配符这是一个解释我的问题的例子我做了大约3个函数但是当每个字母的绝对位置不同时我总是遇到一个错误我们假设是通配符 Array 0 gt 48ca135
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits

_mm_max_ss 在 clang 和 gcc 之间有不同的行为

_mm_max_ss 在 clang 和 gcc 之间有不同的行为 的相关文章

随机推荐

热门标签

_mm_max_ss 在 clang 和 gcc 之间有不同的行为的相关文章