为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？

2024-05-07

我正在对科学应用程序进行一些数值优化。我注意到的一件事是 GCC 会优化调用pow(a,2)通过将其编译成a*a，但是调用pow(a,6)没有优化，实际会调用库函数pow，这大大降低了性能。（相比之下，英特尔 C++ 编译器 http://en.wikipedia.org/wiki/Intel_C++_Compiler, 可执行文件icc，将消除图书馆的要求pow(a,6).)

我好奇的是当我更换pow(a,6) with a*a*a*a*a*a使用 GCC 4.5.1 和选项“-O3 -lm -funroll-loops -msse4”，它使用 5mulsd指示：

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13

如果我写(a*a*a)*(a*a*a)，它会产生

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm13, %xmm13

这将乘法指令的数量减少到 3 条。icc有类似的行为。

为什么编译器不能识别这个优化技巧？

Because 浮点数学不具有结合律 http://en.wikipedia.org/wiki/Floating_point#Accuracy_problems。浮点乘法中操作数的分组方式会影响结果的数值准确性。

因此，大多数编译器对于重新排序浮点计算都非常保守，除非他们可以确定答案将保持不变，或者除非您告诉他们您不关心数值精度。例如：the -fassociative-math option http://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.htmlgcc 允许 gcc 重新关联浮点运算，甚至-ffast-math该选项允许在准确性和速度之间进行更积极的权衡。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？的相关文章

浮点除以零的行为

Consider include
如何将 asm 着色器编译为 fxo 文件？

我有一个已编译的 fxo 着色器我正在尝试对其进行稍微编辑仅调整一些常量使用 fxdis https code google com archive p fxdis d3d1x https code google com archiv
错误：无法识别的指令 [ORG]

我试图编写一个引导加载程序以在 dos box 中使用我写了下面的代码 BITS 16 tell the assembler that its a 16 bit code ORG 0x7C00 Origin tell the assemb
将浮点型转换为双精度型

我正在尝试转换Single to Double同时保持原来的价值我找到了以下方法 Single f 5 2F Double d1 f 5 19999980926514 Double d2 Double Parse f ToString 5
为什么多次相加0.1仍然无损？

我知道0 1十进制数不能用有限的二进制数精确表示解释 http www exploringbinary com why 0 point 1 does not exist in floating point so double n 0 1会
C++ 自注册类有多安全？

来自哪里这个线程 https stackoverflow com questions 77817 c runtime knowledge of classes我用 C 实现了一个与所选解决方案类似的系统我现在的问题是用户 Daniel
NASM：如何正确访问SSD驱动器？

我需要使用 NASM 16 位代码访问 SSD 驱动器访问普通硬盘时需要设置寄存器AX DX CX来选择柱面磁道扇区扇区数 AH 选择读扇区功能 DL 选择驱动器号 CH 选择气缸 DH 选择磁盘上的一侧 CL 选择步入正轨的部门
致命错误：Python.h：没有这样的文件或目录，python-Levenshtein 安装

首先我正在使用 Python 3 7 开发 Amazon EC2 实例 Amazon linux 版本 2 AMI 我正在尝试使用以下命令安装 python Levenshtein 包 pip3 install python Levens
C++ Linux GCC 应用程序中的 GUID

我有很多服务器运行这个 Linux 应用程序我希望他们能够生成一个碰撞概率较低的 GUID 我确信我可以从 dev urandom 中提取 128 个字节这可能没问题但是有没有一种简单易用的方法来生成与 Win32 更等效的 GUID
不可能的事情发生了！这是什么意思？

我遇到了一个有趣的运行时错误我认为这是某种内存泄漏我写了以下程序 C Code include
让 GCC 使用进位逻辑进行任意精度算术而不需要内联汇编？

当使用任意精度算术例如 512 位整数时有没有办法让 GCC 在不使用内联汇编的情况下使用 ADC 和类似指令乍一看 GMP 的源代码表明他们只是为每个支持的平台提供了汇编实现这是我编写的测试代码它将命令行中的两个 128 位数
CC、gcc 和 g++ 之间的区别？

CC gcc g 这3个编译器在编译时有什么区别汇编语言中的 C 和 C 代码代码生成可用库语言特性等这个问题的答案是特定于平台的例如 Linux 上发生的情况与 Solaris 上发生的情况不同最简单的部分因为它不是特定于
为什么“dtoa.c”包含这么多代码？

我将是第一个承认我对低级编程的整体知识有点稀疏的人我理解许多核心概念但我不经常使用它们话虽这么说我对需要多少代码感到非常惊讶dtoa c http www netlib org fp dtoa c 在过去的几个月里我一直致力于用
微软怎么能说WinAPI中一个字的大小是16位呢？

我刚刚开始学习WinAPI 在MSDN中对WORD数据类型提供了以下解释 WORD16 位无符号整数范围是十进制 0 到 65535 该类型在 WinDef h 中声明如下 typedef 无符号短 WORD 很简单而且它与我一直在使
具有重复符号的 C++ 插件库上的段错误

我有一个跨平台 C 应用程序它分为多个共享库并从插件共享库加载附加功能插件库应该是自包含的并自行运行无需了解或依赖于调用应用程序其中一个插件包含从主应用程序复制的代码因此包含与引擎中的符号名称重复的符号名称是的我知道这通常是
将代码保存在 L1 缓存中

我一直在阅读维基百科关于 K 编程语言的文章 http en wikipedia org wiki K programming language Performance characteristics这就是我所看到的解释器的小尺寸和语言的
LTO、去虚拟化和虚拟表

比较 C 中的虚拟函数和 C 中的虚拟表一般来说编译器对于足够大的项目在去虚拟化方面做得同样好吗天真地说 C 中的虚拟函数似乎有更多的语义因此可能更容易去虚拟化 Update Mooing Duck 提到了内联去虚拟化函数快速
在编译行中添加“-march=native”intel 编译器标志会导致 KNL 上出现浮点异常

我有一个代码我在 Intel Xeon Phi Knights Landing KNL 7210 64 核处理器它是一台 PC 处于本机模式上启动并使用 Intel c 编译器 icpc 版本 17 0 4 我还在Intel co
为什么 VC++ 编译器 MOV+PUSH args 而不是仅仅 PUSH 它们？ x86

在 VC 的反汇编中正在进行函数调用编译器在压入本地指针之前将其 MOV 到寄存器 memcpy nodeNewLocation pNode sizeCurrentNode 0041A5DA 8B 45 F8 mov eax dword
使用 GCC 生成可读的程序集？

我想知道如何使用GCC http en wikipedia org wiki GNU Compiler Collection在我的 C 源文件中转储机器代码的助记符版本这样我就可以看到我的代码被编译成什么你可以使用 Java 来做到这一

随机推荐

Laravel - 雄辩地覆盖自定义时间戳......为什么？

我正在制作一个库存管理系统当产品缺货时我会在表中输入一个条目并记下 oos at 字段和日期时间后来当它回到库存时我找到该条目并更新 restocked at 时间戳字段但是当我执行第二个操作时我的 oos at 字段被
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
kubectl 运行本地 docker 镜像 - ImagePullBackOff 状态

我在本地计算机上构建 docker 映像并尝试使用 kubectl 拉取 docker 映像但它没有启动 docker 容器图像以 docker 命令开头 REPOSITORY TAG IMAGE ID CREATED SIZE to
具有数百万行的日志表。怎么办？

我有一个包含数百万行的日志表我正在考虑将数据分成多个表即 LoginHistory ExceptionHistory PaymentProcessingHistory 等在采用包含许多行而不是列的大型表并创建多个表时使用的术语是什
在 C 中将字符串转换为二进制 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我试图在 C 中将字符串转换为二进制这个函数必须返回一个字符串 char 如 010010101 等另外我想打印返回
编译器 libstdc++ 版本与系统版本

我试图了解 g 如何选择它链接的 libstdc 版本以及当库的系统版本不同时它意味着什么我正在使用 gcc g 4 1 2 根据ABI 指南 http gcc gnu org onlinedocs libstdc manual a
Spring身份验证，它是否使用加密的cookie？

是否Spring框架 http en wikipedia org wiki Spring Framework使用或在它支持的选项之一中将登录用户 userId 存储在 cookie 中的加密 cookie 这就是 ASP NET 身份验
以 at (@) 符号为前缀的 Objective-C 宏的含义

ReactiveCocoa 框架利用weakify and strongify宏两者前面都有一个符号这是一个例子从这个file https github com ReactiveCocoa ReactiveCocoa blob fd
Firestore 作为离线持久性机制有多可靠？

我目前使用 Firebase Firestore 作为主要后端从各种来源检索数据我还使用 Android 的 Room 作为我的移动后端当手机接收到数据时数据会存储在 Room 数据库中以防用户几天甚至几周内不再上网查看设备文件
Python getchildren() 不适用于有效的 XML 树

如果我在 XML 文件上运行以下 python 参见 Q 底部 import xml etree ElementTree as ET tree ET parse C temp test2 xml print tree getchildren
为什么我收到 string does not name a type 错误？

game cpp include
emacs：Orgmode，如何从一行行中创建一个列表

有没有办法隐藏这样的行块 line1 line2 linen into 1 line1 2 line2 n linen 使用 Emacsorg mode http orgmode org 我知道的最短的方法是突出显示这些行包括它们的换行
Excel VBA：通过快捷键运行打开文档后宏挂起，但从 VB 编辑器运行完美

我遇到了一个奇怪的问题我决定分配一个键盘快捷键Ctrl Shift P我的 VBA 例程之一该例程假设打开一个现有的 Excel 工作簿复制一些信息并 SaveAs另一个名字当我在 Visual Basic 编辑器中点击播放时
在 python 中使用 graphviz 从 DOT 文件绘制有向图

这是API参考 http graphviz readthedocs io en latest api html for graphviz 我找不到任何从现有的生成有向图的方法dot源文件方法如render and view保存在新文件中
在 Spring Boot 中哪里定义所有环境中通用的属性？

我几乎没有所有环境共有的属性例如spring jpa properties hibernate ejb interceptor 我将其保存在资源目录下的 application properties 中我在基于环境的属性文件中定义了数据
如何从脚本中退出 NodeJS 脚本？

现在我有一个为我设置数据库的nodeJS 脚本每当我在命令行中运行它时我都需要按 ctrl C 退出脚本我假设nodeJS中有某种命令可以让它在完成后自行退出但我似乎无法通过在interwebz上进行搜索来找到任何此类命令有人知道
R 混合效应模型中的均方根误差

您能否告诉我当您执行混合效应模型时如何获取计算 R 中的 RMSE 均方根误差值 Data na omit binh AIC BIC logLik 888 6144 915 1201 436 3072 Random effects Fo
使用 rmultinom() 函数从 R 中的多项分布生成随机数

我想从具有三个值的多项分布生成大小为 20 的样本例如1 2 and 3 例如样本可以是这样的sam 1 2 2 2 2 3 1 1 1 3 3 3 2 1 2 3 1 下面的代码可以工作但没有得到预期的结果 gt rmultinom
Ajax jquery 调用响应中出现 NetworkError: 403 Forbidden 错误

我使用 apache tomcat 作为 Web 服务器我已经在tomcat上部署了web服务如果我通过 jquery ajax 从本地文件系统向 tomcat webservice 发布请求作为响应我会收到 403 错误如果我从同
为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？

我正在对科学应用程序进行一些数值优化我注意到的一件事是 GCC 会优化调用pow a 2 通过将其编译成a a 但是调用pow a 6 没有优化实际会调用库函数pow 这大大降低了性能相比之下英特尔 C 编译器 http en wi

为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？

为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？ 的相关文章

随机推荐

热门标签

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？的相关文章