使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

2024-05-18

最近，我开始使用 Ubuntu 16.04 和 g++ 5.3.1 并检查我的程序是否运行慢3倍。在此之前我使用过 Ubuntu 14.04、g++ 4.8.4。我用相同的命令构建它：CFLAGS = -std=c++11 -Wall -O3.

我的程序包含循环，充满数学调用（sin、cos、exp）。你可以找到它here https://github.com/mediev/inclined_well/tree/gcc_bug.

我尝试使用不同的优化标志（O0、O1、O2、O3、Ofast）进行编译，但在所有情况下都会重现问题（Ofast 的两个变体运行速度更快，但第一个运行速度仍慢 3 倍）。

在我的程序中我使用libtinyxml-dev, libgslcblas。但在这两种情况下，它们具有相同的版本，并且在性能方面并不在程序中发挥任何重要作用（根据代码和 callgrind 分析）。

我已经进行了分析，但它并没有让我知道为什么会发生这种情况。Kcachegrind对比（左边较慢） https://i.stack.imgur.com/E19Q7.png。我只注意到现在程序使用libm-2.23相比libm-2.19使用 Ubuntu 14.04。

我的处理器是 i7-5820k，Haswell。

我不知道为什么它变得更慢。你有什么想法？

附：下面你可以找到最耗时的函数：

void InclinedSum::prepare3D()
{
double buf1, buf2;
double sum_prev1 = 0.0, sum_prev2 = 0.0;
int break_idx1, break_idx2; 
int arr_idx;

for(int seg_idx = 0; seg_idx < props->K; seg_idx++)
{
    const Point& r = well->segs[seg_idx].r_bhp;

    for(int k = 0; k < props->K; k++)
    {
        arr_idx = seg_idx * props->K + k;
        F[arr_idx] = 0.0;

        break_idx2 = 0;

        for(int m = 1; m <= props->M; m++)
        {
            break_idx1 = 0;

            for(int l = 1; l <= props->L; l++)
            {
                buf1 = ((cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x + M_PI * (double)(l) / props->sizes.z ) + 
                            (cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x - M_PI * (double)(l) / props->sizes.z )
                            ) / 2.0;

                buf2 = sqrt((double)(m) * (double)(m) / props->sizes.x / props->sizes.x + (double)(l) * (double)(l) / props->sizes.z / props->sizes.z);

                for(int i = -props->I; i <= props->I; i++)
                {   

                    F[arr_idx] += buf1 / well->segs[k].length / buf2 *
                        ( exp(-M_PI * buf2 * fabs(r.y - props->r1.y + 2.0 * (double)(i) * props->sizes.y)) - 
                        exp(-M_PI * buf2 * fabs(r.y + props->r1.y + 2.0 * (double)(i) * props->sizes.y)) ) *
                        sin(M_PI * (double)(m) * r.x / props->sizes.x) * 
                        cos(M_PI * (double)(l) * r.z / props->sizes.z);
                }

                if( fabs(F[arr_idx] - sum_prev1) > F[arr_idx] * EQUALITY_TOLERANCE )
                {
                    sum_prev1 = F[arr_idx];
                    break_idx1 = 0;
                } else
                    break_idx1++;

                if(break_idx1 > 1)
                {
                    //std::cout << "l=" << l << std::endl;
                    break;
                }
            }

            if( fabs(F[arr_idx] - sum_prev2) > F[arr_idx] * EQUALITY_TOLERANCE )
            {
                sum_prev2 = F[arr_idx];
                break_idx2 = 0;
            } else
                break_idx2++;

            if(break_idx2 > 1)
            {
                std::cout << "m=" << m << std::endl;
                break;
            }
        }
    }
}
}

进一步的调查。我写了下面的简单程序：

#include <cmath>
#include <iostream>
#include <chrono>

#define CYCLE_NUM 1E+7

using namespace std;
using namespace std::chrono;

int main()
{
    double sum = 0.0;

    auto t1 = high_resolution_clock::now();
    for(int i = 1; i < CYCLE_NUM; i++)
    {
        sum += sin((double)(i)) / (double)(i);
    }
    auto t2 = high_resolution_clock::now();

    microseconds::rep t = duration_cast<microseconds>(t2-t1).count();

    cout << "sum = " << sum << endl;
    cout << "time = " << (double)(t) / 1.E+6 << endl;

    return 0;
}

我真的很想知道为什么这个简单的示例程序在 g++ 4.8.4 libc-2.19 (libm-2.19) 下比在 g++ 5.3.1 libc-2.23 (libm-2.23) 下快 2.5 倍。

编译命令是：

g++ -std=c++11 -O3 main.cpp -o sum

使用其他优化标志不会改变该比率。

我如何了解谁（gcc 或 libc）减慢了程序速度？

为了获得真正精确的答案，您可能需要 libm 维护人员来查看您的问题。但是，这是我的看法 - 将其作为草稿，如果我发现其他内容，我会将其添加到此答案中。

首先看GCC生成的asm，之间海湾合作委员会 4.8.2 https://godbolt.org/g/LtwXrv and gcc 5.3 https://godbolt.org/g/BBgqso。只有4处不同：

在开始时xorpd转变为pxor，对于相同的寄存器
a pxor xmm1, xmm1在从 int 转换为 double 之前添加 (cvtsi2sd)
a movsd在转换之前被移动
加法（addsd) 在比较之前被移动 (ucomisd)

所有这些可能还不足以导致性能下降。拥有一个优秀的分析器（例如英特尔）可以让我们更有结论性，但我无法使用它。

现在，有一个依赖sin，让我们看看发生了什么变化。问题首先是确定你使用的平台... glibc 中有 17 个不同的子文件夹sysdeps（其中定义了罪），所以我选择了x86_64 one.

首先，处理器功能的处理方式发生了变化，例如glibc/sysdeps/x86_64/fpu/multiarch/s_sin.c用于在 2.19 中对 FMA / AVX 进行检查，但在 2.23 中是在外部完成的。可能存在未正确报告功能的错误，导致不使用 FMA 或 AVX。然而，我认为这个假设不太合理。

其次，在.../x86_64/fpu/s_sinf.S，唯一的修改（除了版权更新之外）更改了堆栈偏移量，将其对齐到 16 字节； sincos 同上。不确定这会产生巨大的变化。

然而，2.23 添加了许多数学函数矢量化版本的源，其中一些使用 AVX512 - 您的处理器可能不支持，因为它确实是新的。也许 libm 尝试使用此类扩展，并且由于您没有它们，因此可以回退到通用版本吗？

EDIT:我尝试使用 gcc 4.8.5 编译它，但为此我需要重新编译 glibc-2.19。目前我无法链接，因为：

/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __cos »:
(.text+0x3542): undefined reference to « _dl_x86_cpu_features »
/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __sin »:
(.text+0x3572): undefined reference to « _dl_x86_cpu_features »

我将尝试解决此问题，但事先请注意，该符号很可能负责根据处理器选择正确的优化版本，这可能是性能影响的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令的相关文章

Poco c++Net：Http 从响应中获取标头

我使用 POCO C Net 库进行 http 我想尝试制定持久缓存策略首先我认为我需要从缓存标头中获取过期时间并与缓存值进行交叉检查如果我错了请告诉我那么我如何从中提取缓存头httpResponse 我已经看到你可以用 Jav
检测wlan是否关闭

任何人都可以给我一个提示如何在 Windows Phone 上以编程方式检测 C 8 1 应用程序不是 8 0 是否启用禁用 WLAN 我不想更改这些设置只是需要知道该解决方案是一个 Windows 8 1 通用应用程序 Wind
将完整模板参数值映射到原始类型

我想将数字映射到类型在这个例子中我将创建一个函数将 sizeof 结果映射到有符号的原始类型我想知道是否有更好的方法来完成我在现代 C 中所做的事情即采用模板化值并将其转换为类型现在这可以将大小转换为已知类型但我似乎无法在标
从模板切换传递的类型

在 C 中是否可以检查传递给模板函数的类型例如 template
运行需要 MySql.Data 的内置 .NET 应用程序

我在运行我编写的内置 NET 应用程序时遇到问题我的应用程序使用最新的 MySql 连接器该连接器安装在我的系统上当我尝试将其添加为引用时该连接器显示为 NET 4 Framwork 组件当我在环境中以调试模式运行应用程序时一切
检测到堆栈崩溃

我正在执行我的 a out 文件执行后程序运行一段时间然后退出并显示消息 stack smashing detected a out terminated Backtrace lib tls i686 cmov libc so 6 f
在开关中使用“goto”？

我看到了一个建议的编码标准内容如下Never use goto unless in a switch statement fall through 我不跟这个例外案例到底是什么样的这证明了goto 此构造在 C 中是非法的 swi
将表（行）与 OpenXML SDK 2.5 保持在一起

我想在 Word 文档中生成多个表每行 2 行但我想将这两行保留在一起如果可能的话 new KeepNext 第一行不起作用 new KeepNext 第一行的最后一段不起作用 new CantSplit 放在桌子上不起作用在所有情
获取 boost Spirit 语法中的当前行

我正在尝试使用 boostspirit 获取正在解析的文件的当前行我创建了一个语法类和结构来解析我的命令我还想跟踪在哪一行找到命令并将其解析到我的结构中我将 istream 文件迭代器包装在 multi pass 迭代器中然后将其包
更快地评估从右到左的矩阵乘法

我注意到以二次形式评估矩阵运算右到左明显快于左到右在 R 中取决于括号的放置方式显然它们都执行相同的计算量我想知道为什么会这样这与内存分配有什么关系吗 A 5000 5000 B 5000 2 A matrix runif 5000
MFC：如何设置CEdit框的焦点？

我正在开发我的第一个简单的 MFC 项目但我正在努力解决一个问题想要设置所有的焦点CEdit其中一个对话框中的框我的想法是当打开对话框时焦点位于第一个编辑框上然后使用选项卡在它们之间交换我看到了方法SetFocus 但我无
如何在三个 IEnumerable 上使用 Zip [重复]

这个问题在这里已经有答案了可能的重复使用 Linq 从 3 个集合创建项目 https stackoverflow com questions 5284315 create items from 3 collections using
C#6 中的长字符串插值行

我发现虽然字符串插值在应用于现有代码库的字符串 Format 调用时非常好但考虑到通常首选的列限制字符串对于单行来说很快就会变得太长特别是当被插值的表达式很复杂时使用格式字符串您将获得一个可以拆分为多行的变量列表 var str
搜索实体的所有字段

我正在尝试在客户数据库上实现多功能框类型的搜索其中单个查询应尝试匹配客户的任何属性这是一些示例数据来说明我想要实现的目标 FirstName LastName PhoneNumber ZipCode Mary Jane 12345
使用 GCC 生成可读的程序集？

我想知道如何使用GCC http en wikipedia org wiki GNU Compiler Collection在我的 C 源文件中转储机器代码的助记符版本这样我就可以看到我的代码被编译成什么你可以使用 Java 来做到这一
Linux mremap 不释放旧映射？

我需要一种方法将页面从一个虚拟地址范围复制到另一个虚拟地址范围而无需实际复制数据范围很大延迟很重要 mremap 可以做到这一点但问题是它也会删除旧的映射由于我需要在多线程环境中执行此操作因此我需要旧映射能够同时使用因此稍后当
从浏览器访问本地文件？

您好我想从浏览器访问系统的本地文件由于涉及大量安全检查是否可以通过某种方式实现这一目标或使用 ActiveX 或 Java Applet 的任何其他工作环境请帮帮我要通过浏览器访问本地文件您可以使用签名的 Java Apple
如何调试 .NET 运行时中的内部错误？

我正在尝试调试一些处理大文件的工作代码本身works 但 NET 运行时本身会报告零星错误对于上下文这里的处理是一个 1 5GB 文件仅加载到内存中一次在循环中处理和释放故意尝试重现此否则不可预测的错误我的测试片段基本上是 t
如何得知客户端从服务器的下载速度？

根据客户的下载速度我想以低质量或高质量显示视频任何 Javascript 或 C 解决方案都是可以接受的 Thanks 没有任何办法可以确定您只能测量向客户端发送数据的速度如果没有来自客户端的任何类型的输入来表明其获取信息的速度您
DataContractSerializer 事件/委托字段问题

在我的 WPF 应用程序中我正在使用DataContractSerializer序列化对象我发现它无法序列化具有事件或委托声明的类型考虑以下失败的代码 Serializable public abstract class BaseCl

随机推荐

在 C++ 中使用相同的方法调用类中的非成员函数

我有一个带有名为的实例方法的类open并且需要调用C中声明的函数也称为open 遵循示例 void SerialPort open if open return fd open portName c str O RDWR O NOCTTY
在Java中使用命令行编译多个包

您好我一直在使用 IDE 但现在我需要从命令行运行和编译问题是我有多个软件包我试图找到答案但没有任何效果所以我有 src Support java files Me java files Wrapers java files 你知
SSDT SQL Server 数据库项目中用于架构比较的命令行/API？

在 Visual Studio 2012 中我们有Schema Compare http msdn microsoft com en us library hh272690 28v vs 103 29 aspx in SSDT http
如何在通过 .ajaxForm() 提交表单之前执行一些操作？

我正在使用 ajaxForm 框架来发送我的数据而无需重新加载我的页面 ReplayForm ajaxForm success function data alert Success 现在我想在提交表单之前检查一些条件如果条件为假则
matplotlibplot_surface命令的颜色条

我修改了mplot3d示例代码 http matplotlib sourceforge net examples mplot3d surface3d demo2 html在保罗的帮助下完成我的申请代码如下 from mpl toolkit
iOS 中的 CSV 逐行解析

我正在 Objective c 中解析 CSV 文件该文件包含如下内容 line 40 Rising searches line 41 nabi avc Breakout line 42 stonewall 700 line 43 med
如何使用Python在Django for Windows中激活虚拟环境？

我被告知要在 Django for Windows 中激活虚拟环境我应该尝试 environment path Scripts activate 但是当我输入该命令时 cmd 返回此错误该系统找不到指定的路径我通过输入以下命令创建了虚
如何使用 AFNetworking 2 按严格的顺序发送请求？

我正在进行同步以将 sqlite 数据库镜像到服务器数据库我有一个主从表其中的详细信息必须尽快发送到服务器但是细节 3 可能会先于细节 2 到达我需要模仿对文档执行的步骤并尊重操作的顺序当记录保存在本地时我会发送通知然后发布
MySQL集群启动失败

这不是我第一次创建ndbcluster 但我没有收到这样的问题我正在关注本手册 https hub docker com r mysql mysql cluster by mysql团队我正在使用回显的默认配置在此 GitHub 存储库
将 Matlab 数组移植到 C/C++

我正在将 matlab 程序移植到 C C 我有几个问题但最重要的问题之一是 Matlab 将任何维度的数组都视为相同假设我们有一个这样的函数 function result f A B C result A 2 B C A B and
Alt 键快捷键在使用 Vim 的 gnome 终端上不起作用

我在 gnome 终端上运行 Vim 但 alt 键映射不起作用例如 imap
具有更改用户代理上下文的 file_get_contents 不起作用

我正在尝试获取页面的阅读数和点赞数网址是 https mp weixin qq com s NPavBeHc8VdWXeSL6kfLRg https mp weixin qq com s NPavBeHc8VdWXeSL6kfLRg 您必
将 Hibernate 对象序列化为 JSON 时抛出异常

好吧我正在使用 Hibernate 将一个小型数据库加载到一些表示表的类并与数据库交互一切都很好我真的可以看到所有结果而且我没有任何空字段所有这些都已被使用这里我展示了主类表 import javax persistenc
Angular 4 过滤器搜索自定义管道

所以我试图构建一个自定义管道来在 ngFor 循环中执行多个值的搜索过滤器我花了几个小时寻找一个好的工作示例其中大多数都是基于以前的版本并且似乎不起作用所以我正在构建管道并使用控制台为我提供值但是我似乎无法显示输入文本以下是我
使用 HttpUrlConnection Android 将 base64 编码的图像发送到服务器

我正在尝试使用 HttpUrlConnection 将 base64 编码的图像发送到服务器我遇到的问题是大多数图像均已成功发送但有些图像会生成 FileNotFound 异常我的图像编码代码可以在下面找到 public static
将 Powershell 输出转换为 Markdown 文件

我有以下代码 xmlFile C Users kraer Desktop bom xml xml xml Get Content xmlFile xml bom components component ForEach Object fin
UNIX系统调用监视器

如何监控进程的系统调用 Check strace http linux die net man 1 strace 在最简单的情况下 strace 运行指定的命令直到退出它拦截并记录进程调用的系统调用以及进程接收的信号每个系统调用的名称
Google 地图删除标记路线上下文菜单

我使用 Android Studio 的 Google 地图模板启动了一个新项目并在地图上添加了一个标记 LatLng location new LatLng lat lng Marker marker mMap addMarker ne
Angular UI select：从远程服务获取数据

我正在使用角度用户界面选择 https github com angular ui ui select https github com angular ui ui select 我查看了演示的可用位置这个笨蛋 http plnkr co
使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

最近我开始使用 Ubuntu 16 04 和 g 5 3 1 并检查我的程序是否运行慢3倍在此之前我使用过 Ubuntu 14 04 g 4 8 4 我用相同的命令构建它 CFLAGS std c 11 Wall O3 我的程序包含循环

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令 的相关文章

随机推荐

热门标签

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令的相关文章