更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍

2023-12-26

我有一个嵌套的 for 循环，它生成以下程序集：

# branch target labels manually added for readability
002E20F8  mov         ebx,esi  
002E20FA  mov         dword ptr [ebp-10h],3B9ACA00h  
002E2101  sub         ebx,edi  
002E2103  add         ebx,7  
002E2106  shr         ebx,3  
002E2109  nop         dword ptr [eax]  
  outer_loop:
002E2110  xor         eax,eax  
002E2112  xor         ecx,ecx  
002E2114  cmp         edi,esi  
002E2116  mov         edx,ebx  
002E2118  cmova       edx,eax  
002E211B  mov         eax,edi  
002E211D  test        edx,edx 
002E211F  je          main+107h (02E2137h)  ;end_innerloop

  inner_loop:           
002E2121  movsd       xmm0,mmword ptr [eax] 
002E2125  inc         ecx                     ; inc/addsd swapped
002E2126  addsd       xmm0,mmword ptr [k]   
002E212B  add         eax,8  
002E212E  movsd       mmword ptr [k],xmm0  
002E2133  cmp         ecx,edx  
002E2135  jne         main+0F1h (02E2121h)  ;inner_loop
  end_innerloop:        
002E2137  sub         dword ptr [ebp-10h],1  
002E213B  jne         main+0E0h (02E2110h)   ;outer_loop

如果我在嵌套 for 循环之前更改一行代码来简单地声明一个int然后在for循环之后打印出来。这使得编译器拉出存储/重新加载k跳出循环。

问题的第一个版本将此描述为“以稍微不同的顺序生成指令”。（编者注：也许我应该把这个分析/更正留给答案？）

003520F8  mov         ebx,esi  
003520FA  mov         dword ptr [ebp-10h],3B9ACA00h  
00352101  sub         ebx,edi  
00352103  add         ebx,7  
00352106  shr         ebx,3  
00352109  nop         dword ptr [eax]  
  outer_loop:
00352110  xor         eax,eax  
00352112  xor         ecx,ecx  
00352114  cmp         edi,esi  
00352116  mov         edx,ebx  
00352118  cmova       edx,eax  
0035211B  mov         eax,edi  
0035211D  test        edx,edx  
0035211F  je          main+107h (0352137h) ;end_innerloop

00352121  movsd       xmm0,mmword ptr [k]    ; load of k hoisted out of the loop.  Strangely not optimized to xorpd xmm0,xmm0

  inner_loop:
00352126  addsd       xmm0,mmword ptr [eax]
0035212A  inc         ecx  
0035212B  add         eax,8  
0035212E  cmp         ecx,edx  
00352130  jne         main+0F6h (0352126h)  ;inner_loop

00352132  movsd       mmword ptr [k],xmm0     ; movsd in different place.

  end_innerloop:
00352137  sub         dword ptr [ebp-10h],1  
0035213B  jne         main+0E0h (0352110h)  ;outer_loop

编译器的第二种安排速度快了 3 倍。我对此感到有些震惊。有谁知道发生了什么事吗？

这是用 Visual Studio 2015 编译的。

编译器标志（如果需要，我可以添加更多）：

优化：最大化速度/O2

代码：

#include <iostream>
#include <vector>
#include "Stopwatch.h"

static constexpr int N = 1000000000;

int main()
{
    std::vector<double> buffer;

    buffer.resize(10);

    for (auto& i : buffer)
    {
        i = 1e-100;
    }

    double k = 0;
    int h = 0; // removing this line and swapping the lines std::cout << "time = "... results in 3x slower code??!!

    Stopwatch watch;

    for (int i = 0; i < N; i++)
    {
        for (auto& j : buffer)
        {
            k += j;
        }
    }

    //std::cout << "time = " << watch.ElapsedMilliseconds() << " / " << k << std::endl;
    std::cout << "time = " << watch.ElapsedMilliseconds() << " / " << k << " / " << h << std::endl;

    std::cout << "Done...";
    std::getchar();

    return EXIT_SUCCESS;
}

秒表类：

#pragma once

#include <chrono>

class Stopwatch
{
private:
    typedef std::chrono::high_resolution_clock clock;
    typedef std::chrono::microseconds microseconds;
    typedef std::chrono::milliseconds milliseconds;

    clock::time_point _start;

public:
    Stopwatch()
    {
        Restart();
    }

    void Restart()
    {
        _start = clock::now();
    }

    double ElapsedMilliseconds()
    {
        return ElapsedMicroseconds() * 1E-3;
    }

    double ElapsedSeconds()
    {
        return ElapsedMicroseconds() * 1E-6;
    }

    Stopwatch(const Stopwatch&) = delete;
    Stopwatch& operator=(const Stopwatch&) = delete;

private:
    double ElapsedMicroseconds()
    {
        return static_cast<double>(std::chrono::duration_cast<microseconds>(clock::now() - _start).count());
    }
};

编辑问题以修复位置混乱的换行符后，并在地址中的地址前面添加分支目标标签jcc弄清楚代码实际上在做什么的说明，很明显循环明显不同。这movsd不在循环内重新排序；它是outside循环。

我决定编辑问题并在这里讨论它，而不是将这些内容留在问题中并在答案中更正它。我认为代码块足够长，以至于未来的读者会陷入试图跟踪代码的 4 个版本的困境，而且这并不能帮助有相同问题的人通过搜索引擎找到它。

快速版本保留k在寄存器中（xmm0），而慢速版本每次迭代都会重新加载/存储它。这通常表明编译器的别名分析未能证明事物不能重叠。

造成伤害的并不是额外的存储和负载本身，而是事实它通过存储转发延迟来延长循环携带的依赖链从一次迭代中的存储到下一次迭代中的加载。现代 Intel CPU 上的存储转发延迟约为 6 个周期，而现代 Intel CPU 上的存储转发延迟约为 3 个周期addsd（例如 Haswell）。这样就完美地解释了 3 倍加速的因素：

当循环携带的依赖链为时，每次迭代 9 个周期addsd+ 存储转发
当循环携带的依赖链正好是时，每次迭代 3 个周期addsd

See http://agner.org/optimize/ http://agner.org/optimize/有关指令表和微体系结构详细信息。还有其他链接x86 /questions/tagged/x86标签维基。

我不知道 MSVC 怎么没能证明这一点k不与任何内容重叠，因为它是一个本地地址，其地址不会转义该函数。（它的地址甚至没有被占用）。 MSVC 在那里做得很糟糕。也应该只是xorps xmm0,xmm0在循环之前将其归零，而不是加载一些归零的内存。我什至不知道它在哪里将内存归零；我想这不是整个函数的汇编。

如果您使用 MSVC 的等效项进行编译-ffast-math，它可以向量化减少（用addpd），并希望有多个累加器。虽然有了这样一个tiny对于要循环多次的向量，非 4 倍数元素计数相当不方便。不过，循环开销在这里并不是问题；即使在以下情况下，循环携带的依赖链也占主导地位k保存在寄存器中，因为您的代码仅使用一个累加器。一addsd每 3 个时钟就为其他 insn 的运行留下了大量的时间。

理想情况下，允许关联 FP 数学重新排序将使编译器将其优化为k = N * std::accumulate(...);就像 @Ped7g 建议的那样，将数组的总和视为公共子表达式。

顺便说一句，有更好的方法来初始化向量：

而不是调整向量的大小（使用默认构造函数构造新元素）和then写入新的值，你应该做类似的事情

std::vector<double> buffer(10, 1e-100);   // 10 elements set to 1e-100

这可以确保汇编在存储您想要的值之前不会浪费时间存储零。我认为resize还可以将一个值复制到新元素中，因此您仍然可以声明一个空向量，然后调整它的大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍的相关文章

std::map find 在 C++ 中不起作用[重复]

这个问题在这里已经有答案了我使用以下几行创建了一个哈希映射和一个迭代器 std map
地图类容器的专用功能

我想要专门为矢量和地图之类的容器设计一个函数模板对于向量我可以像下面那样做但我不知道如何才能有一个专门版本的函数该函数仅用于像地图这样的容器 include
处理器关联组 C#

我使用的是 72 核的 Windows Server 2016 我看到有两组处理器我的 net 应用程序将使用一个或其他组我需要能够强制我的应用程序使用我选择的组我看到下面的代码示例但我无法使其工作我可能传递了错误的变量我希望应
如何配置 Ninject 来注入 NodaTime IClock

在我的 NinjectConfigurator 中我有 container Bind
图片框、双击和单击事件

我有一个奇怪的问题我有一个图片框双击事件以及单击事件问题是即使我双击该控件也会引发单击事件如果我禁用单击事件则双击事件正在工作这个问题已经在这里讨论过 https stackoverflow com questions 1830
MVC BaseController 处理 CRUD 操作

我想重构我的基本 CRUD 操作因为它们非常重复但我不确定最好的方法我的所有控制器都继承 BaseController 如下所示 public class BaseController
使用c#在mac上启动外部进程

我成功地使用 System Diagnostics Process Start 在 Windows 上启动我的外部单声道可执行文件然而在mac上却失败了我没有收到任何错误只是什么也没发生我尝试按以下方式进行操作 System Dia
如何为二进制格式化程序创建 SerializationBinder，以处理类型从一个程序集和命名空间到另一个程序集和命名空间的移动

上下文如下我想通过将代码移动到不同的项目来重构代码其中一些代码包含可序列化的 DTO 用于跨多个端点发送和接收数据如果我移动代码序列化就会中断因此它不是向后兼容我的应用程序的旧版本这个问题的一个解决方案是 Serializa
将 JavaScript 引擎嵌入到 .NET 中 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案只是想知道是否有人尝试过将任何 js 引擎嵌入并实际集成到 net 环境中我可以找到并实际使用经过L
向客户端发送状态码 500 时页面未呈现

我有一个页面通用处理程序我想在该页面上向客户端返回状态代码 500 以指示出现问题我这样做 Response StatusCode 500 Response StatusDescription Internal Server Erro
对列表中的一系列整数求和

假设我有一个这样的列表 List
如何使用 itextsharp 更改 PDF 公式的按钮图标？

我目前正在尝试使用 itextsharp 填写预定义的表单除了添加图像之外一切正常这之前已经在 Adob e 的 FDF 工具包中运行过该工具包已编译为 NET 1 1 这不再适用于 NET 4 0 我改用了 itextsharp
如何通过分解 y 轴来减小 mschart 的高度

如何降低 mschart 的高度如下所示编辑就我而言我不想查看中断图表 this chart1 ChartAreas 0 AxisY ScaleBreakStyle Enabled false 您似乎正在寻找AxisY ScaleB
如何处理文件名中的空格

我正在尝试迭代本地目录中的文件 foreach string name in Directory GetFileSystemEntries path FileAttrtibutes att File GetAttributes name 文
在 OSX 上检测 Objective C 或 C++ 中的文件夹访问（如 fs_usage 命令）

我正在 OSX 上开发实时病毒扫描程序 OSX 的命令行命令fs usage可以通过以下方式确定文件夹访问权限并且只能以 root 用户身份运行 fs usage w f pathname grep Users Documents Use
Microsoft Visual Studio 2017 中的 wxWidgets 设置

我花了大约 20 个小时试图弄清楚如何在 Microsoft Visual Studio 2017 中设置 wxWidgets 我遵循 https wiki wxwidgets org Microsoft Visual C 2B 2B Gu
PostgreSQL 位图堆扫描索引非常慢，但仅索引扫描很快

我创建了一个包含 43kk 行的表并用值 1 200 填充它们因此表中每个数字大约为 220k create table foo id integer primary key val bigint insert into foo se
C 中的等效 plpgsql 触发器

我有一个 PostgreSQL 9 0 服务器并且在某些表上使用继承因此我必须通过如下触发器模拟外键 CREATE OR REPLACE FUNCTION othertable before update trigger RETURNS
将“C# 友好类型”名称转换为实际类型：“int” => typeof(int)

我想得到一个System Type给定一个string指定原始类型C 友好名称基本上与 C 编译器读取 C 源代码时的方式相同我觉得描述我所追求的最好方式是单元测试的形式我希望存在一种通用技术可以使以下所有断言通过而不是尝试对
将二进制长字符串转换为十六进制 C#

我正在寻找一种将长二进制字符串转换为十六进制字符串的方法二进制字符串看起来像这样 0110011010010111001001110101011100110100001101101000011001010110001101101011 我

随机推荐

xreadlines 和 for 循环文件之间的区别

在 Python 2 7 中有一个文件对象 f open my file r for 循环文件最常见的方式和使用xreadlines 功能 for line in f Do something with line and for lin
OpenMP：将所有线程分为不同的组

我想将所有线程分为 2 个不同的组因为我有两个并行任务要异步运行例如如果总共有 8 个线程可用我希望有 6 个线程专用于任务 1 另外 2 个线程专用于任务 2 如何使用 OpenMP 实现这一目标这是一份工作OpenMP 嵌套并
使用 Groovy 脚本访问当前 Jenkins 构建

我创建了一个 Groovy 脚本用于System Groovy ScriptJenkins 作业中需要访问当前作业的当前版本的步骤使用 Hudson model 时需要当前版本Cause UpstreamCause将我当前作业的当前版本
Windows 10 1703 升级后 Windows Mobile 设备中心停止工作

我刚刚安装了新的 Windows 10 版本 1703 现在我无法连接任何 Windows CE 设备因为 Windows Mobile 设备中心 6 1 无法运行 https i stack imgur com 1TRsz png我尝试
REST API 和供应商特定内容类型的版本控制

我读了很多关于 REST API 版本控制的内容例如在这个线程中 API 版本控制的最佳实践 https stackoverflow com questions 389169 best practices for api versioni
Kotlin：通过强制转换修改（不可变）列表，合法吗？

我们知道 Kotlin 中的列表是不可变的即您不能像下面那样添加和删除 class TempClass var myList List
Vagrant 和 Docker 与微服务

我有一组微服务我希望使用 Docker 对其部署进行自动化和标准化我一直在阅读有关 Vagrant 的内容并且对使用 Vagrant 设置环境有几个问题据我所知 Vagrant 用于设置虚拟机而 Docker 用于创建容器在虚拟
Paypal 付款数据传输 (PDT) 错误 4002

我正在努力将我的网站与贝宝集成并使其在沙盒模式下工作我正在 Codeigniter PHP 工作我已经收到 IPN 通知工作正常但似乎无法弄清楚 PDT 出了什么问题需要它显示正确的确认页面并返回我已经多次检查身份令牌确保 h
为什么我突然收到这个错误？

所以我有一个 WCF 服务其中有一个 Process 方法此方法从一个表中读取一个字节数组一个文件然后基本上将该文件中的数据放入多个表中它只是迭代每一行在生产环境一个月以来它运行良好现在突然间它间歇性地抛出这个错误 Sys
如何从 Flutter 应用程序在 google chromecast 中播放 YouTube 视频？

我的 Flutter 应用程序有一些 YouTube 视频链接那些 YouTube 链接我想通过 google chromecast 进行流式传输我已经看到一些使用下面的颤振库进行视频流投射 https pub dev package
如何使用 dplyr 重新编码（和反向编码）列中的变量

继 2013 年最后一次使用 R 之后我再次拿起 R 我已经习惯使用 dplyr 但我在执行一个简单任务时遇到了问题我有一张桌子看起来像 Participant Q1 Q2 Q3 Q4 Q5 1 agree neutral NA Di
Laravel 关系集合的自定义排序

我有点被一些通常很简单的事情所困扰我需要根据某个值和排序顺序数组将 hasMany 关系中的记录排序为自定义顺序我下面的代码不起作用因为我正在向 uSort 传递一个雄辩的集合并且我不知道如何绕过它 go this gt has
+- Scala 中通用声明中的符号

我正在查看 PartialFunction 的文档这个链接 http www scala lang org api current index html scala PartialFunction trait PartialFunction
DOM 处理后 XML 属性的顺序

当通过标准 DOM 处理 XML 时序列化回来后不能保证属性顺序最后这就是我在使用标准 java XML Transform API 序列化输出时刚刚意识到的但我确实需要保留订单我想知道 Java 是否有可能保持通过 DOM AP
在 Haskell 中柯里化 3 个参数

我在柯里化函数以删除 Haskell 中的三个参数时遇到问题免责声明不是课程作业今天有人问我这个问题这个问题一直困扰着我我们得到的自定义类型函数是只能记住类型 type MyThing Char String type MyT
使用 mingw 编译 libjpeg

我终于设置了 mingw 和 msys 现在我想编译 libjpeg 我从 projekt 页面 jpeg 8d 下载了最新的 libjpeg 源代码并提取了文件然后我运行如下配置命令 configure build x86 64 w64
如何在 OS X 终端中逐字移动光标

I know the combination Ctrl A to jump to the beginning of the current command and Ctrl E to jump to the end But is there
将 html 值传递到 javascript 函数

我正在制作一个 javascript 函数需要在其中确认输入我编写了以下代码但即使我输入有效值它也会给出负值即其他部分有人可以建议一个解决方案吗 HTML 文件
在 Android 中，如果操作系统终止了我的应用程序，getIntent() 会返回具有相同附加功能的 Intent 吗？

当然在我的应用程序恢复之后或者我必须将所有内容存储在 onSaveInstanceState 中这段对话似乎回答了这个问题 http groups google com group android developers browse
更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍

我有一个嵌套的 for 循环它生成以下程序集 branch target labels manually added for readability 002E20F8 mov ebx esi 002E20FA mov dword ptr

更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍

更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍 的相关文章

随机推荐

热门标签

更改完全不相关的代码时，Visual Studio C++ 编译器生成的代码速度慢 3 倍的相关文章