为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？

2024-05-10

我正在运行一些测试来比较 C 和 Java，并遇到了一些有趣的事情。在 main 调用的函数中（而不是在 main 本身中）运行具有优化级别 1 (-O1) 的完全相同的基准代码，导致性能大约翻倍。我正在打印 test_t 的大小，以毫无疑问地验证代码是否已编译为 x64。

我将可执行文件发送给运行 i7-7700HQ 的朋友并得到了类似的结果。我运行的是 i7-6700。

这是较慢的代码：

#include <stdio.h>
#include <time.h>
#include <stdint.h>

int main() {
    printf("Size = %I64u\n", sizeof(size_t));
    int start = clock();
    for(int64_t i = 0; i < 10000000000L; i++) {
        
    }
    printf("%ld\n", clock() - start);
    return 0;
}

而且速度更快：

#include <stdio.h>
#include <time.h>
#include <stdint.h>

void test() {
    printf("Size = %I64u\n", sizeof(size_t));
    int start = clock();
    for(int64_t i = 0; i < 10000000000L; i++) {
        
    }
    printf("%ld\n", clock() - start);
}

int main() {
    test();
    return 0;
}

我还将提供汇编代码供您深入研究。我不懂装配。慢点：

    .file   "dummy.c"
    .text
    .def    __main; .scl    2;  .type   32; .endef
    .section .rdata,"dr"
.LC0:
    .ascii "Size = %I64u\12\0"
.LC1:
    .ascii "%ld\12\0"
    .text
    .globl  main
    .def    main;   .scl    2;  .type   32; .endef
    .seh_proc   main
main:
    pushq   %rbx
    .seh_pushreg    %rbx
    subq    $32, %rsp
    .seh_stackalloc 32
    .seh_endprologue
    call    __main
    movl    $8, %edx
    leaq    .LC0(%rip), %rcx
    call    printf
    call    clock
    movl    %eax, %ebx
    movabsq $10000000000, %rax
.L2:
    subq    $1, %rax
    jne .L2
    call    clock
    subl    %ebx, %eax
    movl    %eax, %edx
    leaq    .LC1(%rip), %rcx
    call    printf
    movl    $0, %eax
    addq    $32, %rsp
    popq    %rbx
    ret
    .seh_endproc
    .ident  "GCC: (x86_64-posix-seh-rev0, Built by MinGW-W64 project) 8.1.0"
    .def    printf; .scl    2;  .type   32; .endef
    .def    clock;  .scl    2;  .type   32; .endef

Faster:

    .file   "dummy.c"
    .text
    .section .rdata,"dr"
.LC0:
    .ascii "Size = %I64u\12\0"
.LC1:
    .ascii "%ld\12\0"
    .text
    .globl  test
    .def    test;   .scl    2;  .type   32; .endef
    .seh_proc   test
test:
    pushq   %rbx
    .seh_pushreg    %rbx
    subq    $32, %rsp
    .seh_stackalloc 32
    .seh_endprologue
    movl    $8, %edx
    leaq    .LC0(%rip), %rcx
    call    printf
    call    clock
    movl    %eax, %ebx
    movabsq $10000000000, %rax
.L2:
    subq    $1, %rax
    jne .L2
    call    clock
    subl    %ebx, %eax
    movl    %eax, %edx
    leaq    .LC1(%rip), %rcx
    call    printf
    nop
    addq    $32, %rsp
    popq    %rbx
    ret
    .seh_endproc
    .def    __main; .scl    2;  .type   32; .endef
    .globl  main
    .def    main;   .scl    2;  .type   32; .endef
    .seh_proc   main
main:
    subq    $40, %rsp
    .seh_stackalloc 40
    .seh_endprologue
    call    __main
    call    test
    movl    $0, %eax
    addq    $40, %rsp
    ret
    .seh_endproc
    .ident  "GCC: (x86_64-posix-seh-rev0, Built by MinGW-W64 project) 8.1.0"
    .def    printf; .scl    2;  .type   32; .endef
    .def    clock;  .scl    2;  .type   32; .endef

这是我的编译批处理脚本：

@echo off
set /p file= File to compile: 
del compiled.exe
gcc -Wall -Wextra -std=c17 -O1 -o compiled.exe %file%.c
compiled.exe
PAUSE

对于编译到汇编：

@echo off
set /p file= File to compile: 
del %file%.s
gcc -S -Wall -Wextra -std=c17 -O1 %file%.c
PAUSE

慢速版本：

请注意，sub rax, 1 \ jne一对去对面的边界..80（这是 32 字节边界）。这是文中提到的案例之一英特尔关于此问题的文档 https://www.intel.com/content/dam/support/us/en/documents/processors/mitigations-jump-conditional-code-erratum.pdf即如下图所示：

所以这个操作/分支对is受到影响JCC 勘误的修复 https://stackoverflow.com/q/62305998/555045（这将导致它不被缓存在微指令缓存中）。我不确定这是否是原因，还有其他因素在起作用，但这是一件事。

在快速版本中，分支不会“触及”32 字节边界，因此不会受到影响。

可能还有其他影响。仍然由于跨越 32 字节边界，在慢速情况下，循环分布在 µop 缓存中的 2 个块中，即使没有修复 JCC 勘误表，如果循环无法从 Loop 执行，则可能导致每次迭代运行 2 个周期流检测器（在某些处理器上通过其他勘误的其他修复程序 SKL150 禁用）。参见例如这个答案循环性能 https://stackoverflow.com/a/39940932/555045.

为了解决各种评论说他们无法重现这一点，是的，有多种可能发生的方式：

无论哪种影响导致了经济放缓，它都可能是由准确放置操作/分支对跨越 32 字节边界，这纯粹是偶然发生的。从源代码编译不太可能重现相同的情况，除非您使用与原始发布者使用的相同的编译器和相同的设置。
即使使用相同的二进制文件，无论是哪个效果造成的，奇怪的效果只会发生在特定的处理器上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？的相关文章

EF Core Group By 翻译支持条件总和

听说 EF Core 2 1 将支持翻译小组我感到非常兴奋我下载了预览版并开始测试它但发现我在很多地方仍然没有得到翻译分组在下面的代码片段中对 TotalFlagCases 的查询将阻止翻译分组工作无论如何我可以重写这个以便我
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in
用于登录 .NET 的堆栈跟踪

我编写了一个 logger exceptionfactory 模块它使用 System Diagnostics StackTrace 从调用方法及其声明类型中获取属性但我注意到如果我在 Visual Studio 之外以发布模式运行代
OleDbDataAdapter 未填充所有行

嘿我正在使用 DataAdapter 读取 Excel 文件并用该数据填充数据表这是我的查询和连接字符串 private string Query SELECT FROM Sheet1 private string ConnectStr
关于 C++ 转换：参数 1 从“[some_class]”到“[some_class]&”没有已知的转换

我正在研究 C 并且遇到了一个错误我不知道确切的原因我已经找到了解决方案但仍然想知道原因 class Base public void something Base b int main Base b b something Base
WCF 中 SOAP 消息的数字签名

我在 4 0 中有一个 WCF 服务我需要向 SOAP 响应添加数字签名我不太确定实际上应该如何完成我相信响应应该类似于下面的链接中显示的内容 https spaces internet2 edu display ISWG Signe
显示UnityWebRequest的进度

我正在尝试使用下载 assetbundle统一网络请求 https docs unity3d com ScriptReference Networking UnityWebRequest GetAssetBundle html并显示进度根
如何序列化/反序列化自定义数据集

我有一个 winforms 应用程序它使用强类型的自定义数据集来保存数据进行处理它由数据库中的数据填充我有一个用户控件它接受任何自定义数据集并在数据网格中显示内容这用于测试和调试为了使控件可重用我将自定义数据集视为普通的 Sy
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
WPF/C# 将自定义对象列表数据绑定到列表框？

我在将自定义对象列表的数据绑定到ListBox in WPF 这是自定义对象 public class FileItem public string Name get set public string Path get set 这是列表
如何从两个不同的项目中获取文件夹的相对路径

我有两个项目和一个共享库用于从此文件夹加载图像 C MainProject Project1 Images 项目1的文件夹 C MainProject Project1 Files Bin x86 Debug 其中有project1 ex
将控制台重定向到 .NET 程序中的字符串

如何重定向写入控制台的任何内容以写入字符串对于您自己的流程 Console SetOut http msdn microsoft com en us library system console setout aspx并将其重定向到构建在
是否可以在 .NET Core 中将 gRPC 与 HTTP/1.1 结合使用？

我有两个网络服务 gRPC 客户端和 gRPC 服务器服务器是用 NET Core编写的然而客户端是托管在 IIS 8 5 上的 NET Framework 4 7 2 Web 应用程序所以它只支持HTTP 1 1 https le
C# 模拟VolumeMute按下

我得到以下代码来模拟音量静音按键 DllImport coredll dll SetLastError true static extern void keybd event byte bVk byte bScan int dwFlags
IEnumreable 动态和 lambda

我想在 a 上使用 lambda 表达式IEnumerable
哪种 C 数据类型可以表示 40 位二进制数？

我需要表示一个40位的二进制数应该使用哪种 C 数据类型来处理这个问题如果您使用的是 C99 或 C11 兼容编译器则使用int least64 t以获得最大的兼容性或者如果您想要无符号类型 uint least64 t 这些都定
C++ 中类级 new 删除运算符的线程安全

我在我的一门课程中重新实现了新删除运算符现在我正在使我的代码成为多线程并想了解这些运算符是否也需要线程安全我在某处读到 Visual Studio 中默认的 new delete 运算符是线程安全的但这对于我的类的自定义 new
C++ 标准是否指定了编译器的 STL 实现细节？

在写答案时this https stackoverflow com questions 30909296 can you put a pimpl class inside a vector我遇到了一个有趣的情况这个问题演示了这样一种情况
使用.NET技术录制屏幕视频[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有一种方法可以使用 NET 技术来录制屏幕无论是桌面还是窗口我的目标是免费的我喜欢小型低

随机推荐

当 DataSource 更改时 ComboBox 不会自动更新？

由于某种原因当从数据源一个简单的 BindingList 添加或删除项目时组合框会相应更新但如果我编辑这样的项目它不会自动更新 myBindingList index Name NewName myBindingList inde
合并两个对象数组并根据对象内部存在的键更新对象

我有两个数组对象 array1 和 array2 我想根据键名合并数据 array1 name adam data name eve data child secondchild array2 name adam data
使用SMT-LIB使用公式计算模块数量

我不确定使用 SMT LIB 是否可以做到这一点如果不可能是否存在可以做到这一点的替代求解器考虑方程 a lt 10 and a gt 5 b lt 5 and b gt 0 b lt c lt a with a b and c整数
Delphi XE 中的数据绑定向导 - 可以将其配置为映射到 MSXML 接口吗？

Delphi XE 中的数据绑定向导生成继承自 Delphi 自己的 DOM ADOM XML v4 实现的类和接口它似乎不支持针对模式进行验证解析时验证选项仅适用于 MSXML 供应商type 从 VCL 源代码以及 IDE 中 X
Codeigniter - 检查用户是否已登录并存在（它是真实用户）

我正在尝试在用户登录我的网站时为他们设置会话数据因此如果用户存在于数据库中我将设置一个会话数据例如 this gt session gt set userdata user exists 1 现在每次我想检查用户是否存在并已登录时
使用 Google Speech 时从 Google Cloud Storage 访问音频文件

我使用下面的这段代码使用 Google Speech 成功解析了包含语音的 wav 文件并将其转换为文本但我想访问另一个 wav 文件该文件已放置在 Google Cloud Storage 公开上而不是本地硬盘上为什么不简单地
如何正确转义反斜杠以匹配单引号和双引号 PHP 正则表达式模式中的文字反斜杠

为了匹配字面上的反斜杠很多人和PHP 手册 http www php net manual en regexp reference escape php说总是三重转义吧就像这样 Note 单引号和双引号 PHP 字符串具有反斜杠的特殊
如何使用 SyncAdapter 处理远程服务器的 RESTful 更新

我观看了 Google I O REST 演讲并阅读了幻灯片 http www google com events io 2010 sessions developing RESTful android apps html http www
让控制台脚本在 Google Chrome 中保持不变

我有一个想要在 Google Chrome 控制台中使用的脚本但这个脚本将重新加载页面有点像这样 setInterval function location reload 3000 问题是一旦重新加载脚本就会停止并清除控制台我尝试
Powershell 设置盖子关闭操作

我想自动设置 Windows 7 在我的工作笔记本电脑上合上盖子时所执行的操作因为每次登录时都会通过 GPO 重置该操作我知道我可以在批处理脚本中使用 powercfg 命令来实现此目的 powercfg setacvalueindex
硬件线程与软线程？

我读过在多核处理器中每个核心包含 2 个硬件线程例如在双核处理器中有 4 个硬件线程正在运行现在如果我在 Java 中创建 2 个线程这些线程是否会映射到 2 个硬件线程或者这 2 个 Java 线程由特定核心的单个硬件线程
使用 Python 了解何时已从 FTP 源完全接收文件

我正在使用 Python 开发一个执行以下操作的应用程序监视特定目录并监视文件转移到它文件完成传输后运行一些文件上的外部程序我开发这个应用程序的主要问题是知道文件何时完成传输据我所知该文件将通过 SFTP 传输到特定目录 P
Express Cassandra 从目录自动加载模型 - models.instance.Person 不是构造函数

我基本上是想实现一个人模型express cassandra教程 http express cassandra readthedocs io en latest usage 我在自动加载模型时遇到问题model文件夹我的模型位于 mode
SSRS：在单个 Web 服务调用中获取所有报告和参数的列表？

简短而有趣的版本是否有一个 Web 服务方法可以返回所有可用报告的名称以及每个报告的参数我的 Web 代码 C MVC 连接到 SSRS Web 服务并且我能够通过这些服务检索报告我知道我可以获得如下可用报告的列表 var rSer
在 C++ 中什么时候应该使用“friend”？

我一直在阅读C FAQ http yosefk com c fqa 并且很好奇friend http yosefk com c fqa friend html宣言我个人从未使用过它但我有兴趣探索该语言使用的一个很好的例子是什么frie
有趣的是，当为 Mercurial 添加 .hgignore 时，该文件本身显示为“？”汞状态？

正常吗所以你只需要添加 hgignore到列表中忽略自身是的但你不想忽视 hgignore文件当新人查看您的存储库时您不希望他们获得您的忽略文件列表吗相反做hg add hgignore hg commit 底线 hgigno
Python：按小时、天和月过滤 Pandas 中的数据帧（按年分组）

作为 Pandas 的新手我必须进行大量挖掘才能找到这个问题的解决方案考虑到我仍然需要解决边界问题我想知道更好的方法来解决这个问题我有一组从 2009 年到 2012 年的 10 分钟功率测量值并且希望获得所有年份的小时和日
WPF 应用程序的最佳本地数据库解决方案是什么？

目前适用于 WPF 应用程序的最佳解决方案是什么一台电脑 where 各种用户登录它们并使用它们在本地获取保存信息以下是我看到选项的方式 MDF似乎是最好的选择因为我假设您可以很好地锁定它这样即使用户可以访问 mdf 文件他们仍然
varchar(20) 和 varchar(50) 相同吗？

我看到评论如果 varchar 20 列中有 5000 万个 10 到 15 个字符之间的值而 varchar 50 列中有同样的 5000 万个值它们将占用完全相同的空间这就是重点varchar 而不是 char 有人可以告诉我原
为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？

我正在运行一些测试来比较 C 和 Java 并遇到了一些有趣的事情在 main 调用的函数中而不是在 main 本身中运行具有优化级别 1 O1 的完全相同的基准代码导致性能大约翻倍我正在打印 test t 的大小以毫无疑问地验

为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？

为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？ 的相关文章

随机推荐

热门标签

为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？的相关文章