为什么使用push/pop而不是sub和mov？

2023-12-02

当我使用不同的编译器时https://godbolt.org，我注意到编译器生成这样的代码是很常见的：

push    rax
push    rbx
push    rcx
call    rdx
pop     rcx
pop     rbx
pop     rax

我明白每个push or pop做了两件事：

将操作数移入/移出堆栈空间
递增/递减堆栈指针 (rsp)

因此，在上面的示例中，我假设 CPU 实际上执行 12 次操作（6 次移动、6 次添加/替换），不包括call。将添加/替换组合起来不是更有效吗？例如：

sub rsp, 24
mov [rsp-24], rax
mov [rsp-16], rbx
mov [rsp-8], rcx
call    rdx
mov rcx, [rsp-8]
mov rbx, [rsp-16]
mov rax, [rsp-24]
add rsp, 24

现在只有 8 个操作（6 个移动，2 个添加/替换），不包括call。为什么编译器不使用这种方法？

如果你编译-mtune=pentium3或早于-mtune=pentium-m, GCC will像你想象的那样进行代码生成，因为在那些旧的 CPU 上，push/pop 确实解码为堆栈指针上的单独 ALU 操作以及加载/存储。（你必须使用-m32, or -march=nocona（64位P4 Prescott）因为那些旧的CPU也不支持x86-64）。为什么gcc使用movl而不是push来传递函数参数？

但 Pentium-M 在前端引入了一个“堆栈引擎”，消除了堆栈操作的堆栈调整部分，例如推送/调用/返回/弹出。它有效地以零延迟重命名堆栈指针。看Agner Fog 的微架构指南 and Sandybridge 微架构中的堆栈引擎是什么？

作为总体趋势，现有二进制文件中广泛使用的任何指令都会激励 CPU 设计人员提高其速度。例如，Pentium 4 试图让大家停止使用 INC/DEC；那不起作用；当前的 CPU 比以往更好地进行部分标志重命名。现代 x86 晶体管和功率预算可以支持这种复杂性，至少对于大核 CPU（不是 Atom / Silvermont）来说是这样。不幸的是，我认为对于诸如以下指令的错误依赖关系（在目的地上）没有任何希望sqrtss or cvtsi2ss，尽管。

在指令中显式使用堆栈指针，例如add rsp, 8需要Intel CPU中的堆栈引擎插入同步微指令来更新寄存器的乱序后端值。如果内部偏移量太大，则相同。

In fact pop dummy_register is more效率比add rsp, 8 or add esp,4在现代 CPU 上，因此编译器通常会使用它来通过默认调整或使用-march=sandybridge例如。为什么这个函数将RAX压入堆栈作为第一个操作？

也可以看看什么 C/C++ 编译器可以使用 push pop 指令来创建局部变量，而不是只增加 esp 一次？回复：使用push初始化堆栈上的局部变量而不是sub rsp, n / mov。在某些情况下，这可能是一个胜利，特别是对于值较小的代码大小，但编译器不会这样做。

另外，不，GCC / clang 不会生成这样的代码exactly就像你所展示的那样。

如果他们需要在函数调用周围保存寄存器，他们通常会使用mov记忆。或者mov到他们保存在函数顶部的调用保留寄存器，并将在最后恢复。

除了传递堆栈参数之外，我从未见过 GCC 或 clang 在函数调用之前推送多个被调用破坏的寄存器。并且绝对不会在之后多次弹出以恢复到相同（或不同）寄存器中。函数内部的溢出/重新加载通常使用 mov。这避免了在循环内推送/弹出的可能性（除了将堆栈参数传递给call），并允许编译器进行分支，而不必担心推送与弹出的匹配。它还降低了堆栈展开元数据的复杂性，该元数据必须为移动 RSP 的每条指令都有一个条目。（使用 RBP 作为传统帧指针时，指令数与元数据和代码大小之间的有趣权衡。）

某物like您的代码生成可以通过调用保留的寄存器+一些reg-reg在一个小函数中移动来看到，该函数只是调用另一个函数，然后返回一个__int128那是寄存器中的函数arg。因此，需要保存传入的 RSI:RDI，以便以 RDX:RAX 形式返回。

或者，如果在非内联函数调用后存储到全局或通过指针，编译器还需要保存函数参数直到调用之后。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么使用push/pop而不是sub和mov？的相关文章

如何在 x86 汇编中编写自修改代码

我正在考虑为我最近开发的一个业余爱好虚拟机编写一个 JIT 编译器我了解一些汇编语言我主要是一名 C 程序员我可以阅读大多数汇编语言并参考我不理解的操作码并编写一些简单的程序但是我很难理解这几个示例我在网上找到的自我修改代码这是
让 GCC/Clang 使用 CMOV

我有一个简单的标记值联合这些值可以是int64 ts or doubles 我正在对这些联合进行加法但需要注意的是如果两个参数都代表int64 t值那么结果也应该有一个int64 t value 这是代码 include
0 和双字 0 有什么区别？

正如问题所述有什么区别例如 mov eax 0 and mov eax dword 0 我一直在使用 cmp 语句但我无法理解其中的区别一个是地址另一个是数值如前所述 MOV 指令没有区别对于 CMP 您将有以下区别 qwor
C 结构如何返回[重复]

这个问题在这里已经有答案了我想知道如何返回一个结构例如 typedef struct number uint64 t a b c d number number get number number res 0 0 0 0 return
如何让 gcc 生成合适的代码来检查缓冲区是否充满 NUL 字节？

我正在实现一个解析磁带档案的程序解析器逻辑的一部分是检查存档结束标记该标记是一个充满 NUL 字节的 512 字节块我为此编写了以下代码希望 gcc 能对此进行很好的优化 int is eof block const char us
为什么每次在 GDB 中构建和反汇编函数时都会得到相同的地址？

每次反汇编函数时为什么总是得到相同的指令地址和常量地址例如执行以下命令后 gcc o hello hello c ggdb gdb hello gdb disassemble main 转储代码将是当我退出 gdb 并重新反汇编 m
两个 16 位数字相乘 - 为什么结果是 32 位长？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如果我将两个 16 位数字相乘结果将是 32 位长但为什么会这样呢对此有何明确解释为了我的正确理解其计算方法是 n 位数字乘以
如何在 Ubuntu x64 中使用 ptrace 插入 int3？

我正在努力追随本指南 http eli thegreenplace net 2011 01 27 how debuggers work part 2 breakpoints 通过设置断点达到相同的结果唯一的区别是我在 x64 系统上所以
如果我有一个 8 位值，那么使用 8 位寄存器而不是 16、32 或 64 位寄存器有什么优势吗？

我读到的 x86 asm 介绍性文献似乎在所有实际场景中都坚持使用 32 位寄存器 eax ebx 等除了证明 64 位寄存器也存在之外如果确实提到 16 位寄存器那也是作为历史注释来解释为什么 32 位寄存器的名称前面有一个 e 编
是否可以调用驻留在 exe 中的非导出函数？

我想调用驻留在第 3 方 exe 中的函数并获取其结果好像有should是一种方法只要我知道函数地址调用约定等但我不知道如何有谁知道我会怎么做我意识到任何解决方案都是非标准的黑客但有must成为一种方式我的非恶意用例我正在
Mac OS X 上的 64 位程序集运行时错误：“dyld：无可写段”和“Trace/BPT trap”

当尝试运行以下汇编程序时 globl start start pushq 0x0 movq 0x1 rax subq 0x8 rsp int 0x80 我收到以下错误 dyld no writable segment Trace BPT t
尝试理解 printf() 的 gcc 汇编输出

我正在尝试学习如何理解汇编代码因此我一直在研究 GCC 的汇编输出以获取一些愚蠢的程序其中之一只不过是int i 0 我现在或多或少完全理解了其中的代码最大的困难是理解散布的 GAS 指令无论如何我向前迈了一步并添加了printf
2022年Android CPU架构分布（armeabi-v7a vs arm64-v8a）

有没有关于 2022 年 Android 设备上的架构使用情况的官方信息我有一个支持armeabi v7a 和arm64 v8a 的应用程序我想要放弃对armeabi v7a的支持并且仅支持 64 位设备 arm64 v8a 但我找不到
为什么此 NASM 代码会打印我的环境变量？

本学期我刚刚完成计算机体系结构课程除其他外我们一直在涉足 MIPS 汇编并在 MARS 模拟器中运行它今天出于好奇我开始在我的 Ubuntu 机器上摆弄 NASM 基本上只是将教程中的内容拼凑起来并感受一下 NASM 与 MIP
计算 [1..N] 中前导 1 下面有 K 个零位的整数？（没有 HW POPCNT 的连续范围的 popcount）

I have following task Count how many numbers between 1 and N will have exactly K zero non leading bits e g 710 1112 will
_addcarry_u64 和 _addcarryx_u64 与 MSVC 和 ICC

MSVC 和 ICC 都支持内在函数 addcarry u64 and addcarryx u64 根据英特尔的内在指南 https software intel com sites landingpage IntrinsicsGuide
在汇编中，指令指定数据类型吗？

我是汇编语言编程 x86 的初学者以下说法是否正确在汇编中 BYTE WORD DWORD 等数据类型分别表示 8 位 16 位和 32 位模式而不仅仅是整数它们本身没有意义它们只是位模式使用它们的指令赋予了它们意义汇编代码
汇编程序中的过程调用如何工作？

我刚刚开始摆弄 ASM 我不确定我对过程调用的理解是否正确假设代码中的某个时刻有一个过程调用 call dword ptr 123 该过程仅包含一个命令 ret ret 0004 该过程调用的效果是什么返回值将存储在哪里我在某处读到
从 64 位 nasm 代码接收 32 位寄存器

我正在学习 64 位 nasm 我通过执行以下操作来汇编 nasm 文件该文件仅包含 64 位寄存器 nasm f elf64 HelloWorld nasm o HelloWorld o 并链接它执行以下操作 ld HelloWorld
调用 printf 系统子例程在汇编代码中输出整数错误[重复]

这个问题在这里已经有答案了来回在windows7控制台窗口中运行gcc s2 asm 然后生成一个exe文件运行a exe 然后崩溃为什么 s2 asm 代码由以下源代码生成 int m m 1 iprint m s2 asm请参考

随机推荐

通过字符串引用类名？

我需要解析一些文本文件为文本中遇到的各种实体创建对象并将它们放入某种数据结构例如列表中以进行进一步处理文本示例 laptop 17 dell weight 12 lb desktop 24 hp 我事先知道文本中可能存在哪些实体
使用 Polybase 将数据并行加载到现有表中

使用 CTAS 我们可以利用 Polybase 提供的并行性将数据加载到new以高度可扩展和高性能的方式创建表有没有办法使用类似的方法将数据加载到existing桌子桌子甚至可能是空的创建外部表并使用INSERT INTO SELEC
一个 StringToken 解析器，它提供 Google 搜索样式“您的意思是：”建议

寻求一种方法在字符串中采用空格分隔的标记返回建议的单词 ie 谷歌搜索可以采取拼音词翻译并在结果页面顶部显示您是说拼音词翻译器首选使用任何 C 语言或 Java 的解决方案是否有任何现有的开放库可以执行此类功能或者有没有办
如何同时使用 Git 和 Dropbox？ [关闭]

Closed 这个问题需要细节或清晰度目前不接受答案 Locked 这个问题及其答案是locked因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动是否可以使用Git and Dropbox一起我认为 Dropbox 上
WinRT 8.1 手机 - ListView 重新排序

我需要在使用 WinRT 创建的 Windows Phone 8 1 应用程序中创建可重新排序的 ListView XAML 如下它绑定到代码隐藏中的 ObservableDictionary
如何在 Android 中使用 Google Places API for Web 服务？

如何使用此链接返回 json 格式的结果我已经有一个服务器密钥但它一直显示此 IP 站点或移动应用程序无权使用此 API 密钥集成 Google Places API 的官方方式是通过 Android 实现你可以使用地点选择器这是
使用 df2 的日期时间中 df1 的“小时”和“分钟”的条件合并 2 个数据帧

我有一个数据框df sample像这样 id lt c A A A A A A A A A A A date lt c 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018
确定与 COM RPC 服务器通信的客户端进程的进程 ID

在COM RPC模型中如果服务器运行在单独的进程上是否有可能知道与服务器通信的客户端进程的进程ID Use Case 我有一个进程外 RPC 服务器它可以接收来自一个或多个客户端进程的请求有时服务器需要知道客户端进程使用以下命令将
防止 input() 为字母字符以外的任何内容

我试图为了自我认识而制作一个程序我想问用户他们的名字是什么并且我只希望用户能够使用字母表中的字母来回答或者仅使用字符串我不希望他们能够用数字符号等来回答 def cc name input Hello what happens t
为 C++ 标准库配置 clang-check

我正在尝试运行 Ale 作为我的 linter 它又使用 clang check 来检查我的代码 clang check FeatureManager h Error while trying to load a compilation d
使用自定义列表使用 ItemSource 之前，项目集合必须为空

在我的班级里ResultEntity如果我做 resultMulti new List
张量流：ValueError：用序列设置数组元素

我正在使用来自的固定代码这个问题我收到上述错误谷歌搜索表明这可能是某种尺寸不匹配尽管我的诊断没有显示任何 with tf Session as sess sess run init Fit all training data for
将二维码传输到 MySql 数据库

我一直在试图找出将扫描的 QR 文本文件放入 MySql 数据库的最简单方法我希望应用程序做的是使用移动设备扫描二维码然后将扫描的图像保存到文件中然后将其添加到 MySql 驱动数据库中有没有一个应用程序可以为我此类项目奠定基础非
攻击实验室中操作码末尾的 c3

我正在开发攻击实验室的一个版本对于阶段 4 和 5 在农场操作中我有几个以 c3 结尾的操作但后面还有一个单独的操作retq c3 指令如下 0000000000401a6e
XPath:: 获取以下同级

我有以下 HTML 结构我正在尝试构建一个强大的方法来提取第二个颜色摘要元素因为 DOM 中会有许多这样的标签 table tbody tr tr tr tr tr td Color Digest td td AgArAQICGQMVB
对于闪亮仪表板的特定选项卡完全禁用右侧边栏功能

我下面有一个闪亮的仪表板我想知道是否有一种方法可以在选择特定选项卡时默认隐藏左侧和右侧边栏在这种情况下选项卡 Front 我用它做了shinyJs 有没有办法也隐藏 gear 图标以及从根本上打开右侧边栏的能力 Front 更具体地说
找到两个给定节点之间的路径？

假设我有以下方式连接的节点如何获得给定点之间存在的路径数量以及路径详细信息 1 2 node 1 and 2 are connected 2 3 2 5 4 2 5 11 11 12 6 7 5 6 3 6 6 8 8 10 8 9 找到
在python中绘制热图

我有两个列表 x y 代表二维坐标例如x 1 4 0 5 2 5 10 33 0 04 and y 2 5 44 0 33 2 14 20 0 03 x i and y i 代表二维中的一个点现在我还有一个表示每个 x y 点的热值
雅虎财经网络服务消失了吗？ API变了？暂时下降？

相当长一段时间以来我一直在使用以下 REST API 来查询雅虎财经的当前价格它在多个 Stack Overflow 帖子中都有记录例如雅虎财经网络服务以及其他地方雅虎财经 http finance yahoo com webserv
为什么使用push/pop而不是sub和mov？

当我使用不同的编译器时https godbolt org 我注意到编译器生成这样的代码是很常见的 push rax push rbx push rcx call rdx pop rcx pop rbx pop rax 我明白每个push o

为什么使用push/pop而不是sub和mov？

为什么使用push/pop而不是sub和mov？ 的相关文章

随机推荐

热门标签

为什么使用push/pop而不是sub和mov？的相关文章