x86 组装pushad/popad，速度有多快？

2024-02-29

我只是想在 x86 汇编中制作非常快速的基于计算的程序但我需要在调用程序之前推送累加器、计数器和数据寄存器。手动推送它们更快：

push eax
push ecx
push edx

或者只是使用，

pushad

和 pop 一样。谢谢

如果你关心性能，pusha / popa几乎没有用处。它们仅在以牺牲速度为代价来优化代码大小时才有用，例如保存/恢复函数周围的寄存器。但对于非人来说非常不方便void函数，因为它们会重新加载all寄存器，因此您必须将返回值存储在内存中（例如，通过将被加载到的堆栈槽）eax，或其他地方之后重新加载popad).

只压入需要保存的寄存器，或者您想要作为函数参数传递。或者，在内联汇编 /questions/tagged/inline-assembly，只需让编译器通过声明来为您管理寄存器"=r"(dummy1)任何临时寄存器的虚拟输出操作数，或在特定寄存器上使用 clobber。通常，编译器可以选择可以让您破坏而不保存的寄存器。（或者在笨重的 MSVC 风格的内联汇编中，编译器无法为您分配寄存器，因此您必须手动选择。编译器会解析您的汇编以查找破坏者。）

您通常不需要保存/恢复eax;为了性能你应该mov esi, eax/调用/使用中的值esi，如果您无法计算其中的值esi首先。即使用调用保留寄存器来保存需要保存的值call，因此重要值的存储/重新加载不在关键路径上。相反，存储/重新加载位于您（或编译器）调用者的调用保留寄存器之一的关键路径上push/pop围绕整个函数，在任何循环之外。

查看更多关于调用保留寄存器与调用破坏寄存器 https://stackoverflow.com/questions/9268586/what-are-callee-and-caller-saved-registers/56178078#56178078以及保存/恢复通常如何进行。以及什么是良好的调用约定，例如x86-64 System V 是如何设计的 https://stackoverflow.com/questions/4429398/why-does-windows64-use-a-different-calling-convention-from-all-other-oses-on-x86/35619528#35619528，并且本次问答 https://stackoverflow.com/questions/33707228/why-not-store-function-parameters-in-xmm-vector-registers关于应该在寄存器中传递多少个参数，以及为什么不使用 XMM 寄存器来传递整数参数。当然，辅助函数可以使用自定义调用约定。

`pusha` / `popa`在大多数 CPU 上都很慢

即使您确实想推送所有 8 个整数寄存器（包括esp!)，使用8个独立的push现代 CPU 上的指令实际上更快。 Pusha/popa 是微编码的，这对于前端来说可能是一个问题 https://stackoverflow.com/questions/26907523/branch-alignment-for-loops-involving-micro-coded-instructions-on-intel-snb-famil。（尽管 8 个单字节指令也可能对 uop 缓存造成问题。但在实际代码中，您通常只需要推送几个寄存器，而不是全部。）

如果您正在针对过时的 CPU（例如原始的有序 Pentium 和 Pentium II/III）进行优化，则 Pusha/popa 的速度可达 8push r or 8 pop r，实际上更少的微指令，因为他们没有堆栈引擎来消除 ESP 更新微指令。

From Agner Fog 的说明书 http://agner.org/optimize/：现代 CPU 具有单微指令push reg and pop reg，因为编译器始终使用这些指令，因此对性能很重要。推送/弹出吞吐量通常与存储/加载吞吐量相匹配（通常每个时钟 1 次存储或每个时钟 2 次加载）。但pusha / popa编译器不使用它们，因此 CPU 设计者没有特殊的支持来提高它们的速度。popa吞吐量仅限于每个时钟 1 个负载，如果just跑步popa。（我认为在 Intel CPU 上，测量性能最可能的解释是popa不使用堆栈引擎，因此它的瓶颈在于对esp.)

Intel:

天湖：pusha：11 uop，8c 吞吐量。popa：18 uops / 8c 吞吐量。
珊迪大桥：pusha：16 uops / 8c 吞吐量。popa：18 uops / 9c 吞吐量。
尼哈勒姆：pusha：18 uops / 8c 吞吐量。popa：10 uops / 8c 吞吐量。
西尔弗蒙特/KNL：pusha：10 uops / 10c 吞吐量。popa：17 uops / 14c 吞吐量。
奔腾4：pusha：4/10 uops / 19c 吞吐量。popa：4/16 uops / 14c 吞吐量。
P5 Pentium 1 / MMX：5-9 个周期，不可配对。 “如果 SP 能被 4 整除，则为 9（不完美配对）。”

AMD: pusha/popa在某些 AMD CPU 上表现出奇的好，尤其是 K8。

Ryzen: pusha：9 uop，8c 吞吐量。popa： 9 个微指令，4c 吞吐量。（与英特尔不同的是，AMD 的新设计popa不低于8倍pop.)
Jaguar: pusha：9 uops / 8c 吞吐量。popa：9 uops / 8c 吞吐量。（Jaguar 通常每个时钟只能执行一次负载。）
打桩机：pusha：9 uops / 9c 吞吐量。popa：14 uops / 8c 吞吐量。（阿格纳列出了常规pop regBulldozer 系列的吞吐量为每个时钟 1，尽管我认为他们确实有一个堆栈引擎并且每个时钟可以执行 2 个负载。也许堆栈引擎一次只能处理一条堆栈指令？）
K8: pusha：9 uops / 4c 吞吐量！！（不知道这是怎么可能的，要么这是表中的错误或拼写错误，要么 K8 合并了 32 位寄存器并进行了四个 64 位存储）。popa：9 uops / 4c 吞吐量。这些数字看起来确实是真实的：InstLatx86 测量 http://users.atw.hu/instlatx64/AuthenticAMD0000F4A_K8_Clawhammer_InstLatX86.txt同意 4c 吞吐量pushad / popadClawhammer（第一代 K8 微架构）。很明显AMD在优化上付出了一些努力pushad.

您标记了此内联汇编 /questions/tagged/inline-assembly。通常你应该避免使用call在内联汇编中，因此 C 编译器知道该调用。

让编译器关心寄存器；只需告诉它你修改了哪些（GNU Casm("..." ::: "eax", "ecx")或其他），或者在 MSVC 风格的内联汇编中，它会解析您的汇编并知道写入了哪些寄存器。如果其中包含任何调用保留的寄存器，编译器将在整个函数的开始/结束处保存/恢复这些寄存器，即使 asm 语句处于循环中也是如此。（它可能需要在asm语句或块之前/之后溢出和/或重新加载一些本地变量，但会使用mov，而不是push/pop。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86 组装pushad/popad，速度有多快？的相关文章

为什么 Python 对于一个简单的 for 循环来说这么慢？

我们正在做一些kNN and SVDPython 中的实现其他人选择了 Java 我们的执行时间非常不同我使用 cProfile 来查看我在哪里犯了错误但一切都很好fine http wiki python org moin Pyth
为什么 pow(int, int) 这么慢？

我一直在做一些项目欧拉练习来提高我的 C 知识我写了以下函数 int a 0 b 0 c 0 for a 1 a lt SUMTOTAL a for b a 1 b lt SUMTOTAL a b c SUMTOTAL a b if c
与 SSE 比较 16 字节字符串

我有 16 字节的字符串它们可能更短但您可能会假设它们在末尾用零填充但您可能不会假设它们是 16 字节对齐的至少不总是如何编写一个例程将它们与 SSE 内在函数进行比较是否相等我发现这个代码片段可能会有帮助但我不确定它是否
Mac OS X 上的 64 位程序集运行时错误：“dyld：无可写段”和“Trace/BPT trap”

当尝试运行以下汇编程序时 globl start start pushq 0x0 movq 0x1 rax subq 0x8 rsp int 0x80 我收到以下错误 dyld no writable segment Trace BPT t
为什么 x86-64 上的 GCC 在函数内插入 NOP？

给定以下 C 函数 void go char data char name 64 strcpy name data x86 64 上的 GCC 5 和 6 编译普通gcc c g o其次是objdump 这到 00000000000000
在hibernate统计中，load和fetch之间有什么区别

我主要看EntityStatics http www hibernate org hib docs v3 api org hibernate stat EntityStatistics html http www hibernate org
在 x86 汇编语言中获取文件大小的简单方法

假设我已经在汇编中打开了一个文件并且在寄存器 eax 中有该文件的文件句柄我将如何获取文件的大小以便为其分配足够的缓冲区空间我在这里研究了另一个讨论建议使用sys fstat 28 系统调用来获取文件统计信息但无法实现它 My a
使用 GNU C 内联汇编在 VGA 内存中绘制字符

我正在学习使用 C 和内联汇编在 DOS 中进行一些低级 VGA 编程现在我正在尝试创建一个在屏幕上打印出字符的函数这是我的代码 This is the characters BITMAPS uint8 t characters 464
IEnumerable 作为 DataTable 性能问题

我有以下扩展它生成一个DataTable从一个IEnumerable public static DataTable AsDataTable
在汇编中使用 printf 会导致管道传输时输出为空，但可以在终端上使用

无输出 https stackoverflow com questions 54507957 printf call from assembly do not print to stdout即使在终端上当输出不包含换行符时也有相同的原因
磁盘寻道时间测量方法

我编写了一个脚本来测量 HDD 上的寻道时间并且其完成方式的微小变化会导致显着不同的时间第一个周期在磁盘开头的区域内进行跳转第二个周期选择磁盘上执行查找的随机区域相同大小这种方法显然不同但我不明白为什么它会改变结果请注意对于
在汇编中，指令指定数据类型吗？

我是汇编语言编程 x86 的初学者以下说法是否正确在汇编中 BYTE WORD DWORD 等数据类型分别表示 8 位 16 位和 32 位模式而不仅仅是整数它们本身没有意义它们只是位模式使用它们的指令赋予了它们意义汇编代码
有谁知道一种更快的方法来执行 String.Split() 吗？

我正在读取 CSV 文件的每一行并且需要获取每一列中的各个值所以现在我只是使用 values line Split delimiter where line是保存由分隔符分隔的值的字符串衡量我的表现ReadNextRow我注意到它花费
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
jQuery mousemove 性能 - 节流事件？

我们面临着与 mousemove 连接的 jQuery 事件传播性能问题我们有一个屏幕填充画布需要跟踪用户是否在其上拖动鼠标因此我们在该对象上添加了一个鼠标移动侦听器如下所示 ourCanvas on mousemove funct
使用 enum.values() 与字符串数组相比，性能是否会受到影响？

我正在使用枚举来替换String我的 java 应用程序 JRE 1 5 中的常量当我在不断调用的方法中将枚举视为名称的静态数组时例如在渲染 UI 时是否会对性能造成影响我的代码看起来有点像这样 public String get
如何创建可获取数字的小矮人计算机 (LMC) 代码。奇数时显示1，偶数时显示0

我的研究需要帮助如果数字是偶数它可以显示 1 如果数字是奇数它可以显示 0 例如如果输入是 99 它将显示输出 1 这意味着奇数如果我显示 10 它将显示输出 0 这意味着偶数我没有任何代码因为我不知道如何开始请帮忙我对这
Java 11 中使用堆栈跟踪的速度明显慢于 Java 8

我正在比较 JDK 8 和 11 的性能jmh https openjdk java net projects code tools jmh 1 21 当我遇到一些令人惊讶的数字时 Java version 1 8 0 192 vendor
是否可以提高 Mongoexport 速度？

我有一个 1 3 亿行的 MongoDB 3 6 2 0 集合它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段数据以压缩格式 zlib 存储我需要尽快将其中一个嵌入字段导出为 JSON 格式然而 mongoexport 需
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa

随机推荐

整个数组上的多键索引

MongoDB 的docs http docs mongodb org manual core index multikey 解释多键索引考虑一下这个comment文档 id ObjectId title Grocery Quality
Xcode 4.2。问题：标准（armv7）

我想在 App Store 中更新我的应用程序但当我尝试上传它时我收到一条错误消息指出我的应用程序不支持 armv6 问题是我什至不能选择 Armv6 作为架构我有以下架构设置架构标准 armv7 基础 SDK 最新 iOS i
如何在javascript中检查session是否为空？

如何在javascript中检查session是否为空这是正确的方法吗 if alert null session 这是一个解决方案将每 500 毫秒测试一次用户会话是否已过期 function CheckSession var ses
MYSQL特殊字符问题

这个问题困扰我很久了我在网上搜索了很多次解决方案尝试了很多方法但没有找到合适的解决方案我真的不知道该怎么办如果你能帮助我我将非常感激抱歉我的英语不好问题如何解决输入存档和 MYSql 表之间的字符集不兼容问题 Proble
Mysql删除具有给定meta_key的所有帖子[重复]

这个问题在这里已经有答案了我有一个 WordPress 网站其中有一些元密钥分配给我的帖子我想删除 mysql 中所有包含以下内容的帖子meta key value acest meta 使用这个 SQL 命令 SELECT post
Python 中 Postgres 的 jsonb 数组的正确格式是什么？

我有一个看起来像的架构 Column Type message id integer user id integer body text created at timestamp without time zone source
有没有一种简单的方法可以让android studio自动添加版权声明？

我刚刚开始学习 android 并使用 IntelliJ 的 Android Studio 所以如果这是一个非常愚蠢的问题请耐心等待有没有办法通过 android studio IDE 将版权声明文本自动添加到源代码文件中我有 Ecl
Ruby 2.4.1 Dir.children( dirname ) 返回“Dir:Class 的未定义方法‘children’”

我是 Ruby 新手正在尝试学习它我正在使用最新的 Ruby 版本 2 4 1 和交互式 Ruby Shell 我遇到过children方法中的Dir班级我已经尝试过这个例子从文档中 http ruby doc org core 2
将 jsp 链接到 servlet 并再次将 jsp 链接到 servlet 会出现一些问题

我编写了一个 jsp 代码它链接到 servlet 并再次链接到 servlet 代码 mahi1 jsp
获取当前命名空间和函数名称的宏（但不是完整签名）？

是否有获取当前命名空间和函数名的C 宏例子 namespace foo namespace bar void baz int i double d std cout lt lt MACRO lt lt std endl 会打印foo ba
使用 jQuery 验证结束日期大于开始日期

如何在 jQuery 中检查验证结束日期文本框是否大于开始日期文本框只是扩展融合答案此扩展方法使用 jQuery 验证插件工作它将验证日期和数字 jQuery validator addMethod greaterThan f
我们可以在一个应用程序中混合 JSF RI 1.1 和 Tamhawk 以及 primefaces 等吗

我们可以在一个应用程序中将 JSF RI 1 1 与 Tomahawk Primefaces MyFaces 等混合使用吗你可以混合 JSF组件库 Tomahawk RichFaces PrimeFaces 等但不能混合使用 JSF实施
ActionbarSherlock：显示选项卡时隐藏操作栏

我的 UI 使用带有选项卡的 ABS ActionBar NAVIGATION MODE TABS 以及为每个选项卡加载的一堆片段布局我需要一个选项卡隐藏操作栏回收一些屏幕空间用于 UI 但调用getSupportActionBar
AddDbContext 中缺少 UseSqlServer

刚刚升级到asp net core 2 1 看起来像使用SqlServer选项中不再存在添加数据库上下文我在其中传递连接字符串我应该用什么来代替添加了 nuget 包Microsoft EntityFrameworkCore SqlS
无法加载文件或程序集“System.Collections，版本=4.0.0.0”

我已经安装了nuget包 bin 文件夹不显示 system collections dll 当我运行该应用程序时我收到此错误无法加载文件或程序集 System Collections 版本 4 0 0 0 Culture neutra
Web 项目需要缺少具有 Razor 语法 3.0.0.0 的 Web 组件 ASP.NET 网页

我将我的项目迁移到 mvc 5 0 和 razor engin 3微软指令 http www asp net mvc tutorials mvc 5 how to upgrade an aspnet mvc 4 and web api pr
使用 browserhistory 更改 url 反应路由但没有任何反应

我正在尝试让反应路由器工作这是我的代码 var hashHistory require react router dom hashHistory var BrowserRouter require react router dom Bro
xml 文件中的错误标记中的数据过早结束

我制作了这个系统但它不知道发生了什么行 197 core php foreach this gt getAll as banner 行 191 core php xmlBanners simplexml load file PATH X
使用 boost asio 创建 iostream 并指定 ip 和端口

我有一个关于 boost asio 库的问题我成功地尝试在客户端和服务器之间创建一个套接字这涉及创建解析器以便指定服务器的IP和端口服务器只需要端口和其他对象但是最重要的是有必要使用write and read some作为从
x86 组装pushad/popad，速度有多快？

我只是想在 x86 汇编中制作非常快速的基于计算的程序但我需要在调用程序之前推送累加器计数器和数据寄存器手动推送它们更快 push eax push ecx push edx 或者只是使用 pushad 和 pop 一样谢谢如果你

x86 组装pushad/popad，速度有多快？

pusha / popa在大多数 CPU 上都很慢

x86 组装pushad/popad，速度有多快？ 的相关文章

随机推荐

热门标签

`pusha` / `popa`在大多数 CPU 上都很慢

x86 组装pushad/popad，速度有多快？的相关文章