为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？

2023-11-29

我有以下代码：

char swap(char reg, char* mem) {
    std::swap(reg, *mem);
    return reg;
}

我预计这会编译为：

swap(char, char*):
    xchg    dil, byte ptr [rsi]
    mov     al, dil
    ret

但它实际编译的结果是（在-O3 -march=haswell -std=c++20):

swap(char, char*):
    mov     al, byte ptr [rsi]
    mov     byte ptr [rsi], dil
    ret

See 这里有现场演示.

从文档xchg，第一种形式应该是完全可能的：

XCHG - 交换寄存器/内存与寄存器

交换目标（第一个）和源（第二个）操作数的内容。操作数可以是两个通用寄存器或一个寄存器和一个内存位置。

那么是否有任何特殊原因导致编译器无法使用xchg这里？我也尝试过其他示例，例如交换指针、交换三个操作数、交换除char但我从来没有得到xchg在编译输出中。怎么会？

TL:DR：因为编译器针对速度进行优化，而不是针对听起来相似的名称。他们也可以采用许多其他可怕的方式来实施它，但他们选择不这样做。

xchg 与 mem 有一个隐含的lock前缀（在 386 及更高版本上），所以速度非常慢。你总是想避免它，除非你need原子交换，或者正在完全优化代码大小而不关心at all为了性能，如果您确实希望结果与原始值位于同一寄存器中。有时表现为天真（表现不经意）或代码高尔夫球手写的冒泡排序作为交换 2 个内存位置的一部分。

可能clang -Oz可能会变得那么疯狂，IDK，但希望在这种情况下不会，因为您的 xchg 方式的代码大小较大，需要在两条指令上都有 REX 前缀才能访问 DIL，而 2-mov 方式是 2 字节和 3 -字节指令。clang -Oz确实做类似的事情push 1 / pop rax代替mov eax, 1节省 2 个字节的代码大小。

GCC -Os不会使用xchg对于不需要是原子的交换，因为-Os仍然关心some关于速度。

另外，我不知道你为什么认为 xchg + dependent mov 会比两个独立的更快或更好的选择mov可以并行运行的指令。（存储缓冲区确保加载后存储的顺序正确，无论哪个 uop 首先发现其执行端口空闲）。

See https://agner.org/optimize/以及其他链接https://stackoverflow.com/tags/x86/info

说真的，我只是没有看到任何合理的理由为什么你会认为编译器可能想要使用xchg，特别是考虑到调用约定不会在 RAX 中传递参数，因此您仍然需要 2 条指令。即使对于寄存器来说，xchg reg,reg在 Intel CPU 上是 3 uops，它们是无法从 mov-elimination 中受益的微代码 uops。（一些 AMD CPU 有 2-uopxchg reg,reg. 为什么 XCHG reg, reg 在现代 Intel 架构上是 3 微操作指令？)

我还猜你正在查看 clang 输出；GCC 将避免部分注册恶作剧（如错误的依赖关系）通过使用movzx eax, byte ptr [rsi]即使返回值只是低字节，也会加载。零扩展加载比合并到 RAX 的旧值更便宜。所以这是另一个缺点xchg.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？的相关文章

调用 McAfee 病毒扫描引擎

我收到客户的请求要求使用他们服务器上的 McAfee 病毒扫描将病毒扫描集成到应用程序中我做了一些调查发现 McScan32 dll 是主要的扫描引擎它导出各种看起来有用的函数我还发现提到了 McAfee Scan Engine
C# 异步等待澄清？

我读了here http blog stephencleary com 2012 02 async and await html that 等待检查等待的看看它是否有already完全的如果可等待已经完成那么该方法将继续运行同步
根据属性的类型使用文本框或复选框

如果我有这样的结构 public class Parent public string Name get set public List
C++11 删除重写方法

Preface 这是一个关于最佳实践的问题涉及 C 11 中引入的删除运算符的新含义当应用于覆盖继承父类的虚拟方法的子类时背景根据标准引用的第一个用例是明确禁止调用某些类型的函数否则转换将是隐式的例如最新版本第 8 4 3 节
汇编程序中的过程调用如何工作？

我刚刚开始摆弄 ASM 我不确定我对过程调用的理解是否正确假设代码中的某个时刻有一个过程调用 call dword ptr 123 该过程仅包含一个命令 ret ret 0004 该过程调用的效果是什么返回值将存储在哪里我在某处读到
为什么 GCC 不允许我创建“内联静态 std::stringstream”？

我将直接前往 MCVE include
-webkit-box-shadow 与 QtWebKit 模糊？

当时有什么方法可以实现 webkit box shadow 的工作模糊吗看完这篇评论错误报告 https bugs webkit org show bug cgi id 23291 我认识到这仍然是一个问题尽管错误报告被标记为RESOL
如何连接重叠的圆圈？

我想在视觉上连接两个重叠的圆圈以便 becomes 我已经有部分圆的方法但现在我需要知道每个圆的重叠角度有多大但我不知道该怎么做有人有主意吗 Phi ArcTan Sqrt 4 R 2 d 2 d HTH Edit 对于两个不同的半
访问外部窗口句柄

我当前正在处理的程序有问题这是由于 vista Windows 7 中增强的安全性引起的特别是 UIPI 它阻止完整性级别较低的窗口与较高完整性级别的窗口对话就我而言我想告诉具有高完整性级别的窗口进入我们的应用程序它在 XP 或
WPF 数据绑定到复合类模式？

我是第一次尝试 WPF 并且正在努力解决如何将控件绑定到使用其他对象的组合构建的类例如如果我有一个由两个单独的类组成的类 Comp 为了清楚起见请注意省略的各种元素 class One int first int second cla
为什么这个字符串用AesCryptoServiceProvider第二次解密时不相等？

我在 C VS2012 NET 4 5 中的文本加密和解密方面遇到问题具体来说当我加密并随后解密字符串时输出与输入不同然而奇怪的是如果我复制加密的输出并将其硬编码为字符串文字解密就会起作用以下代码示例说明了该问题我究竟做错
x:将 ViewModel 方法绑定到 DataTemplate 内的事件

我基本上问同样的问题这个人 https stackoverflow com questions 10752448 binding to viewmodels property from a template 但在较新的背景下x Bind V
C# xml序列化必填字段

我需要将一些字段标记为需要写入 XML 文件但没有成功我有一个包含约 30 个属性的配置类这就是为什么我不能像这样封装所有属性 public string SomeProp get return someProp set if som
实例化类时重写虚拟方法

我有一个带有一些虚函数的类让我们假设这是其中之一 public class AClassWhatever protected virtual string DoAThingToAString string inputString retu
C 编程：带有数组的函数

我正在尝试编写一个函数该函数查找行为 4 列为 4 的二维数组中的最大值其中二维数组填充有用户输入我知道我的主要错误是函数中的数组但我不确定它是什么如果有人能够找到我出错的地方而不是编写新代码我将不胜感激除非我刚去南方我的尝
C# 动态/expando 对象的深度/嵌套/递归合并

我需要在 C 中合并 2 个动态对象我在 stackexchange 上找到的所有内容仅涵盖非递归合并但我正在寻找能够进行递归或深度合并的东西非常类似于jQuery 的 extend obj1 obj2 http api jquer
如何在 Android 中使用 C# 生成的 RSA 公钥？

我想在无法假定 HTTPS 可用的情况下确保 Android 应用程序和 C ASP NET 服务器之间的消息隐私我想使用 RSA 来加密 Android 设备首次联系服务器时传输的对称密钥 RSA密钥对已在服务器上生成私钥保存在服务器
Mono 应用程序在非阻塞套接字发送时冻结

我在 debian 9 上的 mono 下运行一个服务器应用程序大约有 1000 2000 个客户端连接并且应用程序经常冻结 CPU 使用率达到 100 我执行 kill QUIT pid 来获取线程堆栈转储但它总是卡在这个位置
如何确定 CultureInfo 实例是否支持拉丁字符

是否可以确定是否CultureInfo http msdn microsoft com en us library system globalization cultureinfo aspx我正在使用的实例是否基于拉丁字符集我相信你可以使
使用 WGL 创建现代 OpenGL 上下文？

我正在尝试使用 Windows 函数创建 OpenGL 上下文现代版本基本上代码就是创建窗口类注册班级创建一个窗口 choose PIXELFORMATDESCRIPTOR并设置它创建旧版 OpenGL 上下文使上下文成为当前

随机推荐

具有多个输入的 Keras 序列模型

我正在制作一个 MLP 模型它接受两个输入并产生一个输出我有两个输入数组每个输入一个和 1 个输出数组该神经网络有 1 个隐藏层和 2 个神经元每个数组有 336 个元素 model0 keras Sequential kera
Firebase - 云功能 - 对集合进行查询

假设我有两个包含用户和故事的顶级集合现在每次用户的文档得到更新只有值username or photoUrl 我想更新故事集合中文档的这些属性一个用户文档可能如下所示缩短 username blubber photoUrl my p
在android中访问.sqlite数据库（>1Mb大小）

我正在开发一个图书馆应用程序并将书籍存储为 sqlite 文件每本书的sqlite数据库文件大小约为10MB 我首先尝试将其放入资产文件夹中然后将其复制到数据库文件夹中但由于文件 gt 1Mb 这给了我一个 IOException
MS Access 字段作为列

如何在 MS Access 中进行查询以便将字段分组到列中通过例子更容易解释 Table Brand Quantity Date 1 MTZ 3 2012 03 2 MTZ 1 2012 03 3 Belor 2 2012 04 4 Y
删除特定运输类别的 Woocommerce“下订单”按钮

我有一个场景我需要删除 Woo commerce 结帐屏幕上的下订单按钮目前我有两种运输方式灵活运输和货运如果客户将运输类别为货运的商品添加到购物车我当前的代码将禁用灵活的运输方法然后货运方法会显示一条致电了解当前费率
无法运行 bms-samples-cordova-hellopush - 找不到 bms_samples_cordova_push-Swift.h 文件

我正在尝试运行可用的推送通知示例GitHub 不幸的是配置如概述here不起作用文件说在你的顶部AppDelegate m import your project name Swift h 如果您的项目名称包含空格或连字符请在导入语
“perf sched record”如何计算上下文切换？

I used perf sched record p 8827记录特定程序的调度程序活动但是当我生成延迟报告时它显示只有一个上下文切换而要求它转储原始事件则显示许多切换摘录如下这怎么可能有道理呢我想我在某种程度上误解了事情切
如何在 Windows 计算机上的 Apache 中设置读/写权限

我正在 Windows XP 计算机上以 localhost 配置使用 Apache2 2 PHP5 2 2 构建一个网页我正在开发 app pages submitProcessor php 来验证用户上传的照片它验证文件是否存在大
通过引用将 2D 数组传递给函数

因此在我的主函数中我创建了一个二维数组 int dataDim 100 float inData 2 dataDim 我想将它传递给一个函数在那里我可以用数据填充它如何以我可以直接填写的方式传递它或许 function float
如何返回与 pandas 数据框中每一行的条件匹配的列标题？

我有一个熊猫数据框df形式 Col1 Col2 Col3 Col4 0 True False True False 1 False False False False 2 False True False False 3 True True
上传到 s3 时图像损坏，仅限生产。（载波、发动机场）

我正在使用 Carrierwave 将图像上传到亚马逊 s3 这在开发中效果很好但当我将其推送到我的服务器 engineyard 云试用版时效果不佳该过程工作正常没有抛出任何错误并且返回了链接然而实际的图像不知何故被损坏了例
如何迭代传递给批处理文件的参数子集？

在批处理文件中如何迭代传递给批处理文件的命令行参数的子集我可以找到很多例子但似乎没有一个例子能够处理这种确切的情况这是一个使用的演示示例shift按照建议的命令Scott C echo off set Count 0 NextPar
如何修补类的 __new__ 方法

我的目标是修补一个类 new 方法以控制它在测试用例中创建的确切对象请参阅下面的代码两个测试中的每一个test 1 and test 2单独运行时按预期工作然而当它们连续运行时 test 2失败并显示 TypeError objec
MediaRecorder 启动失败 -19 和相机错误 100

我正在开发一个用于录制视频的应用程序我在我的应用程序中得到了这段代码该代码在 Nexus 4 和索尼爱立信 mini pro 中运行良好但是当我在其他设备如 Archos 80G9 和 Jiayu G3ST 中进行测试时该应用程序
CSS 旋转将 DIV 从页面一侧移动

我正在尝试创建一个侧面标签如其基本形式所示 http www firstforturf co uk quotation php 我尝试使用 CSS 尽可能多地完成此操作而不仅仅是放入图像但是我遇到了问题旋转侧面 DIV 后它会从页
XML：名称空间前缀声称未声明，但实际上已声明

我们有一个返回非常简单的 XML 的 Web 服务
升级到 iOS9 后，我在 iPhone 6,6s,6p 和 6sp 上的应用程序被拉伸

该应用程序在ios9模拟器和任何带有ios 8的真实设备上运行良好但在iphone 6和6p上当ios升级到ios9时该应用程序被拉伸布局与iphone 5相同我还检查了 images xcassets 中的 LaunchImag
Django：同一模型上不同查询集的联合

我正在对模型进行搜索编程但遇到了问题我的模型几乎是这样的 class Serials models Model id models AutoField primary key True code models CharField Cod
为什么我们需要客户端和服务器端验证？ [关闭]

Closed 这个问题是无关目前不接受答案使用验证器同时使用客户端验证 JavaScript 和服务器端验证的一个论点是如果客户端浏览器不支持 JavaScript 或故意关闭 JavaScript 则客户端验证将变得毫无用处我的问
为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？

我有以下代码 char swap char reg char mem std swap reg mem return reg 我预计这会编译为 swap char char xchg dil byte ptr rsi mov al dil

为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？

XCHG - 交换寄存器/内存与寄存器

为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？ 的相关文章

随机推荐

热门标签

为什么 clang 和 GCC 不使用 xchg 来实现 std::swap？的相关文章