循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？

2023-12-02

我有以下 x86 汇编代码：

  movl   8(%ebp), %edx  //get an argument from the caller
  movl   $0, %eax
  testl  %edx, %edx
  je     .L1            
.L2:                   // what's the purpose of this loop body?
  xorl   %edx, %eax
  shrl   $1, %edx
  jne    .L2
.L1:
  andl   $1, %eax

课本给出的对应C代码如下

int f1(unsigned x)
{
    int y = 0;
    while(x != 0) {
        __________;
    }
    return __________;
 }

本书要求读者填空并回答“它有什么作用？”的问题。

我无法将循环体合并到一个 C 表达式中。我可以说出循环体的作用，但我不知道它的目的。课本上还说这里的%eax存储的是返回值。那么……目的是什么

andl  $1, %eax

我也不知道。

看起来整个循环的目的是将 32 位参数中的所有位异或在一起。即计算parity.

从最后一条指令开始向后工作（and $1,%eax），我们知道只有结果的低位很重要。

考虑到这一点，xor %edx,%eax变得更清楚：异或当前的低位%edx into %eax。垃圾高了也没关系。

The shr循环直到所有x的位已被移出。我们总是可以循环 32 次来获取所有位，但这比停止一次效率低x是 0。（由于 XOR 的工作原理，我们不需要在 0 位中进行实际的 XOR；这没有效果。）

一旦我们知道了函数的作用，填充 C 就变成了巧妙/紧凑的 C 语法的练习。我一开始以为y ^= (x>>=1);适合循环内部，但这会改变x before第一次使用它。

我认为在一个 C 语句中做到这一点的唯一方法是使用,运算符（它确实引入了序列点，所以阅读是安全的x左侧并修改a的右侧,). So, y ^= x, x>>=1; fits.

或者，为了获得更具可读性的代码，只需作弊并将两个语句放在同一行上;.

int f1(unsigned x) {
    int y = 0;
    while(x != 0) {
        y ^= x;  x>>=1;      
    }
    return y & 1;
 }

这编译为与问题中所示基本相同的 asm, using Godbolt 编译器浏览器上的 gcc5.3 -O3。问题的代码反优化异或归零习惯用法 to a mov $0, %eax，并优化了 gcc 的愚蠢重复ret指示。（或者可能使用了未执行此操作的早期版本的 gcc。）

循环效率很低：这是一种有效的方法：

我们不需要复杂度为 O(n) 的循环（其中 n 是以位为单位的宽度）x）。相反，我们可以获得 O(log2(n)) 复杂度，并且实际上利用 x86 技巧只执行其中的前 2 个步骤。

我省略了由寄存器确定的指令的操作数大小后缀。（除了xorw使 16 位异或变得明确。）

#untested
parity:
    # no frame-pointer boilerplate

    xor       %eax,%eax        # zero eax (so the upper 24 bits of the int return value are zeroed).  And yes, this is more efficient than mov $0, %eax
                               # so when we set %al later, the whole of %eax will be good.

    movzwl    4(%esp), %edx      # load low 16 bits of `x`.  (zero-extend into the full %edx is for efficiency.  movw 4(%esp), %dx would work too.
    xorw      6(%esp), %dx       # xor the high 16 bits of `x`
    # Two loads instead of a load + copy + shift is probably a win, because cache is fast.
    xor       %dh, %dl           # xor the two 8 bit halves, setting PF according to the result
    setnp      %al               # get the inverse of the CPU's parity flag.  Remember that the rest of %eax is already zero, so the result is already zero-extended to 32-bits (int return value)
    ret

恩，那就对了，x86 有一个奇偶校验标志（PF)它是从“根据结果设置标志”的每条指令的结果的低 8 位更新的，例如xor.

我们使用np条件因为PF= 1 表示偶校验：所有位的异或 = 0。对于偶校验，我们需要求逆来返回 0。

为了利用它，我们进行了 SIMD 式的水平缩减，将高半部分降低到低半部分并组合，重复两次以将 32 位缩减为 8 位。

在设置标志的指令之前将 eax 归零（使用异或）比设置标志/更有效setp %al / movzbl %al, %eax，正如我在在 x86 汇编中将寄存器设置为零的最佳方法是什么：xor、mov 或 and？.

或者，正如 @EOF 指出的，如果 CPUIDPOPCNT功能位已设置，可以使用popcnt测试低位，看看设置的位数是偶数还是奇数。（另一种看待这个问题的方法是：异或是不带进位的加法，因此无论您将所有位异或在一起还是将所有位水平相加，低位都是相同的）。

GNU C 也有__builtin_parity and __builtin_popcnt如果您告诉编译器编译目标支持它，则使用硬件指令（使用-march=... or -mpopcnt），但否则编译为目标机器的有效序列。英特尔内在函数始终编译为机器指令，而不是后备序列，并且在没有适当的情况下使用它们会导致编译时错误-mpopcnt目标选项。

不幸的是，gcc 无法将纯 C 循环识别为奇偶校验计算并将其优化为此。一些编译器（例如 clang 和可能的 gcc）可以识别某些类型的 popcount 习惯用法，并将它们优化为popcnt指令，但在这种情况下不会发生这种模式识别。 :(

在 godbolt 上查看这些内容.

int parity_gnuc(unsigned x) {
    return  __builtin_parity(x);
}
    # with -mpopcnt, compiles the same as below
    # without popcnt, compiles to the same upper/lower half XOR algorithm I used, and a setnp
    # using one load and mov/shift for the 32->16 step, and still %dh, %dl for the 16->8 step.

#ifdef __POPCNT__
#include <immintrin.h>
int parity_popcnt(unsigned x) {
    return  _mm_popcnt_u32(x) & 1;
}
#endif

    # gcc does compile this to the optimal code:
    popcnt    4(%esp), %eax
    and       $1, %eax
    ret

另请参阅中的其他链接x86标签维基。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？的相关文章

汇编：使用数据段寄存器（DS）

目前我正在学习 x86 汇编因为我喜欢微控制器编程所以我熟悉汇编目前我一直在到处寻找这个问题的答案但似乎找不到它 DS寄存器我知道它应该指向我程序中的全局数据但我不知道知道它到底是如何工作的我正在使用 NASM 在大多数简单的
返回地址预测堆栈缓冲区与堆栈存储的返回地址？

一直在阅读 Agner Fog 的 Intel AMD 和 VIA CPU 的微架构他在第 34 页描述了返回地址预测 http www agner org optimize microarchitecture pdf http www
用于计算三角函数、对数或类似函数的算法。仅限加减法

我正在修复 Ascota 170 古董机械可编程计算机它已经开始工作了现在我正在寻找一种算法来展示其功能例如计算三角或对数表或类似的东西不幸的是从数学运算来看计算机只能进行整数的加减法从 1E12到1E12的55个寄存器甚
段错误...关于你好世界

这段代码非常简单但我在 x86 64 Linux 系统上遇到了段错误这让我很烦恼刚开始接触asm 请耐心等待与 NASM 组装nasm f elf64 test asm 与连接ld o test test o SECTION tex
简单内核无法在 GRUB 中启动

我正在学习一些操作系统开发的知识OSDev org http osdev org 我有一个内核我正在尝试使用 qemu 在 GRUB Legacy 0 97 中启动但是当我输入kernel 200 9 我收到消息 Multiboot
为什么此 NASM 代码会打印我的环境变量？

本学期我刚刚完成计算机体系结构课程除其他外我们一直在涉足 MIPS 汇编并在 MARS 模拟器中运行它今天出于好奇我开始在我的 Ubuntu 机器上摆弄 NASM 基本上只是将教程中的内容拼凑起来并感受一下 NASM 与 MIP
该程序如何知道该字符串存储的确切位置？

我用 Radare2 反汇编了一个 C 程序在这个程序中有很多调用scanf像下面这样 0x000011fe 488d4594 lea rax var 6ch 0x00001202 4889c6 mov rsi rax 0x0000120
Biztalk编排逆向工程师

我的情况是老开发人员没有留下代码因此我无法添加任何增强功能或修复错误我们是否有任何服务工具可以将编排映射反转为原始格式从 DLL MSI 或运行 BizTalk 应用程序如果相反的方法不起作用我希望看到像 Visual s
Visual Studio：如何正确构建和指定 x64 和 x86 的配置和平台

使用 Visual Studio 2012 Professional 和 Ultimate 以及所有最新更新如何正确指定配置和平台以正确构建 x86 和 x64 当您第一次创建 Winforms 应用程序时 Visual Studio 会
内存映射图形输出

我正在探索使用内存映射图形绘制像素和线条我在 Windows 的 Textpad 中使用 TASM 当我单击运行时整个屏幕变成蓝色就是这样没有绘制像素 model small stack data saveMode db xVa
在汇编中，指令指定数据类型吗？

我是汇编语言编程 x86 的初学者以下说法是否正确在汇编中 BYTE WORD DWORD 等数据类型分别表示 8 位 16 位和 32 位模式而不仅仅是整数它们本身没有意义它们只是位模式使用它们的指令赋予了它们意义汇编代码
比较已编译的 .NET 程序集？

有没有什么好的程序可以与编译 NET 程序集进行比较例如我有 HelloWorld dll 1 0 0 0 和 HelloWorld dll 2 0 0 0 我想比较差异我该怎么做我知道我可以使用 NET Reflector 并使用
就分页分段内存而言的程序寿命

我对 x86 Linux 机器中的分段和分页过程有一个令人困惑的概念如果有人能澄清从开始到结束所涉及的所有步骤我们将很高兴 x86 使用分页分段内存技术进行内存管理任何人都可以解释一下从可执行的 elf 格式文件从硬盘加载到主内存到它
将 AT&T 语法转换为 INTEL 语法

我发现这个 GAS 文件包含一些可以从 CD 启动的引导加载程序代码我想研究它并尝试制作我自己的一个但唯一的问题是它采用 AT T 语法而不是 Intel 语法我对 AT T 语法一无所知我尝试过使用 Intel2gas 转换器但
MFENCE/SFENCE/etc“序列化内存但不序列化指令执行”？

英特尔系统编程指南第 8 3 节中有关 MFENCE SFENCE LFENCE 的说明以下指令是内存排序指令而不是序列化指令这些指令会耗尽数据内存子系统它们不序列化指令执行流我试图弄清楚为什么这很重要在多线程代码中对内存的写
汇编PC相对寻址模式

我正在研究数据路径并一直在尝试理解分支指令这就是我的理解在 MIPS 中每条指令都是 32 位这是 4 个字节所以下一条指令将是四个字节之外举个例子我说PC地址是128 我的第一个问题是理解这个128意味着什么我目前的信念
Nasm 点状标签

我对 TASM 很熟悉但对 NASM 不太了解我读过 NASM 允许使用本地标签这些标签在名称前用点表示例如代码 loop some code jmp loop 定义一个名为 loop的局部标号引用的地址在后面的jmp指令中使用
3 操作数 imul 指令在 ia-32 汇编中到底起什么作用？

我正在阅读说明 imul 0xffffffd4 ebp ebx 4 eax 我对它到底在做什么感到困惑我明白那个imul乘法但我无法弄清楚语法我知道并且更喜欢 Intel MASM 语法所以我将使用它请注意操作数的顺序在 AT
解释一下 AF 标志在 x86 指令中如何工作？

我有一个小型 8086 模拟器并且我已经有一个长期存在的错误了大约 2 年因为 AF 在 sub 和 add 指令内无法正常运行我当前计算其值的方法是 8 位数字和减法 uint8 t base subt base base 0xF
了解近调用指令编码

通过反汇编一些二进制代码我发现了近调用指令call 0x8ae编码为e8 97 08 00 00 查看指令集参考我发现这些指令被编码为 call XX XX XX XX lt gt e8 XX XX XX XX being XX XX

随机推荐

在 Windows 8 桌面应用程序中获取位置

我是 C 的初学者但我经常使用 Java 我试图在我的应用程序中使用以下代码来获取位置数据我正在制作一个 Windows 8 桌面应用程序来使用我的设备中的 GPS 传感器 using System using System Colle
ProgressDialog 圆圈未在设备中显示

我的活动中有这个 ProgressDialog 我正在使用一些设备进行测试但只有其中一台设备未显示加载圆圈未显示的设备是运行 Android 7 0 的 Moto G4 Plus 下面有一张图片 I also run the app i
是否需要 glDisableClientState？

我遇到的用于渲染数组数据的每个示例都类似于以下代码在绘图循环中您首先为将要使用的内容调用 glEnableClientState 完成后调用 glDisableClientState void drawScene void glClea
将 Jtable 中的多行数据插入数据库

我正在尝试将 JTable 中的多行数据保存到数据库中这是我的代码供参考 try int rows tblCO2 getRowCount for int row 0 row
如何绘制圆形渐变？

如何绘制圆形渐变像这样在 VB NET 中看看这个很棒的页面文章中的代码是 C 语言以下是您感兴趣的代码的 VB NET 端口并针对矩形填充进行了更新基于本文的三角形填充示例 Dim pgb As New PathGradient
从 C# 应用程序到 PHP 网页的 UDP 流传输

我正在尝试编写 C UDP 服务器代码它从客户端接收特定的 ID 并返回与其关联的歌曲客户端是一个 PHP 网页并将接收到的字节存储到文件中现在我正在做一些测试试图在传输为 2048 字节时简单地开始一个假的歌曲讲座只是一个 j
在 OS X 上设置 g++

我刚刚更新到 OS X Mavericks 它似乎搞乱了我的整个编译器设置我不仅必须重新安装 JDK 才能使用 Java 编译器而且当我尝试使用 GCC G 编译 C C 时还会出现以下错误 usr local Cellar gcc
Google Cloud Storage 在文件中查找

Google App Engine 网站 https developers google com appengine docs python googlestorage functions seek 暗示能够在 Google Cloud S
使用无服务器框架在 YML 中的代码块中使用 Javascript Resolver 时出现 AWS::Appsync:Resolver Cloudformation 错误

我在使用 Javascript 解析器在无服务器框架中创建 AWS Appsync Resolver Cloudformation 时遇到问题 My Javascript Resolver我附加到的根目录 src resolvers jsR
如何将 IP 地址增加指定数量？

我试图弄清楚如何增加起始 IP 地址并按我指定的偏移量增加它我尝试这样做但我做错了一些事情因为我得到的 IP 遍布各处甚至不在同一网络范围内我目前正在做的是获取起始 ip 和结束 ip 获取地址总数然后将总 ip 增加一个偏移
VSTO 2007：如何确定范围的页码和段落号？

我正在构建一个 MS Word 加载项它必须从文档中收集所有注释气球并将它们汇总在列表中我的结果将是 ReviewItem 类的列表其中包含注释本身注释文本所在的段落编号和页码我的部分代码如下所示 private static L
使用 C# 在两个独立的 Windows 应用程序之间共享数据

我有两个使用我的客户端数据库的应用程序但没有相互依赖问题是我需要创建一个配置应用程序管理员可以在其中设置参数例如两个应用程序连接到哪个数据库以及一些其他参数主要是字符串和数字这些参数必须影响这两个应用程序我想到的第一个解决方
我可以修改作为参数传递的指针的目标吗？

函数是否可以更改作为参数传递的指针的目标以便效果保持在函数之外 void load type parameter delete parameter parameter new type second type pointer new ty
Django CreateView根据url参数自定义表单默认字段

文件容量 models py class Env models Model name models CharField max length 50 def get absolute url self return reverse inde
反射，将 List
转换为 IEnumerable
我有一个类我需要通过对象属性反映并检查值和其他内容当我有一个列表并尝试将项目转换为 IEnumerable 时一切似乎都工作异常 if propType GetInterfaces Contains typeof IEnumerabl

在 Angular 中监听自定义 DOM 事件

我使用 Angular 库它有一个组件它使用 CustomEvents 来分派某些内容如下所示 const domEvent new CustomEvent unselect bubbles true this elementRef

具有未分配的变量参数的 linq

我的主函数顶部有以下变量声明 string brand double price var itemList6 from i in myStore items where i price lt price i brand brand orde

如何发布 JSTL 导入标记 () 的参数？

我目前在 JSP 页面中使用 JSTL 标记来导入外部页面的内容

Android 动态设置textview布局宽度

我有一个由两个文本视图组成的列表视图一张用于日期一张用于姓名 Config xml 包含列表视图

循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？

我有以下 x86 汇编代码 movl 8 ebp edx get an argument from the caller movl 0 eax testl edx edx je L1 L2 what s the purpose of thi

热门标签

Jmagick

xp框架下载官方

列属性

urllib的使用

惊群现象

开发运营

灾害预警

山洪灾害

GO安全

抖音小程序

国仁网络资讯

抖音引流运营

回文链表

CMake

ajax跨域问题

VSCODE 配置

创建ios证书

没有苹果开发者账号

CloudBase

基础应用

嵌入式基本概念

工具单片机

Powered by Hwhale

循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？

循环效率很低：这是一种有效的方法：

循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？ 的相关文章

随机推荐

热门标签

循环“xorl %edx,%eax; shrl $1,%edx”的目的是什么？的相关文章