AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？

2023-12-02

我正在尝试了解具体的AVX512F指令vcvtps2udq.

指令的签名是VCVTPS2UDQ zmm1 {k1}{z}, zmm2/m512/m32bcst{er}。手册信息如下。

为了尝试理解新的舍入模式，以下代码片段是用 NASM (2.12.02) 组装的

vcvtps2udq zmm0,zmm1
vcvtps2udq zmm0,zmm1,{rz-sae}
vcvtps2udq xmm0,xmm1

用 NDISASM (2.12.02) 反汇编结果会造成很多混乱，代码如下：

62F17C4879C1      vcvtps2udq zmm0,zmm1
62F17C7879C1      vcvtps2udq xmm0,xmm1
62F17C0879C1      vcvtps2udq xmm0,xmm1

Question：第二行使用 xmm 寄存器而不是 zmm 寄存器进行反汇编（这是我所期望的）。与零舍入模式（rz-sae）有关。或者只是 NDISASM 错误，无法区分操作码 62F17C7879C1 和 62F17C0879C1。

Intel指令集参考手册有如下描述：

将十六个打包单精度浮点值转换为源操作数为十六个无符号双字整数目标操作数。

当转换不精确时，返回的值将根据到 MXCSR 寄存器或嵌入的舍入控制位舍入控制位。如果转换后的结果无法表示为目标格式，浮点无效异常是引发，如果此异常被屏蔽，则整数值 2w – 1 为返回，其中 w 表示目标中的位数格式。

源操作数是ZMM/YMM/XMM寄存器，512/256/128位存储器位置，或从 32 位内存广播的 512/256/128 位向量地点。目标操作数是 ZMM/YMM/XMM 寄存器使用 writemask k1 有条件更新。

操作码编码为 0x62 P0 P1 P2 ...请参阅此处第 4.2 节。在这种情况下，P2字节是

P2
48  <- vcvtps2udq zmm0,zmm1
78  <- vcvtps2udq zmm0,zmm1,{rz-sae}
08  <- vcvtps2udq xmm0,xmm1

进一步细分是以下字段

                       zmm  zmm+sae  xmm
EVEX.aaa  = P2[2:0]     0     0       0
EVEXV'    = P2[3]       1     1       1
EVEX.b    = P2[4]       0     1       0  "Broadcast/RC/SAE Context"
EVEX.L'L  = P2[6:5]     2     3       0  "Vector length/RC"
EVEX.z    = P2[7]       0     0       0

所以不同的字段是 EVEX.b 和 EVEX.L'L。根据文档，如果b没有设置，那么L'L是SIMD长度，所以0 = xmm and 2 = zmm. If b被设置后，L'L被重新解释为静态舍入模式，并且长度假定为 zmm（512 位）。

NDISASM 未正确解释 EVEX.B 位，因此EVEX.L'L场要么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Assembly

x86

nasm

avx512

AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？的相关文章

为什么 NASM 在使用有效的指令助记符作为操作数中的符号名称方面没有问题？

我编写了以下简单程序但 nasm 拒绝编译它 section text global start start mov rax 0x01 mov rdi 0x01 mov rsi str mov rdx 0x03 syscall mov r
x86 汇编乘法和除法指令操作数，16 位及更高

我对 x86 汇编中的乘法和除法运算如何工作感到相当困惑例如下面的代码看起来并不太困难因为处理的是 8 位 8 位乘法 User Input num1 20 num2 15 mov ax num1 moves the 8 bits i
如何使用存储在 x64 位置的 x64 内存地址进行跳转？

据我所知使用 64 位地址作为操作数的 jmp 是不可能的但我相信使用 x64 内存位置是来自here http www tptp cc mirrors siyobik info instruction JMP htmlJMP r m
如何在 x86 汇编中编写自修改代码

我正在考虑为我最近开发的一个业余爱好虚拟机编写一个 JIT 编译器我了解一些汇编语言我主要是一名 C 程序员我可以阅读大多数汇编语言并参考我不理解的操作码并编写一些简单的程序但是我很难理解这几个示例我在网上找到的自我修改代码这是
让 GCC/Clang 使用 CMOV

我有一个简单的标记值联合这些值可以是int64 ts or doubles 我正在对这些联合进行加法但需要注意的是如果两个参数都代表int64 t值那么结果也应该有一个int64 t value 这是代码 include
0 和双字 0 有什么区别？

正如问题所述有什么区别例如 mov eax 0 and mov eax dword 0 我一直在使用 cmp 语句但我无法理解其中的区别一个是地址另一个是数值如前所述 MOV 指令没有区别对于 CMP 您将有以下区别 qwor
MAC-1 汇编递归

如何在 MAC 1 汇编器中调用递归函数在 C 中你会做类似的事情 int func int num if num 0 return 1 return num func num 1 我知道如何使用调用函数 CALL 以及如何将参数加载到堆
为什么我可以访问寄存器中较低的双字/字/字节，但不能访问较高的双字/字/字节？

我开始学习汇编程序这对我来说看起来不合逻辑为什么我不能在寄存器中使用多个高字节我明白了历史原因rax gt eax gt ax 所以让我们关注new64 位寄存器例如我可以使用r8 and r8d 但为什么不呢r8dl and r
为什么每次在 GDB 中构建和反汇编函数时都会得到相同的地址？

每次反汇编函数时为什么总是得到相同的指令地址和常量地址例如执行以下命令后 gcc o hello hello c ggdb gdb hello gdb disassemble main 转储代码将是当我退出 gdb 并重新反汇编 m
MS-DOS - 是否可以对 24 位图形进行编程？

是否可以在 DOS 机器上以 24 位颜色深度进行编程我知道 VGA 支持 8 位色深但是有没有办法弄出 24 位色深谷歌的研究没有发现任何结果我正在 FreeDOS 而不是 MS DOS 上编程如果这会影响答案的话对的这是可
如果我有一个 8 位值，那么使用 8 位寄存器而不是 16、32 或 64 位寄存器有什么优势吗？

我读到的 x86 asm 介绍性文献似乎在所有实际场景中都坚持使用 32 位寄存器 eax ebx 等除了证明 64 位寄存器也存在之外如果确实提到 16 位寄存器那也是作为历史注释来解释为什么 32 位寄存器的名称前面有一个 e 编
与 SSE 比较 16 字节字符串

我有 16 字节的字符串它们可能更短但您可能会假设它们在末尾用零填充但您可能不会假设它们是 16 字节对齐的至少不总是如何编写一个例程将它们与 SSE 内在函数进行比较是否相等我发现这个代码片段可能会有帮助但我不确定它是否
Mac OS X 上的 64 位程序集运行时错误：“dyld：无可写段”和“Trace/BPT trap”

当尝试运行以下汇编程序时 globl start start pushq 0x0 movq 0x1 rax subq 0x8 rsp int 0x80 我收到以下错误 dyld no writable segment Trace BPT t
GCC 从 C++ 程序生成的汇编代码中的 .cfi 和 .LFE 是什么？

我有以下 C 代码 int factorial int n if n 0 return 1 return n factorial n 1 int main void factorial 5 return 0 当我使用 g S Factori
为什么此 NASM 代码会打印我的环境变量？

本学期我刚刚完成计算机体系结构课程除其他外我们一直在涉足 MIPS 汇编并在 MARS 模拟器中运行它今天出于好奇我开始在我的 Ubuntu 机器上摆弄 NASM 基本上只是将教程中的内容拼凑起来并感受一下 NASM 与 MIP
该程序如何知道该字符串存储的确切位置？

我用 Radare2 反汇编了一个 C 程序在这个程序中有很多调用scanf像下面这样 0x000011fe 488d4594 lea rax var 6ch 0x00001202 4889c6 mov rsi rax 0x0000120
在汇编中使用 printf 会导致管道传输时输出为空，但可以在终端上使用

无输出 https stackoverflow com questions 54507957 printf call from assembly do not print to stdout即使在终端上当输出不包含换行符时也有相同的原因
查找用户输入中的第一个和最后一个大写字母

输入将从 a z 或 A Z 中获取并且输入以星号结束我们需要将输入字符的第一个和最后一个大写字母作为输出另外我们应该显示每次输入的内容注意我们逐个字符地获取输入而不是作为字符串测试用例1 输入 aAbCcP 输出 AP 测
将 1 字节立即值添加到 2 字节内存位置

The add说明文档来自这一页 http x86 renejeschke de html file module x86 id 5 html说如下请注意我突出显示的两条说明我在 NASM 中尝试了以下代码符合第一个突出显示的指令
x86 中有加速 SHA (SHA1/2/256/512) 编码的指令吗？

一个例子在x86 是硬件加速 AES 的指令集 http en wikipedia org wiki AES instruction set 但是x86中是否有加速SHA SHA1 2 256 512 编码的指令以及在x86上编码SHA

随机推荐

是否可以在 Xamarin.Forms 中将字符串转换为标题大小写？

所以在我的程序中我有一个Entry像这样
LINQ to Entities - 使用字符串名称寻址类属性

我有一个打开了服务器端过滤的 Kendo 网格要过滤的字段作为字符串传递例如我想按 SampleId 进行过滤现在我需要编写一个 LINQ to Entities 查询该查询可以使用强类型属性 SampleId 进行过滤例如
LINQ 和区分大小写

我有这个 LINQ 查询 TempRecordList new ArrayList TempRecordList Cast
Google Tango：对齐深度和颜色框架

我想使用 Google Tango 平板电脑对齐同步深度颜色帧对这样假设两个帧具有相同的分辨率深度帧中的每个像素对应于颜色帧中的相同像素即我想实现视网膜主题映射如何使用最新的 C API 希尔伯特发布版本 1 6 来实现这
“合并”列表中元素上的 2 个数据框？ - 双钥匙

这是此问题的后续问题合并列表中元素上的 2 个数据框扩展是现在某些名称可以在 df8 中加倍因此为了能够区分各个文本我创建了一个日期 df8 pd DataFrame Dates 2017 12 14 2017 12 14 20
PHP 中可以将字符串附加到变量吗？ [复制]

这个问题在这里已经有答案了为什么下面的代码输出0 它可以很好地处理数字而不是字符串我在 JavaScript 中有类似的代码也可以工作 PHP 不喜欢字符串吗这是因为 PHP 使用句点字符用于字符串连接而不是
应用程序允许后台播放视频、Cordova 问题、Google Play 拒绝应用程序

我使用 Cordova 创建了一些 Android 应用程序其中包含视频我正在尝试在 Google Play 商店上上传应用程序但每次他们都会拒绝所有应用程序原因如下您提交的内容因启用 YouTube 视频后台播放而被拒绝这违反
如何在__construct中访问会话？

在 Laravel 5 3 4 中我无法访问构造中的会话变量有什么办法可以做到这一点吗这是我的代码 app Http Controllers Controller php class Controller extends BaseCo
消息驱动通道适配器会在应用程序上下文启动后丢弃第一条消息，除非延迟调用 send

我对 Spring Integration 配置进行了集成测试该测试使用来自具有持久订阅的 JMS 主题的消息为了进行测试我使用 ActiveMQ 而不是 Tibco EMS 我遇到的问题是我必须在测试方法开始时使用睡眠调用来延迟将
Amcharts 4，xychart，限制工具提示的数量并将信息合并到一个工具提示中

我正在使用 amcharts 4 显示温度线有时有很多站所以我希望只有一个工具提示并且只针对光标所在的值而不是每一行都有一个工具提示因为这样它们会重叠有些是不可读的并且可能有多个站具有相同的温度因此我必须在工具提示中列出所有
如何在java中找到迷宫的其他解决方案？

我需要编写一个程序获取给定 txt 文件中的迷宫并将解决方案路径打印到控制台我编写了这个程序如下所示但我只能找到 1 个解决方案如果迷宫中有超过 1 个解决方案我需要找到所有这些我不知道我应该采取什么方法请问你能给个主意吗
通过其 API 作为 .click 的一部分调用 JQUERY 插件（超大）的函数

我对 JS 还很不精通所以请原谅任何明显的疏忽我一直在尝试使用 Supersized 背景幻灯片插件的 API 作为常规 element click function 的一部分 API 已记录here包括这部分对我的问题似乎很重要 a
如果抽象构造函数/析构函数具有函数体，那么在抽象构造函数/析构函数中调用纯虚函数是否安全？

如果没有标记 BODY 的线我知道这不安全但有了它这安全吗 struct A virtual A f virtual void f 0 void A f BODY struct B A void f int main delete n
JavaScript 解析器错误

我有一个 HTML5 视频其中有一张海报和一个 CSS 播放叠加按钮我试图在视频结束后加载视频以便它再次显示海报和播放覆盖按钮我已经尝试了以下代码但在最后一行出现解析器错误任何人都可以帮助我并让我知道我做错了什么 documen
StopUpdatingLocation 方法不适用于 iOS5

我正在开发地图应用程序我正在尝试使用 locationManager stopUpdatingLocation 停止定位服务的方法看起来它在iOS4 3中工作正常但在iOS5中它不起作用请问有人建议我如何在iOS5中停止位置服务吗
javascript中switch case跳转到错误的case（如何正确使用break命令）

我的代码不太长所以我将其全部粘贴到这里代码不完整但当我运行它时它首先跳转到它应该的情况开始然后跳转到情况结束我可以看到它因为它打印了两个块的控制台日志文本为什么会跳到结束案例
是否可以将 Google Sheets API 配额限制提高到每个帐户 2500 个和每个用户 500 个以上？

问题遇到 Google Sheets API 读写配额限制具体来说每 100 秒读写请求 and 每个用户每 100 秒的读写请求配额一些背景在过去的几个月里我一直在为我们学区的学生和教职员工开发一个网络应用程序该应用程
Sin(int) 在 Xcode 调试器 (lldb) 中被破坏

我有一个针对 iOS SDK 6 1 的通用 iOS 应用程序编译器设置为苹果 LLVM 编译器 4 2 当我在代码中放置断点并运行以下命令时我得到了奇怪的结果sin int 以供参考 sin 70 0 7739 70 的单位是弧度 l
最佳实践：301 将 HTTP 重定向到 HTTPS（标准域）

我一直在寻找完美的 301 重定向但我找到了很多解决方案但不知道什么是最好的这就是我想做的 http 域名 tld https 域名 tld http www domain tld https 域名 tld https www dom
AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？

我正在尝试了解具体的AVX512F指令vcvtps2udq 指令的签名是VCVTPS2UDQ zmm1 k1 z zmm2 m512 m32bcst er 手册信息如下为了尝试理解新的舍入模式以下代码片段是用 NASM 2 12 02

AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？

AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？ 的相关文章

随机推荐

热门标签

AVX512 舍入模式如何工作（或者 NDISASM 只是混淆了）？的相关文章