加载操作在调度、完成或其他时间时是否从 RS 中释放？

2024-01-05

On modern Intel¹ x86, are load uops freed from the RS (Reservation Station) at the point they dispatch², or when they complete³, or somewhere in-between⁴?

¹ I am also interested in AMD Zen and sequels, so feel free to include that too, but for the purposes of making the question manageable I limit it to Intel. Also, AMD seems to have a somewhat different load pipeline from Intel which may make investigating this on AMD a separate task.

² Dispatch here means leave the RS for execution.

³ Complete here means when the load data returns and is ready to satisfy dependent uops.

⁴ Or even somewhere outside of the range of time defined by these two events, which seems unlikely but possible.

以下实验表明微指令在加载完成之前的某个时刻被释放。虽然这不是您问题的完整答案，但它可能会提供一些有趣的见解。

在 Skylake 上，有一个 33 个入口的装载预约站（参见https://stackoverflow.com/a/58575898/10461973 https://stackoverflow.com/a/58575898/10461973）。对于下面的实验使用的Coffee Lake i7-8700K也应该是这样。

我们假设R14包含有效的内存地址。

clflush [R14]
clflush [R14+512]
mfence

# start measuring cycles

mov RAX, [R14]
mov RAX, [R14]
...
mov RAX, [R14]

mov RBX, [R14+512]

# stop measuring cycles

mov RAX, [R14]展开 35 次。在此系统上，从内存加载至少需要大约 280 个周期。如果加载微指令停留在33个条目的保留站直到完成，则最后一次加载只能在超过280个周期后才开始，并且还需要约280个周期。然而，该实验的总测量时间仅为约 340 个周期。这表明加载微指令在完成之前的某个时间离开了 RS。

相反，以下实验显示了大多数 uop 被迫保留在预留中直到第一次加载完成的情况：

mov RAX, R14
mov [RAX], RAX
clflush [R14]
clflush [R14+512]
mfence

# start measuring cycles

mov RAX, [RAX]
mov RAX, [RAX]
...
mov RAX, [RAX]

mov RBX, [R14+512]

# stop measuring cycles

前 35 个负载现在相互依赖。该实验的测量时间约为 600 个周期。

实验是在除一个核心之外的所有核心都被禁用的情况下进行的，并且 CPU 调速器设置为性能（cpupower frequency-set --governor performance).

这里有纳米工作台 https://github.com/andreas-abel/nanoBench我使用的命令：

./nanoBench.sh -unroll 1 -basic -asm_init "clflush [R14]; clflush [R14+512]; mfence" -asm "mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RAX, [R14]; mov RBX, [R14+512]"

./nanoBench.sh -unroll 1 -basic -asm_init "mov RAX, R14; mov [RAX], RAX; clflush [R14]; clflush [R14+512]; mfence" -asm "mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RAX, [RAX]; mov RBX, [R14+512]"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载操作在调度、完成或其他时间时是否从 RS 中释放？的相关文章

Polygot 包含 nasm/yasm 和 C 的文件

我有一堆幻数我想将它们包含在由 nasm 或 yasm 编译的 C 程序和汇编文件中在纯 C 语言中该文件看起来像是一系列定义例如 define BLESS 55378008 define ANSWER 42 在 nasm 或 ya
难以理解汇编命令“加载有效地址”[重复]

这个问题在这里已经有答案了可能的重复 LEA 指令的目的是什么 https stackoverflow com questions 1658294 whats the purpose of the lea instruction LEA指
是否有适用于双打 (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？

多年来我有几次看到 in 中的内在函数float参数被转换为 m128使用以下代码 m128 b mm move ss m mm set ss a 例如 void MyFunction float y m128 a mm move ss
x86 asm 图形设置的分辨率高于 640x480？

我刚刚开始使用汇编语言感觉像学习新东西并且遇到了一些问题到目前为止我一直在浏览的所有教程都没有回答或者太旧而无法知道 1 我尝试了一些搜索也许我只是不知道正确的关键字但我找不到用于更改屏幕分辨率等的图形模式的更新列表我发现的
movsbl指令的作用是什么？ [复制]

这个问题在这里已经有答案了我在网上搜索过但找不到明确的示例来理解该指令的作用因此如果有人可以举一个例子这对我来说将会非常有帮助用符号从字节扩展到长字移动在Intel语法中该指令的助记符是MOVSX 当变量类型为 C 时 C
x86：寄存器操作为内存内容和内存地址？

寄存器 gt 内存地址 gt 内存内容内存地址 gt 内存内容上面的模型正确吗而且如果是的话你能建议我是否认为正确吗 movl eax ebx gt 它将 eax 的内存地址移动到 ebx 这也会导致内容移动 movl eax e
如何阅读英特尔操作码符号

我正在阅读一些引用的材料Intel vol 2 SDM x86 手册 https www intel com content www us en developer articles technical intel sdm html关于汇编
对齐与未对齐 x86 SIMD 指令之间的选择

SIMD指令一般有两种类型 A 使用对齐的内存地址如果地址未在操作数大小边界上对齐则会引发一般保护 GP 异常 movaps xmm0 xmmword ptr rax vmovaps ymm0 ymmword ptr rax vmova
内在数组访问比 std::vector 访问快得多——黑魔法？

我已经设置了一个测试程序来将数组访问性能与 std vector 的访问性能进行比较我发现了几个类似的问题但似乎没有一个问题能解决我的具体问题一段时间以来我一直在摸不着头脑为什么数组访问似乎比向量访问快 6 倍而我过去读到它们应
电路解码所需的最小输入位数

我正在学习计算机体系结构并且正在阅读有关编码器和解码器的内容在 MIPS 处理器中操作码有 6 位我想知道构建解码器来解码操作码需要多少输入位我知道解码器是一个组合电路它将二进制信息从 n 个输入线转换为最多 2 n 个唯一的输
任何浮点密集型代码是否会在任何基于 x86 的架构中产生位精确的结果？

我想知道使用浮点运算的 C 或 C 代码是否会在任何基于 x86 的体系结构中产生位精确的结果无论代码的复杂性如何据我所知自 Intel 8087 以来的任何 x86 架构都使用准备处理 IEEE 754 浮点数的 FPU 单元并且
如何在 Linux 中制作一个将文件转换为大写的 x86 汇编程序？

我找到了一个名为 ProgrammingGroundUp 1 0 booksize pdf 的 pdf 文件其中一个项目是制作一个汇编程序该程序接收文件并将其转换为大写 section data CONSTANTS system cal
如何找出英特尔处理器上的指令触及了哪条高速缓存线？

我读了这篇文章关于 Meltdown Spectre 漏洞利用 http www theregister co uk 2018 01 04 intel amd arm cpu vulnerability 允许利用 CPU 中的硬件错误从内核
如何使用存储在 x64 位置的 x64 内存地址进行跳转？

据我所知使用 64 位地址作为操作数的 jmp 是不可能的但我相信使用 x64 内存位置是来自here http www tptp cc mirrors siyobik info instruction JMP htmlJMP r m
让 GCC/Clang 使用 CMOV

我有一个简单的标记值联合这些值可以是int64 ts or doubles 我正在对这些联合进行加法但需要注意的是如果两个参数都代表int64 t值那么结果也应该有一个int64 t value 这是代码 include
X86 汇编将小写字母转换为大写字母

实现toUpper函数将字符串中的小写字母转换为大写该函数采用一个参数 char string 字符串是一个 char类型指针指向字符串的开头因为C 样式字符串以零结尾我们不需要取长度字符串作为另一个参数我需要帮助开始我不
二元炸弹 - 第 6 阶段

这是拆解phase 6 08048dbf
段寄存器如何参与内存地址转换？

到目前为止我所学到的有关细分的知识虚拟地址包含段选择器和偏移量段选择器与GDTR配合使用查找段描述符的线性地址段描述符保存有关所选段的信息包括其线性地址所以我的问题是根据我所读到的内容虚拟地址被加载到段寄存器中然后以某种
在汇编中，指令指定数据类型吗？

我是汇编语言编程 x86 的初学者以下说法是否正确在汇编中 BYTE WORD DWORD 等数据类型分别表示 8 位 16 位和 32 位模式而不仅仅是整数它们本身没有意义它们只是位模式使用它们的指令赋予了它们意义汇编代码
x86 中有加速 SHA (SHA1/2/256/512) 编码的指令吗？

一个例子在x86 是硬件加速 AES 的指令集 http en wikipedia org wiki AES instruction set 但是x86中是否有加速SHA SHA1 2 256 512 编码的指令以及在x86上编码SHA

随机推荐

如何通过mvn命令顺序执行2个Java类

我有 2 个具有共生关系的 Java 类类 1 生成一些输出文件类 2 使用类 1 的输出并验证它这两个类都从命令行获取输入这个项目是基于maven的鉴于这种共生性质我不确定如何连接它们我的想法是编写另一个 Java 类
exec：语法错误：“返回”外部函数

我将代码片段存储在 Postgres 数据库中当我需要代码时我在数据库中找到它并使用exec 功能代码片段是extract功能不幸的是它返回了SyntaxError return outside function Method de
空对基类的目的是什么？

libstdc 库 https github com gcc mirror gcc blob 16e2427f50c208dfe07d07f18009969502c25dc8 libstdc 2B 2B v3 include bits st
在 Perl 中，如何正确解析带有引号字符串的制表符/空格分隔文件？

我需要解析 Perl 中包含很多列的制表符空格分隔的文件这些值使得大字符串括在双引号内这些字符串可以包含任何字符例如制表符和空格或其他任何字符当我尝试使用 split 函数解析它们时它也会拆分这些字符串现在我怎样才能让 per
固定宽度整数类型的整数文字

对于像这样的固定宽度整数类型是否有一些针对整数文字的 C 建议 i s type is unsigned int auto i 10u j s type is uint32 t auto j 10u32 Yes P1280R0 整数宽度文
PostgreSQL 加载 back.json 文件时出现重复密钥问题

我有一个 PostgreSQL 数据库我在其中执行了 python manage py dumpdata 将数据备份到 json 文件中我创建了一个新的 PostgreSQL 数据库执行了迁移一切都顺利进行当我尝试使用 pytho
单击外部时如何隐藏 DIV 元素

我有一个div当我点击外部时想要隐藏它我的代码是 div The div must be above button div mydiv click function e e stopPropagation document click f
Qt 的最佳 C# 绑定？

我用 C 使用 SDL NET 和 OpenGL 编写了一个游戏我想为其添加一个菜单为此我需要 Qt 您推荐在 C 中为 Qt 使用哪些绑定 Qyoto http techbase kde org Development Languag
使用 ggplot 围绕多个 geom_point 组绘制轮廓

I currrently have the code included below to draw this 我想做的是为每个组制定一个大纲以遵循每个组中的所有要点而不是像目前那样跳过其中的一些要点此外我希望每个轮廓都有半透明填充
类别 - 子类别 - 产品选择表单的大多数 djongonic 解决方案？

假设我们有这三个模型 cagegory id name subcategory id id category name product id id sub category name 共有30个大类每个大类下有30个小类每个小类下有50
另一个 FizzBuzz 解决方案[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我参加了一次工作面试被要求用 PHP 解决 FizzBu zz 问题编写一个程序打印从 1 到 100 的数字但是对于 3 的
为什么 while 里面的 cin 不停止获取用户输入？

我现在开始学习 C 所以我想这将是一个非常简单的新手问题那么为什么 while 内的 cin gt gt x 行不会停止循环以获取用户输入如果用户输入字符而不是数字 include
Node.js 上的 Google Storage API 自定义标头

我在用googleapis auth JWT进行身份验证和request分段上传将 JSON 文件上传到谷歌存储它按预期工作这是代码 var data JSON stringify json var metadata name name
MathJax 可以将 LaTeX 数学表达式渲染为图像吗？

我知道MathJax http www mathjax org 可以将 LaTeX 数学表达式呈现为文本 MathJax 可以将 LaTeX 数学表达式渲染为图像吗我在帮助文档中找不到任何关于此的信息如果是的话你能告诉我详情吗谢谢
如何在 Java 中使用 REST [重复]

这个问题在这里已经有答案了使用Java工具 wscompile for RPC wsimport for Document etc 我可以使用 WSDL 生成访问 SOAP Web 服务所需的存根和类但我不知道如何在 REST 中做同样
将节点与具有关系的公共节点匹配 - Neo4j Cypher

我有许多用户节点和技能节点这种关系是技能和用户之间的关系 USING PERIODIC COMMIT 1000 LOAD CSV WITH HEADERS FROM file xyz csv AS row FIELDTERMINATOR
从 xsd:choice 元素自定义 JAXB 2.0 生成的方法名称

我试图弄清楚如何自定义由 JAXB 2 1 12 生成的方法名称我有一个史诗般的 XML 模式不在我的控制范围内它包含一个带有 choice 元素的组其中包含大约 200 个其他元素因此当我生成 JAXB 类时创建的 get
R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3
为什么父类中的@PostConstruct方法在子类中的@PostConstruct方法之后执行？

我对下面代码的结果有点困惑父控制器 Controller public abstract class ParentController PostConstruct public void init System out println P
加载操作在调度、完成或其他时间时是否从 RS 中释放？

On modern Intel1 x86 are load uops freed from the RS Reservation Station at the point they dispatch2 or when they comple

加载操作在调度、完成或其他时间时是否从 RS 中释放？

加载操作在调度、完成或其他时间时是否从 RS 中释放？ 的相关文章

随机推荐

热门标签

加载操作在调度、完成或其他时间时是否从 RS 中释放？的相关文章