Skylake L2 缓存通过减少关联性增强？

2023-11-22

In 英特尔的优化指南在第 2.1.3 节中，他们列出了 Skylake 中缓存和内存子系统的许多增强功能（重点是我的）：

Skylake微架构的缓存层次结构有以下增强功能：

与前几代相比，缓存带宽更高。

通过扩大的缓冲区可以同时处理更多的负载和存储。

与 Haswell 微架构及前几代中的处理器相比，处理器可以并行执行两页遍历。

页面分割加载损失从上一代的 100 个周期减少到 5 个周期。

L3 写入带宽从上一代的每行 4 个周期增加到每行 2 个周期。

支持 CLFLUSHOPT 指令来刷新缓存行并使用 SFENCE 管理刷新数据的内存顺序。

减少指定 NULL 指针的软件预取的性能损失。

L2 关联性从 8 种方式更改为 4 种方式。

最后一张引起了我的注意。减少方式数量在哪方面是一种增强？就其本身而言，更少的方法似乎比更多的方法更糟糕。当然，我知道可能存在有效的工程原因，为什么减少方式数量可能是实现其他增强功能的权衡，但在这里它本身被定位为增强功能。

我缺少什么？

对于 L2 缓存的性能来说，这绝对更差。

根据AnandTech 撰写的 SKL-SP（又名 skylake-avx512 或 SKL-X），英特尔表示“[减少关联性]的主要原因是使设计更加模块化”。 Skylake-AVX512 具有 1MiB 的 L2 缓存和 16 路关联性。

大概下降到四向关联性不会有什么坏处too在双核和四核笔记本电脑和台式机部件 (SKL-S) 中表现很差，因为 L3 缓存有大量带宽。我认为如果英特尔的模拟和测试发现它会造成很大的伤害，他们就会投入额外的设计时间来在非 AVX512 Skylake 上保留 8 路 256k 缓存。

较低关联性的好处是功率预算。它可以通过允许更多的涡轮余量来间接提高性能，但主要是为了提高效率，而不是提高速度。释放电力预算中的一些空间使他们可以将其花在其他地方。或者不花掉所有的电量，而只使用更少的电量。

移动和多核服务器 CPU 比高端四核桌面 CPU 更关心功耗预算。

列表中的标题应该更准确地理解为“更改”，而不是“增强”，但我确信营销部门不会让他们写任何听起来不积极的东西。 :P 至少英特尔准确而详细地记录了事情，包括新 CPU 比旧设计更糟糕的方式。

Anandtech 的 SKL 文章表明放弃关联性可以释放功率预算以增加 L2 带宽，这（从总体上看）可以补偿增加的丢失率。

IIRC，英特尔有一项政策，即任何拟议的设计变更都必须具有 2:1 的性能增益与功耗成本之比，或类似的值。因此，如果他们通过 L2 更改损失 1% 的性能但节省 3% 的电量，他们就会这么做。如果我没记错的话，2:1 的数字可能是正确的，但 1% 和 3% 的例子完全是编造的。

在以色列国防军细节公布后，大卫·坎特 (David Kanter) 在一次播客采访中对这一变化进行了一些讨论。IDK 如果这是正确的链接.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Skylake L2 缓存通过减少关联性增强？的相关文章

测量进程消耗的 CPU 时钟

我用 C 语言编写了一个程序它是作为研究结果创建的程序我想计算程序消耗的确切 CPU 周期精确的循环次数知道我怎样才能找到它吗 The valgrind tool cachegrind valgrind tool cachegrin
从 DX:AX 寄存器转移到单个 32 位寄存器

我在添加 16 位乘法的乘积时遇到问题我想将一年例如 2015 年乘以 365 为此我 mov dx 0 to clear the register mov ax cx cx holds the year such as 2015
为什么 mov %ax, %ds 汇编+反汇编为 mov %eax,%ds，与原来不一致？

test S text global start start xor ax ax mov ax ds mov ax ss mov ax es mov ax fs mov ax gs 我通过这样做得到了反汇编代码文件 x86 64 elf g
如何反汇编、修改然后重新组装 Linux 可执行文件？

无论如何这可以做到吗我使用过 objdump 但它不会产生我所知道的任何汇编器都可以接受的汇编输出我希望能够更改可执行文件中的指令然后对其进行测试我认为没有任何可靠的方法可以做到这一点机器代码格式非常复杂比汇编文件还要复杂实
测试 xmm/ymm 寄存器是否为零的更快方法？

It s fortunate that PTEST does not affect the carry flag but only sets the rather awkward ZF also affects both CF and ZF
当内存排序放宽时，C++ 延迟会增加

我在 Windows 7 64 位 VS2013 x64 发行版上尝试内存排序我想使用最快的同步来共享对容器的访问我选择了原子比较和交换我的程序产生两个线程写入器推送到向量读取器检测到这一点最初我没有指定任何内存顺序所以我假
在编译行中添加“-march=native”intel 编译器标志会导致 KNL 上出现浮点异常

我有一个代码我在 Intel Xeon Phi Knights Landing KNL 7210 64 核处理器它是一台 PC 处于本机模式上启动并使用 Intel c 编译器 icpc 版本 17 0 4 我还在Intel co
优化算术编码器

我正在优化名为的 C 库的编码步骤PackJPG http www elektronik htw aalen de packjpg 我使用 Intel VTune 对代码进行了分析发现当前的瓶颈是 PackJPG 使用的算术编码器中的以下
为什么将 char 传递给函数会改变它在 c 中的值？

我目前正在关注本作业簿 http www cs bham ac uk exr lectures opsys 10 11 lectures os dev pdf关于构建操作系统我的目的是写一个64位内核我已经在文本模式下加载内核代码并
任何浮点密集型代码是否会在任何基于 x86 的架构中产生位精确的结果？

我想知道使用浮点运算的 C 或 C 代码是否会在任何基于 x86 的体系结构中产生位精确的结果无论代码的复杂性如何据我所知自 Intel 8087 以来的任何 x86 架构都使用准备处理 IEEE 754 浮点数的 FPU 单元并且
如何在 Linux 中制作一个将文件转换为大写的 x86 汇编程序？

我找到了一个名为 ProgrammingGroundUp 1 0 booksize pdf 的 pdf 文件其中一个项目是制作一个汇编程序该程序接收文件并将其转换为大写 section data CONSTANTS system cal
如何通过查看程序集来判断程序是否使用动态调度

我在 Reddit 上读过一篇文章Herb Stutter JIT 永远不会像原生一样快 http www reddit com r programming comments rr2dj herb stutter jit will neve
x86 汇编乘法和除法指令操作数，16 位及更高

我对 x86 汇编中的乘法和除法运算如何工作感到相当困惑例如下面的代码看起来并不太困难因为处理的是 8 位 8 位乘法 User Input num1 20 num2 15 mov ax num1 moves the 8 bits i
如何使用存储在 x64 位置的 x64 内存地址进行跳转？

据我所知使用 64 位地址作为操作数的 jmp 是不可能的但我相信使用 x64 内存位置是来自here http www tptp cc mirrors siyobik info instruction JMP htmlJMP r m
Linux 内核中是否使用了扩展指令集（SSE、MMX）？

好吧它们带来至少应该带来性能的巨大提升不是吗所以我还没有看到任何 Linux 内核源代码但很想问它们是否以某种方式被使用在这种情况下对于没有此类指令的系统必须有一些特殊的代码上限 SSE 和 MMX 指令集在音频视
Nodejs 异步函数是否使用所有 CPU 核心？

如果我使用异步函数或带有回调的函数例如本机 fs 模块 http 等它们会默认在所有 cpu 核心上运行吗或者整个系统只使用 1 个核心 Node js 中的一些异步操作例如文件 I O fsmodule 将通过 libuv 中的线
调用/返回/jmp等后x86代码执行？

我希望这个问题不会太愚蠢因为它看起来似乎很明显当我对缓冲区溢出进行一些研究时我偶然发现了一个简单的问题调用返回跳转后转到新指令地址后 CPU是否会执行该地址处的OP代码然后将一个字节移动到下一个地址并执行下一个OP代码依此类
使用 XCHG 解锁的自旋锁

维基百科提供的使用 x86 XCHG 命令的自旋锁的示例实现是 Intel syntax locked The lock variable 1 locked 0 unlocked dd 0 spin lock mov eax 1 Set t
计算 [1..N] 中前导 1 下面有 K 个零位的整数？（没有 HW POPCNT 的连续范围的 popcount）

I have following task Count how many numbers between 1 and N will have exactly K zero non leading bits e g 710 1112 will
Visual Studio：如何正确构建和指定 x64 和 x86 的配置和平台

使用 Visual Studio 2012 Professional 和 Ultimate 以及所有最新更新如何正确指定配置和平台以正确构建 x86 和 x64 当您第一次创建 Winforms 应用程序时 Visual Studio 会

随机推荐

python：结合排序键函数 itemgetter 和 str.lower

我想按字典键对字典列表进行排序但我不想区分大小写字符 dict1 name peter phone 12355 dict2 name Paul phone 545435 dict3 name klaus phone 55345 dict4
useState 挂钩的 setState 函数的类型？

我正在将我的 React 项目转换为 Typescript 我有这样的状态 AdminBlogPostContainer tsx const blogPost setBlogPost useState
在运算符重载中使用可变参数模板是否合法？

我希望能够写一些这样的东西 struct bar template
终止 postgresql 会话/连接

如何终止所有 postgresql 连接我正在尝试一个rake db drop但我得到 ERROR database database name is being accessed by other users DETAIL There
如何通过 MockMvc 使用构造函数注入来测试控制器

我有一个带有构造函数注入的控制器 RestController RequestMapping user public class MainController private final UserMapper userMapper auto
读取 HTML 对象标签中的数据

我有一个存储在服务器上的文本文件和一个 HTML 格式的对象如下所示我怎样才能阅读内容test txt在 JavaScript 中到目前为止我所拥有的是 var data document getElementByID data 但我
如何实现单实例Java应用程序？

有时我看到许多应用程序例如 msn Windows Media Player 等它们都是单实例应用程序当用户在应用程序运行时执行时不会创建新的应用程序实例在 C 中我使用Mutex类但我不知道如何在 Java 中执行此操作我
信封上邮票的最大值

邮票问题是一个数学谜语它询问如果信件只能容纳有限数量的邮票并且这些邮票可能只有某些指定的面值那么不能放在信封上的最小邮资价值是多少例如假设信封只能容纳三张邮票可用的邮票面值为 1 美分 2 美分 5 美分和 20 美分那么解就
Ef Linq 查询超时，但在 SSMS 上相同查询不到 1 秒

首先我尝试过ARITHABORT OFF在 SSMS 上仍然不到 1 秒我使用 EntityFrameWork 6 1 3 和 Azure Sql S1 层我将尝试使用第 3 层如果有变化请通知您我使用 EF Profiler 从
如何列出最近24小时内有数据变化的所有表？

我们遇到了一个丑陋的问题平衡器错误地将一些请求重定向到具有与生产数据非常相似的数据的测试实例现在我知道测试 Postgres 中记录了属于生产的数据有没有办法列出Postgres中过去24小时内有数据更改的所有表 Postgres 版
基于高效 2D Tile 的照明系统

在 Java 中为基于图块的引擎进行照明最有效的方法是什么是否会在图块后面放置黑色背景并更改图块的 Alpha 或者放置一个黑色的前景并改变它的阿尔法还是其他什么 This is an example of the kind of li
iOS动态高度UITableViewCell和heightForRowAtIndexPath

我在一个大型项目中为我的新 UITableViewCells 使用自动布局我有一个 TableView 其中每一行的高度是自动计算的我不使用委托函数heightForRowAtIndexPath 我已经声明了估计的行高 tableVie
如何将.dll导入Android java项目（使用eclipse）

Java 本机接口 JNI Java 本机接口 JNI 是其中之一 java 的有趣界面使用 Java 本机接口 JNI 可以与其他应用程序一起运行和图书馆 JNI 是 java 的本机编程接口是 JDK 的一部分使用 JNI 您可以
在 Dart 中，使用 new 关键字和直接调用构造函数有什么区别？

我看到我可以使用 argument MyClassName a b 也 argument new MyClassName a b 我想明白的是newDart 中可选或者这两个返回完全不同的东西 Dart 2 0 强模式下new 和 con
Twig_Error_Syntax 表示“未知过滤器”，在 Timber 中带有 Twig 过滤器

这一定很简单但我看不出有什么问题我正在使用简单的过滤器示例https twig symfony com doc 1 x advanced html filters使用 Timber 中的 Twig 1 34 这是一个 WordPress
如何使用 Android 版 Glide 压缩和降低图像质量

我正在使用 Glide 库上传图像在另一个应用程序中我使用此代码 void imageButtonclick iv1 setOnClickListener new View OnClickListener Override public
在分页函数中使用 limit 参数

是否可以在 paginate 函数中使用 limit 参数我正在尝试这个 users gt where gt limit 50 gt paginate page 现在如果数据库中有 100 个用户那么 paginate 函数的响应将是
Android HILT SingletonComponent 与 GoF Singleton 实例设计模式

在 Android 项目中有一个外观作为单例实现我认为使用 HILT SingletonComponent 将其转换为 DI 是一个更好的主意 Module InstallIn SingletonComponent class obje
获取 WindowRef 的边界？

我正在尝试找到一个 Carbon API 它可以从窗口 id 中为我提供 WindowRef 并且通过该 windowref 我想要有边界吗编辑我找到了API extern WindowRef HIWindowFromCGWindowI
Skylake L2 缓存通过减少关联性增强？

In 英特尔的优化指南在第 2 1 3 节中他们列出了 Skylake 中缓存和内存子系统的许多增强功能重点是我的 Skylake微架构的缓存层次结构有以下增强功能与前几代相比缓存带宽更高通过扩大的缓冲区可以同时处理更多的负载和

Skylake L2 缓存通过减少关联性增强？

Skylake L2 缓存通过减少关联性增强？ 的相关文章

随机推荐

热门标签

Skylake L2 缓存通过减少关联性增强？的相关文章