CAS 冲突的 CPU 内部特征是什么？

2024-01-01

我正在尝试了解 x86/x64 上 CAS 的低级机制，我非常感谢一些帮助/见解。

我一直在思考这个问题的原因是我试图推理指数退避，并原则上找出正确的退避延迟单位应该是什么。

如果我查看无锁空闲列表基准测试，没有指数退避，我会发现随着线程数量的增加，性能迅速趋于平稳。

Release 7 Lock-Free Freelist Benchmark #1

   M
   N
   S
  L3U
L2U L2U
L1D L1D
L1I L1I
 P   P
L L L L total ops,mean ops/sec per thread,standard deviation,scalability
0 0 0 1 310134488,31013449,0,1.00
0 1 0 1 136313300,6815665,38365,0.22

0 1 0 1 136401284,6820064,50706,0.22
1 1 1 1 111134328,2778358,23851,0.09

0 0 1 1 334747444,16737372,2421,0.54
1 1 1 1 111105898,2777647,40399,0.09

正如我们所知，可能会发生活锁，其中每个线程都会阻止其他线程前进。

我最初的想法（现在我认为是错误的）是 CAS 干扰了 CAS。我的意思是，如果 CAS 指令同时发生，那么它们本身就会与另一个 CAS 发生破坏性冲突。两者都会失败。（可能是因为我在心里想着以太网）。

这“显然”解释了结果 - 所有这些 CAS 指令同时运行，很少有机会在被破坏性中断之前完全执行。

再想一想，我现在认为不可能是这样。 CAS 指令实际上没有故障模式。它会告诉您目的地等于或不等于比较数。就这样。它不会回来说“哦，对不起，撞到了别人”。

破坏性干扰正在发生，但它发生在更高的层次上，发生在数据结构算法本身中。当我们从空闲列表中推送或弹出时，我们实际上是在尝试交换。我们需要目的地稳定足够长的时间，以便我们可以读取它，做我们需要做的任何工作，然后发现它不变，这样我们就可以完成我们的推送/弹出。

如果其他线程保持 CASing，则目标不稳定 - 它不断变化 - 并且我们必须不断重试我们的操作。

但现在我很困惑。

我们看到，单个线程执行大约 3000 万次入栈/出栈操作。目的地必须在其中一项操作期间保持稳定，操作才能成功，因此我们看到有 3000 万个“槽位”。如果我们有两个线程，那么我们可以拥有的最大理论性能是每个线程 1500 万次操作；每个线程使用一半的插槽。

现在让我们回到 CAS。 CAS没有故障模式。那么，当另一个线程已经在进行 CAS 操作而第二个线程尝试进行 CAS 操作时，会发生什么情况呢？好吧，第二个线程将在数据结构级别失败，因为交换无法发生，因此它将重试交换。

但现在想象我们有很多线程。开始 CAS 的第一个线程将成功（假设每个 CAS 花费完全相同的时间 - 不正确，但该假设不会改变任何基本内容，因此可以推理）。所有其他人都会失败。

但是，一旦第一个线程完成，下一个读取新目标值的线程将使其 CAS 成功（而所有其他线程，仍在执行其 CAS 或现在开始新的 CAS，将失败）。

那么为什么我们没有看到完美的缩放呢？因为每个“槽”都应该被使用！

因此我认为我没有正确理解 CAS。

阅读 Intel 的架构软件开发人员手册，我发现如果所有数据都存在于缓存中（我感兴趣的情况），则缓存一致性协议会负责 CAS。

Drepper 在他的白皮书中描述了 LL/SC 以及它如何使用 MESI 工作。

在我看来，CAS 以类似的方式运作是合理的。

让我们考虑两个线程的情况。第一个线程开始其 CAS。具有目标的缓存行位于其缓存中并标记为独占。

第二个线程开始 CAS。第一个核心将其缓存行发送到第二个核心，并且两个核心都将该缓存行标记为共享。

第一个线程完成 CAS 并写入缓存行（写入始终发生在 x86/x64 上，即使比较为 false；它只写入原始值）。

写入行为将缓存行标记为已修改；发生 RFO，导致第二个核心将其缓存行标记为无效。

第二个线程完成其 CAS 并注意到其缓存行无效......然后，怎么办？我发现很难相信该指令在 CPU 内部循环直到它成功 - 尽管我想知道，因为 ARM 上的 LL/SC 需要you在你的程序集中执行此循环。但CAS指令知道destination的值已经改变，所以它的比较结果无效。但 CAS 不可能出错；它总是返回 true 或 false 进行比较。但即使指令确实循环直到完成，我仍然期望完美的缩放。每个“插槽”仍应使用。

那么会发生什么呢？什么is发生在 CAS 上吗？

我所看到的是，随着线程数的增加，完成的工作越来越少 - 所有可用的“插槽”肯定都没有被使用。有什么原因导致了这种情况。 CAS指令之间是否存在破坏性干扰？或者是大量RFO占用了CPU->北桥总线？

我非常感兴趣地注意到，同一物理核心上的两个线程完美地扩展。在这种情况下，会发生一些特殊且不同的情况 - 单独物理核心上的两个线程也会缩放一半。但这还不足以解释这一切。

您在这里看到的是在两个物理核心的 L1 缓存之间移动数据的成本。当仅使用一个核心时，数据位于 L1 缓存中，并且每个 CAS 以缓存中的数据全速运行。另一方面，当有两个核心处于活动状态时，每次一个核心成功写入数据时，都会使另一个缓存失效，这将导致在另一个核心可以执行任何操作之前需要在缓存之间复制数据（一般会在CAS完成之前阻塞等待加载）。这比实际的 CAS 昂贵得多（它至少需要将数据移动到 L3 缓存，然后返回到另一个 L1 缓存），并且会导致您看到的速度减慢，因为数据最终会出现乒乓球效应在两个 L1 缓存之间来回

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CAS 冲突的 CPU 内部特征是什么？的相关文章

在 .NET 4.0 中将任务与 Parallel.Foreach 一起使用

我开始尝试向 Windows 窗体添加一个进度条以更新 Parallel Foreach 循环中运行的代码的进度为此 UI 线程必须可用于更新进度条我使用 Task 来运行 Parallel Foreach 循环以允许 UI 线程更
如何在 bash 脚本中使用并行编程/多线程？

这是我的脚本 bin bash script to loop through directories to merge fastq files sourcedir path to source destdir path to dest fo
Android Thread、AsyncTask 与从 BLE onCharacteristicChanged() 调用的 IntentService

我有一个 Android 应用程序我从中接收 BLE 数据每 62 毫秒通过通知该应用程序可以通过 BufferedWriter 将数据保存到文件中在每次 onCharacteristicChanged 回调时如果用户启用了文件保
段寄存器如何参与内存地址转换？

到目前为止我所学到的有关细分的知识虚拟地址包含段选择器和偏移量段选择器与GDTR配合使用查找段描述符的线性地址段描述符保存有关所选段的信息包括其线性地址所以我的问题是根据我所读到的内容虚拟地址被加载到段寄存器中然后以某种
在无锁单链表的开头插入节点时，正确的内存顺序是什么？

我有一个简单的链表不存在 ABA 问题的危险我对阻塞类别很满意并且我不在乎我的列表是先进先出后进先出还是随机的只要插入成功不让其他插入失败其代码如下所示 class Class std atomic
如何在 MOS 6502 的 asm 中创建延迟

我是 ASM 新手我正在尝试研究如何为以下代码创建延迟 org 1000 loop inc d021 jmp loop 我想评论已经足够清楚了每帧更改颜色的代码示例 1 50 秒 sei enable interrupts loop1
该程序如何知道该字符串存储的确切位置？

我用 Radare2 反汇编了一个 C 程序在这个程序中有很多调用scanf像下面这样 0x000011fe 488d4594 lea rax var 6ch 0x00001202 4889c6 mov rsi rax 0x0000120
Android SurfaceView 使用线程绘制画布

我正在尝试使用线程在画布上绘图来创建一个简单的游戏引擎但我遇到了一些无法解释的奇怪问题这个游戏的目的是每秒在画布上画一个圆圈这是可行的但不是我想要的工作方式似乎应用程序正在两个画布之间切换并向每个画布添加一个圆圈这样您就可
Java：BufferedReader 在 close() 上永远挂起，并且 StreamDecoder 不尊重线程中断

我有一个 Java 程序它启动一个由 Process 类表示的单独子进程然后附加查看 Process 的 stdout stderr 的侦听器在某些情况下进程将挂起并停止取得进展此时 TimeLimiter 将抛出 Timeout
Shared_ptr 线程安全的开销是多少？

std shared ptr保证是线程安全的我不知道典型的实现使用什么机制来确保这一点但肯定它必须有一些开销即使您的应用程序是单线程的这种开销也会存在是上述情况吗如果是这样如果您不使用线程安全保证这是否意味着它违反了您不为
在 x86 汇编语言中获取文件大小的简单方法

假设我已经在汇编中打开了一个文件并且在寄存器 eax 中有该文件的文件句柄我将如何获取文件的大小以便为其分配足够的缓冲区空间我在这里研究了另一个讨论建议使用sys fstat 28 系统调用来获取文件统计信息但无法实现它 My a
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
VBA 中的多线程

这里有人知道如何让VBA运行多线程吗我正在使用 Excel 无法用 VBA 本地完成 VBA 构建在单线程单元中获得多个线程的唯一方法是使用 VBA 之外的其他具有 COM 接口的东西构建 DLL 并从 VBA 调用它信息 OLE 线
ThreadPoolExecutor 和队列

我以为使用线程池执行器 http docs oracle com javase 6 docs api java util concurrent ThreadPoolExecutor html我们可以提交Runnables 要在以下位置执行B
使用 Matplotlib、PyQt 和 Threading 进行实时绘图导致 python 崩溃

我一直在努力研究我的 Python 应用程序但找不到任何答案我有 PyQT GUI 应用程序它使用 Matplotlib 小部件 GUI 启动一个新线程来处理 mpl 小部件的绘图恐怕我现在通过从另一个线程访问 matplotlib
iPhone 相当于 Application.DoEvents();

iPHone 我们使用 MonoTouch 但 Obj C 答案还可以我的单例域对象需要一段时间才能获取所有数据因此它在线程中内部运行部分获取数据我需要通知 UI 域已完成目前我正在这样做有没有更好的办法在 WinForms 中
当可能存在迭代器时替换并发集合是否是线程安全的？

我一直在阅读各种内容似乎这应该有效但我想确定一下我有一个静态属性它应该是一个缓存加上一些与缓存数据相关的其他功能它将实际数据存储在 ConcurrentBag 中并且有一个 IEnumerable 方法来过滤并从此包中生成
汇编程序中的过程调用如何工作？

我刚刚开始摆弄 ASM 我不确定我对过程调用的理解是否正确假设代码中的某个时刻有一个过程调用 call dword ptr 123 该过程仅包含一个命令 ret ret 0004 该过程调用的效果是什么返回值将存储在哪里我在某处读到
C# - 当代表执行异步任务时，我仍然需要 System.Threading 吗？

由于我可以使用委托执行异步操作我怀疑在我的应用程序中使用 System Threading 的机会很小是否存在我无法避免 System Threading 的基本情况只是我正处于学习阶段例子 class Program public
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们

随机推荐

MySQL可重复读隔离级别和丢失更新现象

In 高性能 Java 持久性 https vladmihalcea com books high performance java persistence 书的6 3 3 3部分写道在MySQL可重复读隔离级别中可能会出现丢失更新现象
如何使用Python的加密模块加载RSA公钥

我正在尝试使用加载公钥密码学 https cryptography io 模块这就是密钥的样子 gt gt gt print pubkey BEGIN RSA PUBLIC KEY MIGfMA0GCSqGSIb3DQEBAQUAA4GN
为什么 Scala 的 Symbol 不被接受作为列引用？

尝试 Spark SQL 的示例它们似乎工作得很好除非需要表达式 scala gt val teenagers people where age gt 10 where age lt 19 select name
Java 库运行时与编译时

当使用 Tomcat 作为应用程序服务器设置 Java Web 应用程序时我经常对库何时可用感到困惑通过 Stack Overflow 上的一些讨论我了解到一些库 jar 文件在运行时可用而另一些则在编译时可用我经常会遇到错误并
UITableView选择的indexpath值给出错误

Team 我有 UITableView 其中有 50 个以上的单元格数每个单元格的宽度为 60 当我滚动到 20 个单元格时然后点击任何单元格它给出了单元格值之上的索引路径值而不是单击单元格值内部 CellForRowAtInde
启用包还原时如何指定 nuget 包的位置？

我正在开发 net 解决方案并使用 nuget 进行包管理我选择了启用 Nuget 包还原选项以便 nuget 包不会签入源代码管理在此之前我有一个与解决方案处于同一级别的 nuget config 文件其中我包含以下内容使
在Silverlight中，如何知道代码是否在UI线程中运行？

基本上我需要知道是否需要 Dispatcher BeginInvoke 或者是否不需要 Thanks 您可以使用Dispatcher CheckAccess http msdn microsoft com en us library sys
useEffect 运行后测试更改后的状态

我使用 ReactJs jest 和 React 测试库我有这个代码 const App data gt const state setState useState after useEffect runs state should be
git 重新连接到远程存储库

我犯了一个巨大的错误导致我的项目的本地版本不再与其曾经关联的远程存储库连接是否有一些技巧可以重新建立连接关联而不破坏代码的本地版本你试过了吗 git remote add track master origin url to git
Linux 下双显示器设置上的 SDL 假全屏模式

使用SDL 1 3我想在linux下创建假全屏SDL Window 如果我只有一台显示器这很容易我刚刚获得当前显示模式并创建了一个窗口 SDL GetDesktopDisplayMode 0 mode SDL Window win SD
Java 有 uudecoding 的标准机制吗？

我正在编写一个 Java 程序来从 POP3 电子邮件下载附件最初如果内容类型经过验证我会通过获取 MimePart 的输入流来实现此目的然后我可以简单地通过 FileOutputStream 将输入流写入本地文件然而我遇到的一
使用 JSTL 循环遍历 Map [重复]

这个问题在这里已经有答案了我正在寻找 JSTL 循环Map
如何在 Firebase 中按应用版本阻止用户

我有一个 Android 应用程序它使用 Firebase 作为一般聊天室用户输入昵称并开始聊天实施没有问题我的应用程序运行良好但问题在于数据使用由于实施错误数据使用率过高在应用程序版本 14 中我正在获取聊天室中的所有数
如果双引号字符串以转义反斜杠结尾，则词法分析器规则会保持匹配字符，就好像它们是带引号字符串的一部分一样

如果双引号字符串以转义的反斜杠结尾则词法分析器规则会变得贪婪并保持匹配字符就好像它们是带引号的字符串的一部分一样然后词法分析器认为实际开始下一个带引号的字符串的双引号正在结束第一个字符串并在后面的字符上给出语法错误我们需要调整词法
检查用户是否更改了 Android 中的生物识别/指纹

我正在寻找一种在用户更改指纹时收到通知的方法我看到了这个答案here https stackoverflow com questions 44515668 android fingerprint detect new finger add
包括实体框架 TPH 类的导航属性

我有一个 EF 层次结构大大简化如下所示 class Room EntityCollection
无锁队列实现最终会在压力下产生循环

我有用 C 语言编写的无锁队列其形式为链表其中包含来自多个线程的请求这些请求发布到单个线程并在单个线程中处理经过几个小时的压力后我最终让最后一个请求的下一个指针指向自身这创建了一个无限循环并锁定了处理线程该应用程序在 Linu
如何让 rmagick 在带有 Rails 3.1 和 Carrierwave 的 Windows 7 64 位上工作？

我无法让 rmagick 在 Windows 上工作有谁知道如何让它正常工作更好的是希望以一种与生产环境兼容的方式尽管我会尽我所能 C gt gem install rmagick platform ruby with opt li
为什么Eclipse无法写入资源

Eclipse 无法签署我的应用程序但旧版本工作正常它只是在下面显示警告这是 juno 版本中的错误吗无法写入资源 META INF MANIFEST MF 重复的 zip 条目 ARMPlugin jar META INF MAN
CAS 冲突的 CPU 内部特征是什么？

我正在尝试了解 x86 x64 上 CAS 的低级机制我非常感谢一些帮助见解我一直在思考这个问题的原因是我试图推理指数退避并原则上找出正确的退避延迟单位应该是什么如果我查看无锁空闲列表基准测试没有指数退避我会发现随着线程数量的

CAS 冲突的 CPU 内部特征是什么？

CAS 冲突的 CPU 内部特征是什么？ 的相关文章

随机推荐

热门标签

CAS 冲突的 CPU 内部特征是什么？的相关文章