x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

2023-12-04

以下代码在为 xeon phi 编译时会抛出异常Error: cmovc is not supported on k1om.

但它确实可以为常规至强处理器正确编译。

#include<stdio.h>
int main()
{
    int in=5;
    int bit=1;
    int x=0, y=1;
    int& inRef = in;
    printf("in=%d\n",in);
    asm("lock bts %2,%0\ncmovc %3,%1" : "+m" (inRef), "+r"(y) : "r" (bit), "r"(x));
    printf("in=%d\n",in);
}

编译器-icc (ICC) 13.1.0 20130121

相关问题：对 tbb 原子变量进行位测试和设置 (BTS)

IIRC，第一代 Xeon Phi 基于 P5 内核（Pentium 和 Pentium MMX）。cmov直到 P6（又名 Pentium Pro）才推出。所以我认为这是正常的。

只需让编译器通过编写普通的三元运算符来完成其工作即可。

Second, cmov是一个比这更糟糕的选择setc，因为您想根据进位标志生成 0 或 1。请参阅下面我的 asm 代码。

另请注意bts使用内存操作数是非常慢的，所以你不希望它生成该代码，尤其是。在将 x86 指令解码为 uop 的 CPU 上（如现代 Xeon）。根据http://agner.org/optimize/, bts m, r比bts m, i即使在 P5 上，也不要这样做。

只需询问编译器即可in要在寄存器中，或者更好的是，不要为此使用内联汇编。

由于 OP 显然希望它能够自动工作，所以最好的解决方案是使用 C++11std::atomic::fetch_or，并将其留给编译器来生成lock bts.

std::atomic_flag has a test_and_set功能，但不知道是否有办法将它们紧密地包装在一起。也许作为结构中的位域？不过不太可能。我也没有看到原子操作std::bitset.

不幸的是，当前版本的 gcc 和 clang 不会生成lock bts from fetch_or，即使可以使用更快的立即操作数形式。我想出了以下内容（神螺栓链接):

#include <atomic>
#include <stdio.h>

// wastes instructions when the return value isn't used.
// gcc 6.0 has syntax for using flags as output operands

// IDK if lock BTS is better than lock cmpxchg.
// However, gcc doesn't use lock BTS even with -Os
int atomic_bts_asm(std::atomic<unsigned> *x, int bit) {
  int retval = 0;  // the compiler still provides a zeroed reg as input even if retval isn't used after the asm :/
  // Letting the compiler do the xor means we can use a m constraint, in case this is inlined where we're storing to already zeroed memory
  // It unfortunately doesn't help for overwriting a value that's already known to be 0 or 1.
  asm( // "xor      %[rv], %[rv]\n\t"
       "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"  // hope that the compiler zeroed with xor to avoid a partial-register stall
        : [x] "+m" (*x), [rv] "+rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}

// save an insn when retval isn't used, but still doesn't avoid the setc
// leads to the less-efficient setc/ movzbl sequence when the result is needed :/
int atomic_bts_asm2(std::atomic<unsigned> *x, int bit) {
  uint8_t retval;
  asm( "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"
        : [x] "+m" (*x), [rv] "=rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}


int atomic_bts(std::atomic<unsigned> *x, unsigned int bit) {
  // bit &= 31; // stops gcc from using shlx?
  unsigned bitmask = 1<<bit;
  //int oldval = x->fetch_or(bitmask, std::memory_order_relaxed);

  int oldval = x->fetch_or(bitmask, std::memory_order_acq_rel);
  // acquire and release semantics are free on x86
  // Also, any atomic rmw needs a lock prefix, which is a full memory barrier (seq_cst) anyway.

  if (oldval & bitmask)
    return 1;
  else
    return 0;
}

正如中所讨论的在 x86 汇编中将寄存器设置为零的最佳方法是什么：xor、mov 或 and？, xor/设置标志/setc当需要结果为 0 或 1 值时，这是所有现代 CPU 的最佳序列。我实际上还没有考虑过 P5，但是setccP5 速度很快，所以应该没问题。

当然，如果你想对此进行分支而不是存储它，那么内联汇编和 C 之间的边界是一个障碍。花费两条指令来存储 0 或 1，只是为了对其进行测试/分支，这是非常愚蠢的。

如果可以的话，gcc6 的标志操作数语法当然值得研究。（如果您需要一个针对 Intel MIC 的编译器，则可能不需要。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？的相关文章

如何使用 LOCK ASM 前缀来读取值？

我知道如何使用 LOCK 来线程安全地递增一个值 lock inc J 但是如何以线程安全的方式读取 J 或任何值 LOCK 前缀不能与 mov 一起使用如果我执行以下操作 xor eax eax lock add eax J mov J
将 C 函数与 ARM 汇编结合使用

我见过人们在代码中使用 C 库中的 printf 的示例如下所示 data balign 4 hello asciz Hello n text global main func main main ldr r0 hello msg bl
编写一个新的 jit

我有兴趣用 C 启动我自己的 JIT 项目我对汇编或编译器设计等并不熟悉但是我对生成的机器代码格式非常不熟悉比如当一切都说了和完成后 mov 指令实际上是什么样子是时候调用它了函数指针那么创建这样的东西的最佳资源是什么编辑
为什么 NASM 在使用有效的指令助记符作为操作数中的符号名称方面没有问题？

我编写了以下简单程序但 nasm 拒绝编译它 section text global start start mov rax 0x01 mov rdi 0x01 mov rsi str mov rdx 0x03 syscall mov r
编译器在函数名称前添加下划线前缀的原因是什么？

当我看到 C 应用程序的汇编代码时如下所示 emacs hello c clang S O hello c o hello s cat hello s 函数名称以下划线作为前缀例如callq printf 为什么这样做以及它有什么优点
MAC-1 汇编递归

如何在 MAC 1 汇编器中调用递归函数在 C 中你会做类似的事情 int func int num if num 0 return 1 return num func num 1 我知道如何使用调用函数 CALL 以及如何将参数加载到堆
如何创建一个扩展为“(x+y*240)*2”这样的表达式的 GNU GAS 宏？

我正在使用 GAS 为 ARM Linux 构建一个程序但我想做一些宏以使我的开发更加智能然后我想知道我怎样才能为此做一个宏 x y 240 2 were x and y are int 将像这样使用 mov r0 MACRO SHO
为什么每次在 GDB 中构建和反汇编函数时都会得到相同的地址？

每次反汇编函数时为什么总是得到相同的指令地址和常量地址例如执行以下命令后 gcc o hello hello c ggdb gdb hello gdb disassemble main 转储代码将是当我退出 gdb 并重新反汇编 m
int 13h 42h 不会在 Bochs 中加载任何内容

我将引导加载程序从 CHS 更改为 LBA 因此我更换了int 13h 02h with int 13h 42h 它在 QEMU 中工作正常但是我在 Bochs 和我的笔记本电脑上运行它时遇到问题我将引导加载程序写入 USB 闪存驱动
段错误...关于你好世界

这段代码非常简单但我在 x86 64 Linux 系统上遇到了段错误这让我很烦恼刚开始接触asm 请耐心等待与 NASM 组装nasm f elf64 test asm 与连接ld o test test o SECTION tex
当我尝试在 Armv8 程序集中分配数组时，执行冻结

所以我正在用汇编语言进行编程这只是一个简单的代码这样我就可以学习如何分配数组以便稍后在 NEON 编程中使用它们 ASM FUNC FPE data balign 8 array skip 80 array1 word 10 20 3
与 SSE 比较 16 字节字符串

我有 16 字节的字符串它们可能更短但您可能会假设它们在末尾用零填充但您可能不会假设它们是 16 字节对齐的至少不总是如何编写一个例程将它们与 SSE 内在函数进行比较是否相等我发现这个代码片段可能会有帮助但我不确定它是否
Mac OS X 上的 64 位程序集运行时错误：“dyld：无可写段”和“Trace/BPT trap”

当尝试运行以下汇编程序时 globl start start pushq 0x0 movq 0x1 rax subq 0x8 rsp int 0x80 我收到以下错误 dyld no writable segment Trace BPT t
GCC 从 C++ 程序生成的汇编代码中的 .cfi 和 .LFE 是什么？

我有以下 C 代码 int factorial int n if n 0 return 1 return n factorial n 1 int main void factorial 5 return 0 当我使用 g S Factori
（nasm x86实模式）如何在引导加载的扇区中写入/读取字符串？

我正在使用 NASM 为 x86 实模式编写一个最小操作系统用于教育目的我想使用 512 字节引导扇区加载包含操作系统其余部分的更大扇区我已经成功创建了一个加载另一个扇区的引导扇区但我似乎无法在加载的扇区中写入读取字符串这是我的
为什么此 NASM 代码会打印我的环境变量？

本学期我刚刚完成计算机体系结构课程除其他外我们一直在涉足 MIPS 汇编并在 MARS 模拟器中运行它今天出于好奇我开始在我的 Ubuntu 机器上摆弄 NASM 基本上只是将教程中的内容拼凑起来并感受一下 NASM 与 MIP
如何使用 icc 覆盖 python 的 distutils gcc 链接器？

我能够从源代码在 Ubuntu 14 04 上成功构建 cython 如这个 SE 问题答案中所述使用 icc 从源代码编译 cython https stackoverflow com questions 37904377 can cy
Visual Studio：如何正确构建和指定 x64 和 x86 的配置和平台

使用 Visual Studio 2012 Professional 和 Ultimate 以及所有最新更新如何正确指定配置和平台以正确构建 x86 和 x64 当您第一次创建 Winforms 应用程序时 Visual Studio 会
__stack_chk_fail_local 和 -fno-stack-protector - 如何让它工作？

Update 我刚刚发现问题出在我的项目 libxml2 中包含的预构建库上它是在启用堆栈保护的情况下构建的因此依赖于 stack chk fail local方法我现在已经重建了该库 fno stack protector也是一切
在汇编中使用 printf 会导致管道传输时输出为空，但可以在终端上使用

无输出 https stackoverflow com questions 54507957 printf call from assembly do not print to stdout即使在终端上当输出不包含换行符时也有相同的原因

随机推荐

为什么“linq to sql classes”在创建类时会更改表的名称？

我进入并在 Visual Studio 中添加一个新的 linq to sql 类然后将一个表从数据库资源管理器拖到新的 DBML 中新类的名称不再是复数如果我仍然希望它是复数怎么办如果我拖动一个不是复数的表我会收到一堆编译错误
XML 到 JSON 还是数组？ PHP

我在想如果我可以通过 func 运行 XML 来验证它针对模式然后将 XML 转换为 json 以便于对象访问那么它可能能够使用和处理 XML 数据如何轻松地将 XML 转换为 JSON json json encode simp
类型“void”上不存在属性“then”

我应该如何处理 Typescript 错误 Property then does not exist on type void 我的代码如下所示 import Component from angular core import Socia
C# 一旦主线程睡眠，所有线程都停止

我有一个类运行生产者消费者模型如下所示 public class SyncEvents public bool waiting public SyncEvents waiting true public class Producer p
hash() 随机化在密码学上是否被认为是强大的？

从CPython 3 3 默认情况下启用哈希随机化在以前的版本中可以通过指定来打开它 R命令行选项或通过设置PYTHONHASHSEED环境变量 to random 引用了文档默认情况下 hash str bytes 和 dateti
如何使 MVC POST 返回上一页？

我有以下操作该操作是从带有记录列表的屏幕调用的 HttpPost Authorize Roles admin public ActionResult Edit EditViewModel itemView 操作完成后我想返回调用该操作的
查找矩阵中最高值的行索引和列索引

矩阵中最大值的位置行和列可以通过以下方式找到 ma lt matrix 1 50 nrow 5 which ma max ma arr ind TRUE 如果我们不想要最大值的坐标而是 N 个最高值的坐标怎么办就像是 order ma
在 MVC5 中使用异步有什么优势？

有什么区别 public ActionResult Login LoginViewModel model string returnUrl if ModelState IsValid IdentityResult result Identi
Freebase RDF 转储的 Jena 解析问题（2014 年 1 月）

我正在尝试使用 Jena 解析 freebase 转储文件 freebase rdf 2014 01 12 00 00 gz 25 GB 耶拿报告了许多有关不良数据的问题示例 150 0 无效 true 和 false 值无效我通过在转
event.source 在模拟 onFormSubmit 事件中未定义

我有一个链接到谷歌表格的谷歌表单当我提交实际表单时会触发 onFormSubmit 并且我的日志显示 e source Spreadsheet 我还使用了此链接中的模拟 onFormSubmit 代码如何测试 GAS 中的触发功能调
在 Chrome 中禁用 Flash

我们的一个内部应用程序在页面上有一个 Flash 对象当浏览器中没有可用安装的 Flash 插件时我需要测试一种极端情况既不是内部 pepperflash 也不是系统范围的 adobe flash 播放器插件根据Chromium
查询列出所有存储过程

什么查询可以返回 SQL Server 数据库中所有存储过程的名称如果查询可以排除系统存储过程那就更有帮助了正如迈克所说最好的方法是使用information schema 只要不在主数据库中系统存储过程就不会被返回 SELECT
在 sns.lmplot() 中格式化 x 轴（日期）

我需要绘制每日数据sns lmplot 数据具有以下结构 df pd DataFrame columns date origin group value data 2001 01 01 Peter A 1 0 2011 01 01 Pete
如何使用关键字作为属性名称？

到目前为止我已经非常成功地将匿名类型序列化为 json 了 dynamic jsObject jsObject new ExpandoObject jsObject dataUrl Controller Url Action loadal
Swift - 将字典 [String:Any] 编码和解码到 plist 中

我试图将字典存储在我的 Marker 类中但它抛出一个错误指出它不可编码或可解码我可以看到错误是由 String Any 引起的但我该如何解决它 var buttonActions String String String Any
如何在 CakePHP 中正确重写模型的构造函数

我在 CakePHP 2 0 中测试模型时遇到了麻烦问题似乎出在模型的构造函数上 public function construct parent construct this gt pagi cuantos 2 即使我删除了它的所有内容
R代码生成具有特定颜色的美国各州地图

我正在尝试生成美国地图其中每个州都可以具有以下颜色之一 EScolors lt c 7aad42 4a77bb f7931e d3dfbd 787878 我创建了一个数据框 states info 以将每个状态与其颜色相匹配 head s
具有键“GenderID”的 ViewData 项的类型为“System.Int32”，但必须为“IEnumerable”类型

当我尝试提交发布数据时发生错误有人可以帮助我尝试每一篇文章但他们没有帮助我我是 mvc 新手任何帮助都会被授予这是我的代码 public ActionResult Create UserProfileCreateViewMode
将我的文本居中，但保持左对齐？

我试图使页面上的链接左对齐但在页面上居中我该怎么做呢我尝试了很多方法并在谷歌上搜索了更多我编码时间不长的方法这正在成为一场真正的斗争 My site 这是我的 HTML 代码 img src http media moddb com
x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

以下代码在为 xeon phi 编译时会抛出异常Error cmovc is not supported on k1om 但它确实可以为常规至强处理器正确编译 include

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？ 的相关文章

随机推荐

热门标签

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？的相关文章