OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

2024-04-18

我观察到我正在编写的 openmp 代码出现了意外的（对我来说！）行为。代码结构如下：

#pragma omp parallel for
for(int i=0;i<N;i++){ 
 // lots of calculations that produce 3 integers i1,i2,i3 and 3 doubles d1,d2,d3 
 #pragma omp atomic 
 J1[i1] += d1;
 #pragma omp atomic
 J2[i2] += d2; 
 #pragma omp atomic
 J3[i3] += d3; 
}

我编译了该代码的三个不同版本：

1) 使用 openmp (-fopenmp)

2）没有openmp

3）使用openmp，但没有3个原子操作（只是作为测试，因为原子操作是必要的）

当我使用环境变量 OMP_NUM_THREADS=1 运行版本 1) 时，我观察到版本 2) 的速度显着下降；而版本 3) 的运行速度与版本 2) 一样快。

我想知道这种行为的原因（为什么即使是单线程，原子操作也会减慢代码速度？！）以及是否可以以版本 1）运行速度一样快的方式编译/重写代码版本 2)。

我在问题末尾附上一个显示上述行为的工作示例。我编译了 1)：

g++ -fopenmp -o toy_code toy_code.cpp -std=c++11 -O3

2) with:

g++ -o toy_code_NO_OMP toy_code.cpp -std=c++11 -O3

3) 与：

g++ -fopenmp -o toy_code_NO_ATOMIC toy_code_NO_ATOMIC.cpp -std=c++11 -O3

编译器的版本是gcc版本5.3.1 20160519（Debian 5.3.1-20）。 3个版本的执行时间分别为：

1) 1 分 24 秒

2) 51 秒

3）51秒

预先感谢您的任何建议！

// toy_code.cpp 
#include <stdio.h>
#include <iostream>
#include <stdlib.h>
#include <cmath>
#include <omp.h>
#define Np 1000000
#define N 1000

int main (){
        double* Xp, *Yp, *J,*Jb;
        Xp = new double[Np];
        Yp = new double[Np];  
        J = new double [N*N];
        Jb = new double [N*N];

        for(int i=0;i<N*N;i++){
            J[i]=0.0;
            Jb[i]=0.0;
        }

        for(int i=0;i<Np;i++){
            Xp[i] = rand()*1.0/RAND_MAX - 0.5;
            Yp[i] = rand()*1.0/RAND_MAX - 0.5;
        }

        for(int n=0; n<2000; n++){
        #pragma omp parallel for
        for(int p=0;p<Np;p++){
            double rx = (Xp[p]+0.5)*(N-1);
            double ry = (Yp[p]+0.5)*(N-1);
            int xindex = (int)floor(rx+0.5);
            int yindex = (int)floor(ry+0.5);
            int k;
            k=xindex*N+yindex;

            #pragma omp atomic
            J[k]+=1;
            #pragma omp atomic
            Jb[k]+=1;
         }
         }

        delete[] Xp;
        delete[] Yp;
        delete[] J;
        delete[] Jb;

return 0;
}

如果启用 OpenMP，gcc 必须生成适用于仅在运行时已知的任意数量线程的不同代码。

在这种特殊情况下，看一下输出gcc -S（通过标签稍微缩短）。

没有 OpenMP：

.loc 1 38 0 discriminator 2  # Line 38 is J[k]+=1;
movsd   8(%rsp), %xmm1
cvttsd2si   %xmm0, %edx
cvttsd2si   %xmm1, %eax
movsd   .LC3(%rip), %xmm0
imull   $1000, %eax, %eax
addl    %edx, %eax
cltq
salq    $3, %rax
leaq    0(%r13,%rax), %rdx
.loc 1 40 0 discriminator 2   # Line 40 is Jb[k]+=1;
addq    %r12, %rax
.loc 1 29 0 discriminator 2
cmpq    $8000000, %r15
.loc 1 38 0 discriminator 2
addsd   (%rdx), %xmm0
movsd   %xmm0, (%rdx)
.loc 1 40 0 discriminator 2
movsd   .LC3(%rip), %xmm0
addsd   (%rax), %xmm0
movsd   %xmm0, (%rax)

循环展开使得这变得相当复杂。

With -fopenmp:

movsd   (%rsp), %xmm2
cvttsd2si   %xmm0, %eax
cvttsd2si   %xmm2, %ecx
imull   $1000, %ecx, %ecx
addl    %eax, %ecx
movslq  %ecx, %rcx
salq    $3, %rcx
movq    %rcx, %rsi
addq    16(%rbp), %rsi
movq    (%rsi), %rdx
movsd   8(%rsp), %xmm1
jmp .L4
movq    %rax, %rdx
movq    %rdx, (%rsp)
movq    %rdx, %rax
movsd   (%rsp), %xmm3
addsd   %xmm1, %xmm3
movq    %xmm3, %rdi
lock cmpxchgq   %rdi, (%rsi)
cmpq    %rax, %rdx
jne .L9
.loc 1 40 0
addq    24(%rbp), %rcx
movq    (%rcx), %rdx
jmp .L5
.p2align 4,,10
.p2align 3
movq    %rax, %rdx
movq    %rdx, (%rsp)
movq    %rdx, %rax
movsd   (%rsp), %xmm4
addsd   %xmm1, %xmm4
movq    %xmm4, %rsi
lock cmpxchgq   %rsi, (%rcx)
cmpq    %rax, %rdx
jne .L10
addq    $8, %r12
cmpq    %r12, %rbx
jne .L6

我不会尝试解释或理解这里发生的所有细节，但这对于消息来说不是必需的：编译器必须使用可能更昂贵的不同原子指令，尤其是lock cmpxchgq.

除了这个基本问题之外，OpenMP 可能会以任何可以想象的方式干扰优化器，例如干扰展开。我还看到了一个奇怪的案例，英特尔编译器实际上为 OpenMP 循环生成了更高效的串行代码。

附：认为自己很幸运——情况可能会更糟。如果编译器无法将原子指令映射到硬件指令，则必须使用锁，这会更慢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

openmp

atomic

pragma

singlethreaded

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题的相关文章

通过引用传递 [C++]、[Qt]

我写了这样的东西 class Storage public Storage QString key const int value const void add item QString int private QMap
机器Epsilon精度差异

我正在尝试计算 C 中双精度数和浮点数的机器 epsilon 值作为学校作业的一部分我在 Windows 7 64 位中使用 Cygwin 代码如下 include
如何在 C# 中打开 Internet Explorer 属性窗口

我正在开发一个 Windows 应用程序我必须向用户提供一种通过打开 IE 设置窗口来更改代理设置的方法 Google Chrome 使用相同的方法当您尝试更改 Chrome 中的代理设置时它将打开 Internet Explorer
如何在 C++ 中标记字符串？

Java有一个方便的分割方法 String str The quick brown fox String results str split 在 C 中是否有一种简单的方法可以做到这一点 The 增强分词器 http www boost o
无限循环与无限递归。两者都是未定义的吗？

无副作用的无限循环是未定义的行为看here https coliru stacked crooked com view id 24e0a58778f67cd4举个例子参考参数 https en cppreference com w cpp
C++ 多行字符串原始文字[重复]

这个问题在这里已经有答案了我们可以像这样定义一个多行字符串 const char text1 part 1 part 2 part 3 part 4 const char text2 part 1 part 2 part 3 part 4
C# 列表通用扩展方法与非通用扩展方法

这是一个简单的问题我希望集合类中有通用和非通用方法例如List
WcfSvcHost 的跨域异常

对于另一个跨域问题我深表歉意我一整天都在与这个问题作斗争现在已经到了沸腾的地步我有一个 Silverlight 应用程序项目 SLApp1 一个用于托管 Silverlight SLApp1 Web 的 Web 项目和 WCF 项目
结构体的内存大小不同？

为什么第一种情况不是12 测试环境最新版本的 gcc 和 clang 64 位 Linux struct desc int parts int nr sizeof desc Output 16 struct desc int parts
为什么这个字符串用AesCryptoServiceProvider第二次解密时不相等？

我在 C VS2012 NET 4 5 中的文本加密和解密方面遇到问题具体来说当我加密并随后解密字符串时输出与输入不同然而奇怪的是如果我复制加密的输出并将其硬编码为字符串文字解密就会起作用以下代码示例说明了该问题我究竟做错
为什么 C# 2.0 之后没有 ISO 或 ECMA 标准化？

我已经开始学习 C 并正在寻找标准规范但发现大于 2 0 的 C 版本并未由 ISO 或 ECMA 标准化或者是我从 Wikipedia 收集到的这有什么原因吗因为编写审查验证发布处理反馈修订重新发布等复杂的规范文档需要
LINQ：使用 INNER JOIN、Group 和 SUM

我正在尝试使用 LINQ 执行以下 SQL 最接近的是执行交叉联接和总和计算我知道必须有更好的方法来编写它所以我向堆栈团队寻求帮助 SELECT T1 Column1 T1 Column2 SUM T3 Column1 AS Amoun
复制目录下所有文件

如何将一个目录中的所有内容复制到另一个目录而不循环遍历每个文件你不能两者都不Directory http msdn microsoft com en us library system io directory aspx nor Dir
如何实例化 ODataQueryOptions

我有一个工作简化 ODataController用下面的方法 public class MyTypeController ODataController HttpGet EnableQuery ODataRoute myTypes pub
C 函数 time() 如何处理秒的小数部分？

The time 函数将返回自 1970 年以来的秒数我想知道它如何对返回的秒数进行舍入例如对于100 4s 它会返回100还是101 有明确的定义吗 ISO C标准没有说太多它只说time 回报该实现对当前日历时间的最佳近似结
编译时展开 for 循环内的模板参数？

维基百科 here http en wikipedia org wiki Template metaprogramming Compile time code optimization 给出了 for 循环的编译时展开我想知道我们是否可以
使用特定参数从 SQL 数据库填充组合框

我在使用参数从 sql server 获取特定值时遇到问题任何人都可以解释一下为什么它在 winfom 上工作但在 wpf 上不起作用以及我如何修复它我的代码 private void UpdateItems COMBOBOX1 Ite
对于某些 PDF 文件，LoadIFilter() 返回 -2147467259

我正在尝试使用 Adob e IFilter 搜索 PDF 文件我的代码是用 C 编写的我使用 p invoke 来获取 IFilter 的实例 DllImport query dll SetLastError true CharSet
指针和内存范围

我已经用 C 语言编程有一段时间了但对 C 语言还是很陌生有时我对 C 处理内存的方式感到困惑考虑以下有效的 C 代码片段 const char string void where is this pointer variable l
Mono 应用程序在非阻塞套接字发送时冻结

我在 debian 9 上的 mono 下运行一个服务器应用程序大约有 1000 2000 个客户端连接并且应用程序经常冻结 CPU 使用率达到 100 我执行 kill QUIT pid 来获取线程堆栈转储但它总是卡在这个位置

随机推荐

创建自定义表格表示的函数

我使用下面的代码来概述我的部分数据从以下代码中创建函数的最佳方法是什么它将采用 dataList 以及一些图形选项例如颜色作为参数并返回自定义的表格表示形式如下所示 overviewtheData Text Grid Map R
Symfony 2 FOS 用户捆绑包 Bootstrap 模式 AJAX 登录

有没有人已经使用 Symfony 2 和 FOS User Bundle 在 Bootstrap 模式中构建了登录表单这是我现在所拥有的 src Webibli UserBundle Resources config service ym
使用 PHP 生成 Windows .lnk 文件

我正在开发一个项目其中涉及运行 ProFTPd 的 FTP 服务器和为用户创建帐户的 PHP MySQL 后端创建帐户后系统会向用户发送电子邮件其中包含其帐户详细信息以及下载 FileZilla 或 Cyber Duck 的说明具
Publish 不是改造 web.config 吗？

我制造了一个web config 完整文件 http pastebin com rYreaVyP 它不显示 XML 错误
如何从 HttpInputStream 获取 docx 文件的字节数组？

我正在使用这篇文章第一个答案中的方法如何从 HttpPostedFile 创建字节数组 https stackoverflow com questions 359894 how to create byte array from http
如何写入 stdIn (JAVA) [重复]

这个问题在这里已经有答案了我想通过使用一些输入例如 join 8 对我的 P2P 系统进行一些测试 8 是节点号对于我的系统命令 join 8 是从标准输入读取的但我不想将其键入数百次以进行数百次测试因此我编写了一个测试函数来随
HTML5 视频 - 在特定时间开始视频并播放 x 时间

我正在尝试创建在特定时间点启动本地视频并播放特定持续时间的按钮我已经让它在某个时刻播放但不知道如何让它只播放一定的持续时间这是代码 HTML
C++ 中的叉积

给定以下Python 来自http norvig com sudoku html http norvig com sudoku html def cross A B Cross product of elements in A and el
使用 Terraform（工作区、模块？）配置客户帐户最佳实践？

我需要在 AWS 中创建和管理多个客户环境并且希望利用 Terraform 来部署所有必要的资源每个客户环境基本相同只是用于访问其中一台服务器的 URL 不同我已经整理了一个 Terraform 配置可以为给定客户部署所有资源但
来自本地运行的 docker 容器内的 Azure 托管身份

我正在运行一个由 asp net core 2 2 api 组成的 docker 容器此 api 需要访问 Azure 密钥保管库并且我已使用在密钥保管库上具有正确访问策略的用户登录 Visual Studio 以检索机密但是当我使
为什么 JDBC 是动态加载而不是导入？ [复制]

这个问题在这里已经有答案了在 JDBC 中我只看到使用的示例 Class forName com mysql jdbc Driver true cl 还没有看到有人使用 import com mysql jdbc Driver 是不是因
从 MySQL 数据库中选择随机问题； “正确答案”搞砸了

我正在使用 PHP 和 MYSQL 构建一个简单的测验程序测验旨在一次显示一个问题问题为多项选择题每个问题有 4 个可能的答案如果玩家选择正确他将进入下一个问题如果他选错了测验就会结束首先我设计的测验如下 1 创建一个数据
如何使用 Spring 表达式语言将不带构造函数的对象添加到列表中

我想添加一个BigDecimal使用 Spring 表达式语言的列表 public class SpelTest public List
检查 iterable 的所有值是否为零

有没有一种好的简洁内置的方法来查看可迭代中的所有值是否为零现在我正在使用all 有一点列表理解但是对我来说似乎应该有一种更具表现力的方法我认为这在某种程度上相当于memcmp in C values 0 0 0 0 0 Tes
使用 bash、Azure CLI 和 REST API 访问 CosmosDB - 如何正确获取令牌和哈希？

我的最终目标是使用 bash 和 Azure CLI 将文档上传到现有的 CosmosDB SQL 实例问题是 Azure CLI 确实如此不提供修改文档的命令 https learn microsoft com en us cli az
Spring MVC application.properties 不会被配置文件 application-dev.properties 覆盖

我正在寻找一种根据 JVM 环境变量配置不同 application properties 文件的方法我在 Spring 参考资料中找到了这个文档除了 application properties 文件之外还可以使用命名约定 appl
C# 中的异常有多昂贵？

C 中的异常有多昂贵只要堆栈不深它们似乎并不会非常昂贵然而我读到了相互矛盾的报道有没有没有被反驳的明确报告读到异常在性能方面代价高昂后我编写了一个简单的测量程序与该程序非常相似乔恩斯基特多年前发表 https web ar
如何从 OsStr 和 str 组件构建 URL？

此代码遍历文件夹并查找以以下结尾的文件 txt 接下来我想采取entry file name 这是属于std ffi os str OsStr输入并将其加入BASE URL来形成一个 URL const FOLDER NAME str
更改文件名后缀（使用 sed ？）

我想改变文件名后缀来自文件使用 bash 脚本但有时有些文件带有一个句点有些文件带有两个句点现在我用这个 new file echo file sed s log suf 1 num 其中 new file 是新文件名 file 是
OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

我观察到我正在编写的 openmp 代码出现了意外的对我来说行为代码结构如下 pragma omp parallel for for int i 0 i

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题 的相关文章

随机推荐

热门标签

OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题的相关文章