MPI_SEND 占用虚拟内存的很大一部分

2023-11-25

在大量内核上调试我的程序时，我遇到了非常奇怪的错误insufficient virtual memory。我的调查导致了代码的和平，主站向每个从站发送小消息。然后我写了一个小程序，其中 1 个 master 只需发送 10 个整数MPI_SEND所有奴隶都会收到它MPI_RECV。文件比较/proc/self/status之前和之后MPI_SEND结果表明，内存大小之间的差异是巨大的！最有趣的事情（这使我的程序崩溃）是，该内存在之后不会释放MPI_Send并且仍然占用巨大的空间。

有任何想法吗？

 System memory usage before MPI_Send, rank: 0
Name:   test_send_size                                                                                
State:  R (running)                                                                                  
Pid:    7825                                                                                           
Groups: 2840                                                                                        
VmPeak:   251400 kB                                                                                 
VmSize:   186628 kB                                                                                 
VmLck:        72 kB                                                                                  
VmHWM:      4068 kB                                                                                  
VmRSS:      4068 kB                                                                                  
VmData:    71076 kB                                                                                 
VmStk:        92 kB                                                                                  
VmExe:       604 kB                                                                                  
VmLib:      6588 kB                                                                                  
VmPTE:       148 kB                                                                                  
VmSwap:        0 kB                                                                                 
Threads:    3                                                                                          

 System memory usage after MPI_Send, rank 0
Name:   test_send_size                                                                                
State:  R (running)                                                                                  
Pid:    7825                                                                                           
Groups: 2840                                                                                        
VmPeak:   456880 kB                                                                                 
VmSize:   456872 kB                                                                                 
VmLck:    257884 kB                                                                                  
VmHWM:    274612 kB                                                                                  
VmRSS:    274612 kB                                                                                  
VmData:   341320 kB                                                                                 
VmStk:        92 kB                                                                                  
VmExe:       604 kB                                                                                  
VmLib:      6588 kB                                                                                  
VmPTE:       676 kB                                                                                  
VmSwap:        0 kB                                                                                 
Threads:    3

这是几乎所有在 InfiniBand 上运行的 MPI 实现的预期行为。 IB RDMA 机制要求数据缓冲区应该被注册，即它们首先被锁定到物理内存中的固定位置，然后驱动程序告诉 InfiniBand HCA 如何将虚拟地址映射到物理内存。它非常复杂，因此非常slow注册内存以供 IB HCA 使用的过程，这就是为什么大多数 MPI 实现从不取消注册曾经注册过的内存，以期以后再次将同一内存用作源或数据目标。如果注册的内存是堆内存，它永远不会返回到操作系统，这就是数据段大小只会增长的原因。

尽可能重用发送和接收缓冲区。请记住，通过 InfiniBand 进行通信会产生较高的内存开销。大多数人并没有真正考虑到这一点，而且通常记录很少，但是 InfiniBand 使用了许多特殊的数据结构（队列），这些数据结构分配在进程的内存中，并且这些队列随着进程数量的增加而显着增长。在某些完全连接的情况下，队列内存量可能非常大，以至于实际上没有为应用程序留下任何内存。

有一些参数可以控制英特尔 MPI 使用的 IB 队列。在你的情况下最重要的是I_MPI_DAPL_BUFFER_NUM它控制预分配和预注册的内存量。它的默认值是16，所以你可能想减少它。但请注意可能的性能影响。您还可以尝试通过设置使用动态预分配的缓冲区大小I_MPI_DAPL_BUFFER_ENLARGEMENT to 1。启用此选项后，英特尔 MPI 最初会注册小型缓冲区，并在需要时稍后扩大它们。另请注意，IMPI 会延迟打开连接，这就是为什么仅在调用后才看到已用内存大幅增加的原因MPI_Send.

如果不使用 DAPL 传输，例如使用ofa相反，您无能为力。您可以通过设置启用 XRC 队列I_MPI_OFA_USE_XRC to 1。这应该会以某种方式减少使用的内存。还可以通过设置启用动态队列对创建I_MPI_OFA_DYNAMIC_QPS to 1如果程序的通信图未完全连接（完全连接的程序是每个级别与所有其他级别通信的程序），可能会减少内存使用量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MPI_SEND 占用虚拟内存的很大一部分的相关文章

为什么 Linux 原始套接字的 RX 环大小限制为 4GB？

背景我试图mmap 我的原始套接字的 RX 环形缓冲区64 bitLinux 应用程序我的环由 4096 个块组成每个块大小为 1MB 总共 4GB 请注意每个 1MB 块中可以有许多帧如果您好奇请参阅此文档了解背景信息 htt
适用于 Linux 的轻量级 IDE [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
调用 printf 系统子例程在汇编代码中输出整数错误[重复]

这个问题在这里已经有答案了来回在windows7控制台窗口中运行gcc s2 asm 然后生成一个exe文件运行a exe 然后崩溃为什么 s2 asm 代码由以下源代码生成 int m m 1 iprint m s2 asm请参考
在 .gitconfig 中隐藏 GitHub 令牌

我想将所有点文件存储在 GitHub 上包括 gitconfig 这需要我将 GitHub 令牌隐藏在 gitconfig 中为此我有一个 gitconfig hidden token 文件这是我打算编辑并放在隐藏令牌的 git 下
在centos中安装sqlite3 dev和其他包

我正在尝试使用 cpanel 在 centos 机器上安装 sqlite dev 和其他库以便能够编译应用程序我对 debian 比 centos 更熟悉我知道我需要的库是 libsqlite3 dev libkrb5 dev lib
Linux 上的静态 Qt5 构建：部署时如何处理字体？

我使用这些配置选项创建了 Qt 5 2 0 库的静态版本 Ubuntu 12 04 开源确认许可 force pkg config 发布静止的前缀 home juzzlin qt5 无icu opengl桌面无油嘴滑舌辅助功能 n
执行“minikube start”命令时出现问题

malik malik minikube start minikube v1 12 0 on Ubuntu 18 04 Using the docker driver based on existing profile Starting c
如何阻止ubuntu在使用apt安装或更新软件包时弹出“Daemons using outdatedlibraries”？ [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我最近新安装了 Ubuntu 22 04 LTS 我发现每次使用 apt 安装或更新软件包时它都会询问我有关Which servic
无需超级用户即可在 Linux 中打开 RAW 套接字

我必须编写一个在 Linux 上运行的 ping 函数语言是 C 所以 C 也可以在网上搜索并查看源代码ping命令事实证明我应该创建一个原始套接字 icmp sock socket AF INET SOCK RAW IPPROTO
尽管 if 语句，Visual Studio 仍尝试包含 Linux 标头

我正在尝试创建一个强大的头文件无需更改即可在 Windows 和 Linux 上进行编译为此我的包含内容中有一个 if 语句如下所示 if defined WINDOWS include
CMake 链接 glfw3 lib 错误

我正在使用 CLion 并且正在使用 glfw3 库编写一个程序 http www glfw org docs latest http www glfw org docs latest 我安装并正确执行了库中的所有操作我有 a 和 h 文
使用包管理器时如何管理 Perl 模块？

A 最近的问题 https stackoverflow com questions 397817 unable to find perl modules in intrepid ibex ubuntu这让我开始思考在我尝试过的大多数 Li
Bash - 在与当前终端分开的另一个终端中启动命令的新实例

我有一个简单的 bash 脚本 test sh 设置如下 bin bash args if args 0 check capture then watch n 1 ls lag home user capture0 watch n 1 ls
与 pthread 的进程间互斥

我想使用一个互斥体它将用于同步对两个不同进程共享的内存中驻留的某些变量的访问我怎样才能做到这一点执行该操作的代码示例将非常感激以下示例演示了 Pthread 进程间互斥体的创建使用和销毁将示例推广到多个进程作为读者的练习 inc
配置tomat的server.xml文件并自动生成mod_jk.conf

我在用apache 2 2 15 and tomcat6 6 0 24 on CentOS 6 4并希望使用 tomcat 服务器的功能通过添加以下内容自动生成 mod jk conf 文件
如何在 *nix 中登录时运行脚本？

我知道我曾经知道如何做到这一点但是如何在 unix 中登录时运行脚本 bash 可以 From 维基百科 Bash http en wikipedia org wiki Bash 28Unix shell 29 当 Bash 启动时它
如何使用Android获取Linux内核的版本？

如何在 Android 应用程序中获取 Linux 内核的版本不是 100 确定但我认为调用 uname r 需要 root 访问权限无论如何有一种不太肮脏的方法可以做到这一点那就是 System getProperty os v
复制目录内容

我想将目录 tmp1 的内容复制到另一个目录 tmp2 tmp1 可能包含文件和其他目录我想使用C C 复制tmp1的内容包括模式如果 tmp1 包含目录树我想递归复制它们最简单的解决方案是什么我找到了一个解决方案来打开目录并读
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的

随机推荐

C# 拦截WebBrowser发出的请求

是否可以拦截所有的请求WebBrowser控制我想修改每个请求的请求URI 包括图像脚本样式表等的请求有一个活动叫导航2之前在发出任何请求之前调用您可以使用它来修改传出请求
无形状映射中的子类型多态性

我构建了以下内容 import shapeless import poly object Main def main args Array String object iterateOverHList extends List gt Ite
在未找到匹配项的 OPTIONAL MATCH 之后创建

我正在尝试编写一个查询如果另一个关系已经存在它将创建一些关系 START a node 1 b node 2 c node 3 OPTIONAL MATCH a r1 RELATIONSHIP optional1 OPTIONAL MA
判断CGPoint是否在图像区域内

我试图弄清楚 CGPoint 是否位于图像的形状内该图像是一个简单的黑色形状如下面所附的两个我想创建一个方法来确定 CGPoint 是否位于该形状的黑色区域内我认为这需要两件事 1 将图像变成可以用代码读取的东西不确定这将使用哪种
Flask 中的大文件上传

我正在尝试实现一个烧瓶应用程序来上传文件该文件可能非常大比如差不多2G大小我已经完成了服务器端处理功能如下所示 app route upload
Volley 服务器错误，网络响应为空

每次我尝试在 Volley 中使用 POST 方法时都会出现严重错误我在 getCause 中得到 null 值在 get Network Response toString 中得到一些默认值如果我使用 GET 方法效果很好我从
PUT POST 具有幂等性 (REST)

我不太明白 HTTP 动词是如何定义为幂等的我读到的只是 GET 和 PUT 是幂等的 POST 不是幂等的但是您可以使用 POST 创建一个不会更改任何内容例如在数据库中的 REST API 或者为 PUT 创建一个在每次调用时都
pandas 数据框，按值复制

我注意到我的程序中存在一个错误它发生的原因是因为 pandas 似乎是通过引用而不是通过值复制 pandas 数据框我知道不可变对象总是通过引用传递但 pandas 数据帧不是不可变的所以我不明白为什么它通过引用传递有人可以提供一
Inno Setup，[Run] 中的空格和双引号

我正在尝试在 Windows 上安排任务但不幸的是它不起作用任务已创建但不正确当我查看任务的参数时它说 PROGRAM C Program ARGUMENTS Files x86 AppName executable exe 我
C++11 中的命名空间问题？

有人可以解释一下以下内容吗 cat test cpp include
使用 LinkMovementMethod 时可以禁用 TextView 中的滚动吗？

我在 textView 中使用可点击范围来仅允许部分文本可点击它工作正常只是 textView 向下滚动这是我不想要的发生这种情况是因为我使用 LinkMovementMethod 在需要时滚动有没有办法取消滚动 Spannabl
使用 Javascript 播放 HTML5 视频 [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我该如何使用JavaScript播放 HTML5
作为“本地系统”运行 Windows 服务有哪些安全风险？

我编写了一个作为本地系统运行的 NET Windows 服务最近我读到作为本地系统运行可能会将系统凭据暴露给黑客使他们能够接管系统当我作为本地系统运行服务时涉及哪些风险以及如何预防这些风险服务运行为LocalSystem是系
kubernetes 部署-容器未启动-错误- InvalidImageName

以下是 Kubernetes 部署 yaml 文件 container图片部分 image https registry ng bluemix net test service test branch 67 imagePullPolicy
PHP basename() 和 pathinfo() 与多字节 UTF-8 文件名

我发现 PHP 函数 basename 以及 pathinfo 对于多字节 utf 8 名称有奇怪的行为它们删除所有非拉丁字符直到第一个拉丁字符或标点符号但是此后后续的非拉丁字符将被保留 basename x returns x
是否可以使用 MongoDB 作为嵌入式数据库？

正如标题所示我喜欢将 MongoDB 服务器嵌入到我自己的 C 应用程序中我在文档中没有找到这种模式我正在寻找类似 SQLite 或 Firebird 的嵌入式模式 MongoDB 也可以实现这一点吗无需自己编程目前还没有办法嵌入
为什么 json_decode 对于空数组返回 null？

为什么这会回显 NULL 在我看来它将被解码为一个空数组我明显缺少什么吗这是因为array NULL 在这种情况下它不检查对象类型 gettype null 返回 null 而 gettype array 返回数组希望你能明白其中
在 python 中保存和处理内存中的大字典的有效方法

正如我做了一些测试一个包含 3000 万个项目的 int gt int 不同值的 python 字典可以轻松地占用我的 mac 上 gt 2G 的内存由于我只使用 int 到 int dict 有没有比使用 python dict 更
VSCode 如何自动插入 Intellisense 建议而无需按 Enter？

默认 VS Code 智能感知行为向用户呈现建议菜单 User then has to press the Up or Down arrow keys to navigate through the menu Finally user h
MPI_SEND 占用虚拟内存的很大一部分

在大量内核上调试我的程序时我遇到了非常奇怪的错误insufficient virtual memory 我的调查导致了代码的和平主站向每个从站发送小消息然后我写了一个小程序其中 1 个 master 只需发送 10 个整数MPI S

MPI_SEND 占用虚拟内存的很大一部分

MPI_SEND 占用虚拟内存的很大一部分 的相关文章

随机推荐

热门标签

MPI_SEND 占用虚拟内存的很大一部分的相关文章