在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站

2023-12-01

UPDATE

我有一个大学项目，我应该在其中使用 RP 建立一个集群。现在我们有了一个功能齐全的系统，并且启用了 BLCR/MPICH。 BLCR 与与该库链接的正常进程配合得很好。我们必须通过管理 Web 界面展示的演示包括：

并行执行作业
跨节点的进程迁移
MPI 容错

我们可以使用最简单的计算。第一个我们很容易得到，也有 MPI。第二点实际上我们只能处理普通进程（没有 MPI）。关于第三点，我不太清楚如何实现主从MPI方案，在该方案中我可以重新启动从属进程，这也影响第二点，因为我们应该/可以/必须对从属进程进行检查点，杀死/停止并在另一个节点上重新启动它。我知道我必须自己处理 MPI_Errors 但如何恢复该过程？如果有人至少可以给我发布一个链接或论文（带有解释），那就太好了。

提前致谢

UPDATE:正如前面所写，我们的 BLCR+MPICH 东西有效或似乎有效。但是...当我启动 MPI 进程时，检查点似乎运行良好。

证明如下：

... snip ...
Benchmarking: dynamic_5: md5($s.$p.$s) [32/32 128x1 (MD5_Body)]... DONE
Many salts: 767744 c/s real, 767744 c/s virtual
Only one salt:  560896 c/s real, 560896 c/s virtual

Benchmarking: dynamic_5: md5($s.$p.$s) [32/32 128x1 (MD5_Body)]... [proxy:0:0@node2] requesting checkpoint
[proxy:0:0@node2] checkpoint completed
[proxy:0:1@node1] requesting checkpoint
[proxy:0:1@node1] checkpoint completed
[proxy:0:2@node3] requesting checkpoint
[proxy:0:2@node3] checkpoint completed
... snip ...

如果我在任何节点上杀死一个从进程，我会在这里得到：

... snip ...
===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   EXIT CODE: 9
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
... snip ...

没关系，因为我们有一个检查点，所以我们可以重新启动我们的应用程序。但它不起作用：

pi        7380  0.0  0.2   2984  1012 pts/4    S+   16:38   0:00 mpiexec -ckpointlib blcr -ckpoint-prefix /tmp -ckpoint-num 0 -f /tmp/machinefile -n 3
pi        7381  0.1  0.5   5712  2464 ?        Ss   16:38   0:00 /usr/bin/ssh -x 192.168.42.101 "/usr/local/bin/mpich/bin/hydra_pmi_proxy" --control-port masterpi:47698 --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id 0
pi        7382  0.1  0.5   5712  2464 ?        Ss   16:38   0:00 /usr/bin/ssh -x 192.168.42.102 "/usr/local/bin/mpich/bin/hydra_pmi_proxy" --control-port masterpi:47698 --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id 1
pi        7383  0.1  0.5   5712  2464 ?        Ss   16:38   0:00 /usr/bin/ssh -x 192.168.42.105 "/usr/local/bin/mpich/bin/hydra_pmi_proxy" --control-port masterpi:47698 --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id 2
pi        7438  0.0  0.1   3548   868 pts/1    S+   16:40   0:00 grep --color=auto mpi

我不知道为什么，但第一次在每个节点上重新启动应用程序时，进程似乎都重新启动了（我通过使用得到它top or 辅助 | grep “约翰”但没有显示到管理（或管理控制台/终端）的输出。它在向我展示后就挂断了：

mpiexec -ckpointlib blcr -ckpoint-prefix /tmp -ckpoint-num 0 -f /tmp/machinefile -n 3
Warning: Permanently added '192.168.42.102' (ECDSA) to the list of known hosts.
Warning: Permanently added '192.168.42.101' (ECDSA) to the list of known hosts.
Warning: Permanently added '192.168.42.105' (ECDSA) to the list of known hosts.

我的 B 计划只是用自己的应用程序测试 BLCR/MPICH 的东西是否真的有效。也许约翰有一些麻烦。

提前致谢

UPDATE

** 下一个问题是简单的 hello world。我慢慢地绝望了。也许是我太迷茫了。

mpiexec -ckpointlib blcr -ckpoint-prefix /tmp/ -ckpoint-interval 3 -f /tmp/machinefile -n 4 ./hello
Warning: Permanently added '192.168.42.102' (ECDSA) to the list of known hosts.
Warning: Permanently added '192.168.42.105' (ECDSA) to the list of known hosts.
Warning: Permanently added '192.168.42.101' (ECDSA) to the list of known hosts.
[proxy:0:0@node2] requesting checkpoint
[proxy:0:0@node2] checkpoint completed
[proxy:0:1@node1] requesting checkpoint
[proxy:0:1@node1] checkpoint completed
[proxy:0:2@node3] requesting checkpoint
[proxy:0:2@node3] checkpoint completed
[proxy:0:0@node2] requesting checkpoint
[proxy:0:0@node2] HYDT_ckpoint_checkpoint (./tools/ckpoint/ckpoint.c:111): Previous checkpoint has not completed.[proxy:0:0@node2] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:905): checkpoint suspend failed
[proxy:0:0@node2] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status
[proxy:0:0@node2] main (./pm/pmiserv/pmip.c:206): demux engine error waiting for event
[proxy:0:1@node1] requesting checkpoint
[proxy:0:1@node1] HYDT_ckpoint_checkpoint (./tools/ckpoint/ckpoint.c:111): Previous checkpoint has not completed.[proxy:0:1@node1] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:905): checkpoint suspend failed
[proxy:0:1@node1] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status
[proxy:0:1@node1] main (./pm/pmiserv/pmip.c:206): demux engine error waiting for event
[proxy:0:2@node3] requesting checkpoint
[proxy:0:2@node3] HYDT_ckpoint_checkpoint (./tools/ckpoint/ckpoint.c:111): Previous checkpoint has not completed.[proxy:0:2@node3] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:905): checkpoint suspend failed
[proxy:0:2@node3] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status
[proxy:0:2@node3] main (./pm/pmiserv/pmip.c:206): demux engine error waiting for event
[mpiexec@masterpi] control_cb (./pm/pmiserv/pmiserv_cb.c:202): assert (!closed) failed
[mpiexec@masterpi] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status
[mpiexec@masterpi] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:197): error waiting for event
[mpiexec@masterpi] main (./ui/mpich/mpiexec.c:331): process manager error waiting for completion

hello.c

/* C Example */
#include <stdio.h>
#include <mpi.h>


int main (argc, argv)
     int argc;
     char *argv[];
{
  int rank, size, i, j;
 char hostname[1024];
        hostname[1023] = '\0';
        gethostname(hostname, 1023);

  MPI_Init (&argc, &argv);      /* starts MPI */
  MPI_Comm_rank (MPI_COMM_WORLD, &rank);        /* get current process id */
  MPI_Comm_size (MPI_COMM_WORLD, &size);        /* get number of processes */
  i = 0;
  for(i ; i < 400000000; i++){
    for(j; j < 4000000; j++){
        }
  }
        printf("%s done...", hostname);
  printf("%s: %d is alive\n", hostname, getpid());
  MPI_Finalize();
  return 0;
}

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站的相关文章

ARM + gcc：不要使用一大块 .rodata 部分

我想使用 gcc 编译一个程序并针对 ARM 处理器进行链接时间优化当我在没有 LTO 的情况下编译时系统会被编译当我启用 LTO 时使用 flto 我收到以下汇编错误错误无效的文字常量池需要更近环顾网络我发现这与我系统
如何使用 Neon SIMD 将无符号字符转换为有符号整数

如何转换变量的数据类型uint8 t to int32 t使用霓虹灯我找不到执行此操作的任何内在因素假设您想要将 16 x 8 位整数的向量转换为 4 个 4 x 32 位整数的向量您可以通过首先解压缩为 16 位然后再次解压缩为
使用 libx264 为 Raspberry pi 编译 Xuggler 时的问题 #2

我正在尝试编译Xuggler http www xuggle com xuggler 对于 Raspberry Pi 在 Debian 操作系统上运行又名 Raspbian 我遵循了可用的基本构建说明 here http www xug
如何删除树莓派的相机预览

我在我的 raspberryPi 上安装了 SimpleCv 并安装了用于使用相机板的驱动程序 uv4l 驱动程序现在我想使用它当我在 simpleCV shell Camera 0 getImage save foo jpg 上键入时
在 Raspberry Pi 上 - 登录后自动启动终端？

我现在正在做一个小项目我希望 python 脚本在登录 GUI 后自动运行我按照这里的步骤操作 https www raspberrypi org forums view https www raspberrypi org forums
没有名为“picamera”的模块

我关注了这个网站 https www pyimagesearch com 2015 03 30 accessing the raspberry pi camera with opencv and python https www pyima
STM32F4 板上的 SPI 从机设置

我正在尝试通过主从配置中的 SPI 在两个 STM32F4 发现板之间进行通信我已经有了主设备的代码但我对需要对从设备的 SPI 初始化进行的更改感到有点困惑我还想在主机发送数据时实现中断而不是让从机一直轮询 RXNE 寄存器但是
gdb 不会从外部架构读取核心文件

我正在尝试在 Linux 桌面上读取 ARM 核心文件但似乎无法找出我的核心文件有什么方法可以指示 gdb 我的核心文件是什么类型吗 file daemon daemon ELF 32 bit LSB executable ARM ve
使用 NEON 内在函数除以浮点数

我当时正在处理四个像素的图像这是在armv7对于 Android 应用程序我想分一个float32x4 t向量由另一个向量组成但其中的数字与大约不同0 7 to 3 85 在我看来除法的唯一方法是使用右移但这是针对一个数字2 n
opc ua客户端到服务器

我想知道是否可以将数据从 OPC UA 客户端发送到服务器我有一台设置了 OPC UA 服务器的 Windows 10 PC 和一些 Raspberry Pi 作为客户端我已经编写了 Python 代码来将数据从服务器发送到客户端现在
ARM Chromebook 上的 Android 开发环境？

我尝试了多次安装和使用安卓工作室 https developer android com studio index html on an ARM Chromebook C100P https archlinuxarm org platfor
iPhone 3GS 上的 ARM 与 Thumb 性能比较，非浮点代码

我想知道是否有人有关于 iPhone 3GS 上 ARM 与 Thumb 代码性能的硬性数据特别是对于非浮点 VFP 或 NEON 代码我知道 Thumb 模式下的浮点性能问题更大的 ARM 指令的额外代码大小是否会在某个时刻成为性能
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
架构armv7的重复符号

尝试在我现有的应用程序中使用 Layar SDK 时出现以下错误我该如何解决这个问题 Ld Users pnawale Library Developer Xcode DerivedData hub afxxzaqisdfliwbzxbi
arm64和armhf有什么区别？

Raspberry Pi Type 3 具有 64 位 CPU 但其架构不是arm64 but armhf 有什么区别arm64 and armhf armhf代表 arm hard float 是给定的名称Debian 端口 https
ARM NEON 矢量化失败

我想在 ARM cortex a9 上启用 NEON 矢量化但在编译时得到以下输出未矢量化不支持相关 stmt D 14140 82 D 14143 77 D 14141 81 这是我的循环 void my mul float32 t
如何在WinMobile6上启用ARMv6非对齐访问？

ARMv6 引入了一个很棒的功能未对齐的内存访问这使得代码中的某些事情变得更加简单和更快但微软只在winCE6中提供了API 现在大多数 PDA 都基于 WinMobile6 基于 CE 5 x 默认情况下禁用未对齐访问我尝试在 C
“gi.repository.Gtk”对象没有属性“gdk”

我正在尝试使用 GTK 创建多线程需要 Gtk gdk 但我收到有关没有 gdk 属性的错误我正在使用带有 Raspbian 的 Raspberry Pi 这就是我导入 GTK 库的方式 try import pygtk pygtk r
上下文切换到安全模式（arm trustzone）的成本是多少

我试图了解在arm中可信安全和非安全模式之间来回切换的成本从非安全世界转移到安全世界时到底需要发生什么我知道需要设置 ns 位基于某些特殊指令需要刷新和更新页表刷新和更新处理器缓存还有什么需要发生的吗处理器缓存它们是分段
A64 Neon SIMD - 256 位比较

我想将两个小端 256 位值与 A64 Neon 指令 asm 进行有效比较平等为了平等我已经有了解决方案 bool eq256 const UInt256 lhs const UInt256 rhs bool result 首先将

随机推荐

具有自定义授权者和 CORS 的 AWS API Gateway 间歇性 200 然后 403 然后 200 ...奇怪

我有一个带有自定义授权者的 1 Amazon Api Gateway 设置授权者基本上只返回允许任何内容我启用了 CORS 这是从jQuery网页我有两个方法 vehicles 返回汽车列表 bookings 返回预订详细信息我看到
结果集中重复检索返回null

我有一个问题ResultSet getString当我第一次调用它时它返回值但第二次返回 null 这不会关闭结果集或 sql 连接 if rs getString i null properties setProperty metaD
我是否需要删除传递给 google protocol buffer (protobuf) 的对象？

我有简单的消息 message SmallValue int32 val 1 message Value int32 val1 1 int32 val2 2 SmallValue val3 3 message SendMessage int
从函数获取多个值，而无需在 LUA 中创建变量

有没有办法从函数中获取多个值而不为其创建变量 local major minor revision codename love getVersion Get current L VE version as a string 因此我们不会使
受保护成员范围

我正在为 SCJP 做准备我还知道受保护的成员范围位于包内以及其他包中并且具有某些条件例如只能通过继承来实现例如我有三个班级家长班孩子班朋友班 package x parent class Parentclass prote
python 2-D列表如何制作一组[重复]

这个问题在这里已经有答案了作为一个Python列表如下 list1 1 2 3 4 1 2 我想制作一套这样我就可以列出独特的项目例如 list2 1 2 3 4 python中有一些我可以使用的函数吗谢谢那会做 gt gt gt
是否有可能在 O(n) 时间内找到给定数组中的所有三元组？

给定一个数字数组找到满足给定条件的所有三元组健康状况 a i lt a j lt a k where I lt j lt k 有可能在O n 时间内解决这个问题吗这不是家庭作业输出的大小最坏情况是复杂性的下限由于可能存在 O
firebase-admin-node 会开始从 firestore 返回日期作为时间戳吗？

在我的团队中我们在 Angular 应用程序中使用由 firebase 函数提供支持的 firebase firestore 效果很好目前我们正在 Angular 应用程序中转换代码因为 firestore 现在将日期返回为时间戳
求索引矩阵Matlab

我对矩阵维数有疑问find功能对于每一行我试图找到与大于 20 的值相关的索引并将结果存储在另一个矩阵中例如 A 10 21 30 1 40 50 1 0 0 50 10 3 index 2 3 2 3 0 1 有什么建议么 Use
Python：如何从超类创建子类？

在Python中如何从超类创建子类 Initialize using Parent class MySubClass MySuperClass def init self MySuperClass init self 或者更好的是使用
JavaScript 将对象数组格式化为嵌套子对象

我有一个带有parentId 和排序值的对象数组我想将其放入带有嵌套子项的数组中并进行适当排序例如这是数据 id 1 sort 2 parentId null name A id 2 sort 1 parentId 1 name
访问函数作用域外的变量[重复]

这个问题在这里已经有答案了这是我想要完成的简化版本但我想在函数范围之外传递一个变量我在函数外部声明变量但无法获取它 HTML p 5 p p 6 p p 7 p JS document ready function var gsd p
元素 onkeydown keycode javascript

我使用此代码片段将 KeyDown 事件处理程序添加到 html 表单中的任何元素 for var i 0 i
访问 webpack AngularJS 项目中的 env 变量

我有一个 AngularJS 项目它使用 webpack 进行捆绑服务和构建不使用 Bower 或 gulp 等任务运行程序我希望能够为我将在本地与生产中使用的 REST API 端点等设置环境变量然后在我的实际 AngularJ
有没有办法将 Tkinter 与 Google Colaboratory 结合使用？

我有一个代码我正在尝试不同的 Tkinter 小部件但 Colab 发回一条错误指出没有显示名称或变量确切的错误消息如下所示 TclError Traceback most recent call last
SqlExceptionHelper：错误：函数计数（字符变化，整数）不存在

我有一个 spring 应用程序并且有一个具有以下语法的本机查询 select COUNT DISTINCT person id CASE WHEN salary person rating Satisfactory THEN 1 END
从外部 JavaScript 函数调用 React 组件的函数

我正在尝试从 JavaScript 函数调用 React 组件的函数在初始阶段我想调用在 React 组件中声明的函数但我需要从 JavaScript 函数调用它而不是从 React 调用它我知道如何从 React 函数调用 Ja
无法安装 IE 7 或 8 的 gwt 开发者插件

我想为 IE 安装 gwt 开发者插件我已经在 chrome 和 firefox 上安装了它没有任何问题当我想为 IE7 安装它时在带有 sp2 的 vista 和带有 sp2 的 windows server 2008 上它说插
如何用不同的类名包裹DIV标签？ [复制]

这个问题在这里已经有答案了复制如何将父元素添加到一组段落中我在文档中重复了以下 HTML 块 div class first My first div div div class second My second div div di
在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站

UPDATE 我有一个大学项目我应该在其中使用 RP 建立一个集群现在我们有了一个功能齐全的系统并且启用了 BLCR MPICH BLCR 与与该库链接的正常进程配合得很好我们必须通过管理 Web 界面展示的演示包括并行执行作业

在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站

UPDATE

在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站 的相关文章

随机推荐

热门标签

在 ARMv6 上失败之前的检查点之后重新启动 mpi 从站的相关文章