使用 PyTorch 分布式 NCCL 连接失败

2024-05-20

我正在尝试使用 torch.distributed 将 PyTorch 张量从一台机器发送到另一台机器。 dist.init_process_group 函数正常工作。但是，dist.broadcast 函数中出现连接失败。这是我在节点 0 上的代码：

import torch
from torch import distributed as dist
import numpy as np
import os

master_addr = '47.xxx.xxx.xx'
master_port = 10000
world_size = 2
rank = 0
backend = 'nccl'

os.environ['MASTER_ADDR'] = master_addr
os.environ['MASTER_PORT'] = str(master_port)
os.environ['WORLD_SIZE'] = str(world_size)
os.environ['RANK'] = str(rank)
dist.init_process_group(backend, init_method='tcp://47.xxx.xxx.xx:10000', timeout=datetime.timedelta(0, 10), rank=rank, world_size=world_size)
print("Finished initializing process group; backend: %s, rank: %d, "
"world_size: %d" % (backend, rank, world_size))

a = torch.from_numpy(np.random.rand(3, 3)).cuda()
dist.broadcast(tensor=a, src=0)

这是我在节点 1 上的代码：


import torch
from torch import distributed as dist
import numpy as np
import os

master_addr = '47.xxx.xxx.xx'
master_port = 10000
world_size = 2
rank = 1
backend = 'nccl'

os.environ['MASTER_ADDR'] = master_addr
os.environ['MASTER_PORT'] = str(master_port)
os.environ['WORLD_SIZE'] = str(world_size)
os.environ['RANK'] = str(rank)
dist.init_process_group(backend, init_method='tcp://47.xxx.xxx.xx:10000', timeout=datetime.timedelta(0, 10), rank=rank, world_size=world_size)
print("Finished initializing process group; backend: %s, rank: %d, "
"world_size: %d" % (backend, rank, world_size))

a = torch.zeros((3,3)).cuda()
dist.broadcast(tensor=a, src=0)

I set NCCL_DEBUG=INFO在运行代码之前。以下是我在节点 1 上获得的信息：


iZbp11ufz31riqnssil53cZ:13530:13530 [0] NCCL INFO Bootstrap : Using [0]eth0:192.168.0.181<0>
iZbp11ufz31riqnssil53cZ:13530:13530 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
iZbp11ufz31riqnssil53cZ:13530:13530 [0] NCCL INFO NET/IB : No device found.
iZbp11ufz31riqnssil53cZ:13530:13530 [0] NCCL INFO NET/Socket : Using [0]eth0:192.168.0.181<0>
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO Setting affinity for GPU 0 to ffff
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO Call to connect returned Connection timed out, retrying
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO Call to connect returned Connection timed out, retrying

iZbp11ufz31riqnssil53cZ:13530:13553 [0] include/socket.h:395 NCCL WARN Connect to 192.168.0.143<59811> failed : Connection timed out
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO bootstrap.cc:100 -> 2
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO bootstrap.cc:326 -> 2
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO init.cc:695 -> 2
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO init.cc:951 -> 2
iZbp11ufz31riqnssil53cZ:13530:13553 [0] NCCL INFO misc/group.cc:69 -> 2 [Async thread]
Traceback (most recent call last):
  File "test_dist_1.py", line 25, in <module>
    dist.broadcast(tensor=a, src=0)
  File "/root/anaconda3/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 806, in broadcast
    work = _default_pg.broadcast([tensor], opts)
RuntimeError: NCCL error in: /tmp/pip-req-build-58y_cjjl/torch/lib/c10d/ProcessGroupNCCL.cpp:290, unhandled system error

Node 0 似乎卡在函数 dist.broadcast 中：


iZuf6cu11ru7evq9ybagdjZ:13530:13530 [0] NCCL INFO Bootstrap : Using [0]eth0:192.168.0.143<0>
iZuf6cu11ru7evq9ybagdjZ:13530:13530 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
iZuf6cu11ru7evq9ybagdjZ:13530:13530 [0] NCCL INFO NET/IB : No device found.
iZuf6cu11ru7evq9ybagdjZ:13530:13530 [0] NCCL INFO NET/Socket : Using [0]eth0:192.168.0.143<0>
iZuf6cu11ru7evq9ybagdjZ:13530:13553 [0] NCCL INFO Setting affinity for GPU 0 to ffff

谁能帮我这个？如何将张量从节点 0 发送到节点 1？我真的很感激任何帮助！

unhandled system error意味着 NCCL 方面存在一些潜在错误。您应该首先重新运行您的代码NCCL_DEBUG=INFO（正如OP所做的那样）。然后从调试日志中找出错误是什么（尤其是日志中的警告）。

在OP的日志中，我认为这一行iZbp11ufz31riqnssil53cZ:13530:13553 [0] include/socket.h:395 NCCL WARN Connect to 192.168.0.143<59811> failed : Connection timed out是因为unhandled system error

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Pytorch

使用 PyTorch 分布式 NCCL 连接失败的相关文章

使用天蓝色错误“找不到资源”进行情绪分析

我创建了一个 python 程序它接受字符串作为输入并对其执行情感分析我已经按照文档中所述创建了环境变量并重新启动了 cmd 和 Visual Studio 但仍然出现以下错误遇到异常操作返回无效状态代码未找到资源 python
如何在 Python 中使用 .format() 打印“for”循环中的列表？

我是 Python 新手我正在编写一段非常简单的代码使用 for 循环打印列表的内容 format 我想要如下的输出但我收到此错误 names David Peter Michael John Bob for i in names p
如何关闭python服务器

使用此代码来运行 python 服务器 import os from http server import SimpleHTTPRequestHandler HTTPServer os chdir c users owner desktop
Flask/Apache 提交按钮用于文件上传

我有一个在 apache 后面运行的 Flask 应用程序在我的 index html 页面上有一个文件上传按钮和一个提交按钮如下所示
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
使用 pygtk3 将 GUI 窗口添加到 python opencv2 程序

我已经使用Python和Opencv2完成了一个程序现在我想向我的程序添加一个 GUI 窗口我对 PyGtk3 有一些经验因此我修改了代码以采用 PyGtk3 但是我遇到了错误因此我尝试了一个简单的程序来找出实际的错误我的
使用opencv+picamera流IO用树莓派捕获视频

我使用 Raspberry 来简单地显示一个视频目前仅此为此我必须使用 opencv cv2 我尝试了很多解决方案但现在我想使用 Picamera 库捕获视频我将向您展示我的代码 import io import time imp
SQLAlchemy 默认日期时间

这是我的声明模型 import datetime from sqlalchemy import Column Integer DateTime from sqlalchemy ext declarative import declarati
Python控制台默认十六进制显示

我在 Python 控制台中做了很多工作其中大部分都涉及地址我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值我更喜欢 python 回复0xBADF00D代替1
Pythoncom - 将相同的 COM 对象传递给多个线程

你好对于 COM 对象我是一个完全的初学者非常感谢任何帮助我正在开发一个Python程序该程序应该以客户端服务器的方式读取传入的MS Word文档即客户端发送一个请求一个或多个MS Word文档服务器使用pythoncom
PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题？

我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
如何对嵌套函数进行单元测试？ [复制]

这个问题在这里已经有答案了您将如何对嵌套函数进行单元测试f1 在下面的例子中 def f def f1 return 1 return 2 或者需要测试的函数不应该嵌套吗有一个类似的问题这个链接 https stackoverflow
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
使用 python 写入 aws lambda 中的 /tmp 目录

Goal 我正在尝试将 zip 文件写入 python aws lambda 中的 tmp 文件夹因此我可以在压缩之前提取操作并将其放入 s3 存储桶中 Problem 操作系统 Errno30 只读文件系统这段代码在我的计算机上进行
将 Python 控制台集成到 GUI C++ 应用程序中

I m going to add a python console widget into a C GUI below some other controls 许多类将暴露给 python 代码包括一些对 GUI 的访问也许我会考虑 P
python 中的异步编程

python 中有异步编程的通用概念吗我可以为一个函数分配一个回调执行它并立即返回主程序流无论该函数的执行需要多长时间吗您所描述的主程序流程在另一个函数执行时立即恢复不是通常所说的异步又名事件驱动编程而是多任务又名
Python：如何使用生成器来避免 sql 内存问题

我有以下方法来访问 mysql 数据库并且查询在服务器中执行我无权更改有关增加内存的任何内容我对生成器很陌生并开始阅读更多有关它的内容并认为我可以将其转换为使用生成器 def getUNames self globalUserQu
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
Flask APScheduler + Gunicorn 工作人员 - 在套接字修复后仍在运行任务两次

我有一个 Flask 应用程序我使用 Flask APScheduler 在我的数据库上运行计划查询并通过 cron 作业发送电子邮件我通过 Gunicorn 使用以下配置运行我的应用程序并通过主管进行控制 program myapp
Pymongo 批量插入

我正在尝试批量插入文档但批量插入时不会插入超过 84 个文档给我这个错误 in insert pymongo errors InvalidOperation cannot do an empty bulk insert 是否可以批量插入

随机推荐

vue-test-utils：如何测试 Mounted() 生命周期挂钩中的逻辑（使用 vuex）？

我正在尝试为 Vue 中的逻辑编写一个单元测试mounted 生命周期钩子但运气不太好问题似乎是这样的mounted 使用 vue test utils 安装组件时永远不会被调用mount 这是我要测试的 Vue 组件
解决错误javax.mail.AuthenticationFailedException

我不熟悉java中发送邮件的这个功能我在发送电子邮件重置密码时遇到错误希望你能给我一个解决方案下面是我的代码 public synchronized static boolean sendMailAdvance String emai
Twitter 嵌入时间轴小部件

我继续下载http platform twitter com widgets js http platform twitter com widgets js And the http platform twitter com embed t
Access之后我们要做什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用流体网格系统在引导程序上对齐输入

我正在创建一个表单要求用户输入他们的姓名和电子邮件地址表单的第一行对于姓名的每个部分都有两个并排的输入第二行对于电子邮件地址有一个输入其宽度应与第一行组合的宽度相同我正在尝试使用流体网格系统但无法将第二行与第一行对齐
如何重置捕获像素的值

我正在尝试创建一个 C 函数该函数返回屏幕截图位图中每四个像素的 R G 和 B 值这是我的代码的一部分 for int ix 4 ix lt 1366 ix ix 4 x x 4 for int iy 3 iy lt 768 iy i
如何通过jquery更改元素的类名

div class bestAnswerControl div class IsBestAnswer div div 我想补充一下 bestanswer some attribute 我想更换class IsBestAnswer div 到
当 Angular 由于数据更改而完成更新布局时如何调用函数

我有一个 ng repeat 指令它显示链接列表它工作正常但我的代码还有一个 JavaScript 函数它根据列表的尺寸放置列表当然在 Angular 完成数据绑定和修改 DOM 之前列表的维度是未知的如果我在数据更改后立即
为什么 PowerShell ISE 不允许我在以管理员身份运行时设置断点？

Having 未能使 PowerGUI 正常工作 https stackoverflow com questions 4368348 why does f5 start debugging ignore breakpoints in pow
C# 中条件编译符号的编译时检查（参见示例）？

在 C C 中你可以这样做 define IN USE 1 define NOT IN USE 1 define USING system 1 system 1 IN USE 进而 define MY SYSTEM IN USE if US
JSTL 在循环中每 5 个字段集创建一个新行

您好我目前正在迭代并在表中显示字段集列表为了让布局变得更得体一些我想在每次循环到达第五个字段集时创建一个新行谢谢 JSP div class det table class det tr td td tr table div
如何在Java中正确删除数组[重复]

这个问题在这里已经有答案了我刚接触 Java 4 天从我搜索过的教程来看讲师们花费了大量精力来解释如何分配二维数组例如如下所示 Foo fooArray new Foo 2 3 但我还没有找到任何解释如何删除它们的信息从内存的情
如何追踪500内部服务器错误的原因？

我正在尝试使用 FB 的官方 PHP SDK 执行以下操作 facebook gt api me feed POST array link gt test message gt test 不幸的是服务器不是 facebook 返回 50
在 sqlplus 会话中的 pl/sql 代码块中切换用户

我有一个 pl sql 脚本我从 sqlplus 会话中作为 sysdba 运行在执行脚本期间我想切换到另一个用户以便我可以为该用户创建一些数据库链接完成此操作后脚本应返回 sysdba 进行一些完成我尝试使用以下内容 BEG
Chartjs刻度标签位置

尝试让 Y 轴刻度标签看起来像image https i stack imgur com XgoxX png 位于秤顶部且不旋转缩放选项当前如下所示 scales yAxes id temp scaleLabel display true
Java：拆箱整数时出现空指针异常？

此代码导致空指针异常我不知道为什么 private void setSiblings PhylogenyTree node Color color throws InvalidCellNumberException PhylogenyTr
ARM NEON 矢量化失败

我想在 ARM cortex a9 上启用 NEON 矢量化但在编译时得到以下输出未矢量化不支持相关 stmt D 14140 82 D 14143 77 D 14141 81 这是我的循环 void my mul float32 t
显示键盘时如何在 TextView 下方添加更多填充

当我在 ScrollView 中有 TextField 并点击它时键盘会按预期显示但似乎 TextField 已向上移动到足以显示输入区域但我希望移动到足够的位置以便整体可见否则它看起来像是被剪裁了的我找不到改变这种行为的方法
如何从 Laravel 执行存储过程

我需要在表单提交数据后执行存储过程我让存储过程按照我想要的方式工作并且我的表单正常工作我只是不知道从 laravel 5 执行 sp 的语句它应该是这样的执行 my stored procedure 但我似乎在网上找不到类似的东西
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0

使用 PyTorch 分布式 NCCL 连接失败

使用 PyTorch 分布式 NCCL 连接失败 的相关文章

随机推荐

热门标签

使用 PyTorch 分布式 NCCL 连接失败的相关文章