Reducer buckets have been rebuilt in this iteration.

2023-11-04

在跑torch多GPU报错

“Reducer buckets have been rebuilt in this iteration.”原因是torch版本问题， torch1.7以上的distributed.py发生更改导致报错：

这玩意是distributed.py里的前向函数报错

def forward(self, inputs, *kwargs):           if self.ddp_join_enabled:               ones = torch.ones(                   1, device=self.device               )               work = dist.all_reduce(ones, group=self.process_group, async_op=True)               self.reducer._set_forward_pass_work_handle(                   work, self.ddp_join_divide_by_initial_world_size               )
# Calling _rebuild_buckets before forward compuation,
      # It may allocate new buckets before deallocating old buckets
      # inside _rebuild_buckets. To save peak memory usage,
      # call _rebuild_buckets before the peak memory usage increases
      # during forward computation.
      # This should be called only once during whole training period.
      if self.reducer._rebuild_buckets():
          logging.info("Reducer buckets have been rebuilt in this iteration.")

      if self.require_forward_param_sync:
          self._sync_params()

      if self.ddp_join_enabled:
          # Notify joined ranks whether they should sync in backwards pass or not.
          self._check_global_requires_backward_grad_sync(is_joined_rank=False)

      # ！！！
      if self.device_ids:
          inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids)
          if len(self.device_ids) == 1:
              output = self.module(*inputs[0], **kwargs[0])
          else:
            # 单进程多线程多卡的情况
              outputs = self.parallel_apply(self._module_copies[:len(inputs)], inputs, kwargs)
              output = self.gather(outputs, self.output_device)
      else:
          output = self.module(*inputs, **kwargs)

      if torch.is_grad_enabled() and self.require_backward_grad_sync:
          self.require_forward_param_sync = True
          # We'll return the output object verbatim since it is a freeform
          # object. We need to find any tensors in this object, though,
          # because we need to figure out which parameters were used during
          # this forward pass, to ensure we short circuit reduction for any
          # unused parameters. Only if `find_unused_parameters` is set.
          if self.find_unused_parameters:
          # 当DDP参数 find_unused_parameter 为 true 时，其会在 forward 结束时，启动一个回溯，标记出所有没被用到的 parameter，提前把这些设定为 ready，这样 backward 就可以在一个 subgraph 进行，但这样会牺牲一部分时间。
              self.reducer.prepare_for_backward(list(_find_tensors(output)))
          else:
              self.reducer.prepare_for_backward([])
      else:
          self.require_forward_param_sync = False

      return output

解决思路：
1、对torch进行降级，构建torch1.6环境
torch1.6 cuda10 torchvision 0.7.0

pip install torch==1.6.0 torchvision==0.7.0 

# CUDA 10.2
pip install torch==1.6.0 torchvision==0.7.0

# CUDA 10.1
pip install torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html

# CUDA 9.2
pip install torch==1.6.0+cu92 torchvision==0.7.0+cu92 -f https://download.pytorch.org/whl/torch_stable.html

修改代码
已解决，适用我的问题
我的代码：

predicts, loss, loss_statics = model(data)

结构整体改为：

loss, loss_statics = model(data)

对于distributed.py DistributedDataParallel来说，它的forward只接受关于 Loss的返回值，predicits就不可以加入；之前torch1.6版本没有问题；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

Pytorch

CUDA

python

Reducer buckets have been rebuilt in this iteration. 的相关文章

Pandas apply 与 np.vectorize 从现有列创建新列的性能

我正在使用 Pandas 数据框并希望创建一个新列作为现有列的函数我还没有看到关于之间速度差异的很好的讨论df apply and np vectorize 所以我想我会在这里问熊猫apply 功能很慢根据我的测量在一些实验中如下
PyList_SetItem 与 PyList_SETITEM

据我所知 PyList SetItem 和 PyList SETITEM 之间的区别在于 PyList SetItem 会降低它覆盖的列表项的引用计数而 PyList SETITEM 不会我有什么理由不应该一直使用 PyList Set
python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
与 CUDA 占用计算器不同的实验结果

我研究CUDA架构我在如下环境中编写了一些并行处理代码 GPU GTX580 CC为2 0 每块线程 16x16 256 每线程寄存器 16 每块共享内存 48 字节我通过编译选项知道寄存器的数量和共享内存的大小 ptxas optio
如何修复错误“AttributeError：‘模块’对象在 python3 中没有属性‘客户端’？

以下是我的代码 import http h1 http client HTTPConnection www bing com 我认为没问题但是 python 给了我以下错误 AttributeError 模块对象没有属性客户端我想知
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
RuntimeError: 预期所有张量都在同一设备上，但发现至少有两个设备，cpu 和 cuda:0！使用我的模型进行预测时

我使用变压器训练了一个序列分类模型 BertForSequenceClassification 我收到错误预计所有张量都在同一设备上但发现至少有两个设备 cpu 和 cuda 0 在方法wrapper index select中检查参
参数验证，Python 中的最佳实践[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案让我们举一个 API 的例子 def get abs directory self path if os path isdir path ret
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
如何强制 Y 轴仅使用整数

我正在使用 matplotlib pyplot 模块绘制直方图我想知道如何强制 y 轴标签仅显示整数例如 0 1 2 3 等而不显示小数例如 0 0 5 1 1 5 2 等我正在查看指导说明并怀疑答案就在附近matplotlib
为什么 bot.get_channel() 会产生 NoneType？

我正在制作一个 Discord 机器人来处理公告命令当使用该命令时我希望机器人在特定通道中发送一条消息并向用户发送一条消息以表明该命令已发送但是我无法将消息发送到频道我尝试了这段代码 import discord import
在 Python 的 Textmate 中突出显示尾随空格？

我想做类似的事情this http remysharp com 2008 03 30 trailing white space in textmate Textmate 提示这样当我在 Python 中编写代码时尾随空白总是以某种方式突
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items

随机推荐

C++类和对象：对象的初始化和清理

C 类和对象对象的初始化和清理 1 构造函数与析构函数 2 构造函数的分类与调用 2 1 分类 2 2 调用 3 拷贝函数的调用时机 4 构造函数的调用规则 5 深拷贝与浅拷贝 6 初始化列表 7 类对象作为类成员 8 静态成员 8 1
JAVA操作Excel文件

JAVA EXCEL API 是一开放源码项目通过它Java开发人员可以读取Excel文件的内容创建新的Excel文件更新已经存在的Excel文件使用该API非Windows操作系统也可以通过纯Java应用来处理Excel数据表因
uniapp app 实现右上角回首页；点homeButton返回上一页；onNavigationBarButtonTap不生效问题

场景 app Android移动端实现点击右上角图标回首页问题用了官网的 homeButton 图标正常展示了也可点击但每次点击后是会返回上一页而非首页后来查到说要结合onNavigationBarButtonTap生命周期
关于STM32中ADC原理

该文章内容来源于江协助科技如有侵权联系删除目录 ADC原理逐次逼近型ADC ADC框图介绍注入通道规则通道介绍 ADC基本结构重点转换模式数据对齐内部校准 ADC原理可以将引脚上连续变化模拟电压转换为内存中存储的数字变量
区块链Fabric-从入门到实战(一)

加密算法加密算法分对称加密算法和非对称加密算法在区块链中主要使用的时非对称加密算法非对称加密是指为满足安全性需求和所有权验证需求而集成到区块链中的加密技术非对称加密在加密和解密过程中使用两个非对称的密钥分别为公钥和私钥非对称密
Android studio设置快捷键

Android studio 设置快捷键因为习惯用eclipse快捷键所以将Androidstudio的快捷键设置成eclipse快捷键一致首先在setting keymap 复制一份eclipse 这样就是eclipse的快捷键以
如何用matlab画泰勒图

前几天写文章想画一些泰勒图我觉得其实这个泰勒图吧包含的信息也并不多只是看起来比较直观且看起来逼格比较高就谷歌了一下怎么画先找到的是这个代码但是有毒死活跑不通不知为何且评论里大家和我的问题都一毛一样遂重找 http c
ctfshow web15-web25详细思路

web15 提示公开的信息比如邮箱可能造成信息泄露产生严重后果进入题目后看到有个QQ邮箱我们搜一下它的QQ 没啥信息返回到刚才的网站加后缀看能不能进去后台不知道用户名密码哎那忘记密码吧发现一个信息刚才搜的QQ用户在西安
十、Update 存储过程

文章目录修改数据的要求存储过程中的数据库异常我们需要数据库异常 MariaDB 发起异常 SIGNAL和RESIGNAL mariaDB 捕获异常捕获指定异常捕获自定义异常获取异常消息 update 锁及其测试 Update 锁
通过Dockerfile启动容器遇到的两个不常见错误

1 报错 ImportError cannot import name cached property from werkzeug 安装更高级的版本 pip install Werkzeug 0 16 0 2 已安装pip 执行python
Python入门--关键字

关键字是Python编程语言中具有特殊含义的保留单词不能用作变量名函数名类名或其他标识符以下是Python 3 9 0版本中的关键字列表 False None True and as assert async await break
将 varchar 转换为数据类型 numeric 时出现算术溢出错误

SQL Server 2005 中如果使用5位以上的字符串转换为numeric时就会出现将 varchar 转换为数据类型 numeric 时出现算术溢出错误这样的错误如果使用5位以下含5位的就不会出错
Python笔记18-继承&函数重写

一继承重点掌握 1 概念如果两个或者两个以上的类具有相同的属性和方法我们可以抽取一个类出来在抽取出来的类中声明各个类公共的部分被抽取出来的类父类 father class 超类 super class 基类 base clas
Java List转换成String数组

实现代码 List
Android阿里云推送离线通知集成踩坑之路

最近因为公司后台服务器买的是阿里云的服务所以把友盟的推送换成了阿里云推送首先不得不说文档写得很差兼容性和适配做得也不是很好加了技术支持群但是里面的同学问一个问题半天才有回复好了不扯谈直接上代码 1 添加依赖由于公司项目是
C++ 计算数组长度

实现程序如下 include
Sublime Text3 BracketHighlighter

BracketHighlighter 括号匹配插件修改Preferences gt Package Settings gt BracketHighlighter gt Bracket Settings 修改settings User文件
深入理解Gradle、Maven等JAVA项目的构建工具

目录简单概括构建工具的作用构建工具的具体作用 Gradle和Maven的比较简单概括构建工具的作用构建工具用于自动化构建编译测试和打包软件项目极大地简化软件开发的过程提高开发效率和可靠性让开发者更加专注于业务逻辑和代码实现
云计算基本概念

云计算的定义 1 云计算是同时描述一个系统平台或者一类应用程序的术语云计算平台按需进行动态部署 Provision 部署 Configuration 重新部署 Reconfigure 以及取消服务 Deprovision 等在云计算平台
Reducer buckets have been rebuilt in this iteration.

在跑torch多GPU报错 Reducer buckets have been rebuilt in this iteration 原因是torch版本问题 torch1 7以上的distributed py发生更改导致报错这玩意是dis

Reducer buckets have been rebuilt in this iteration.

Reducer buckets have been rebuilt in this iteration. 的相关文章

随机推荐

热门标签