Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范

2023-11-03

最近在做一个强化学习的项目，运用多进程分布训练时遇到了段错误的问题，这里记录下解决的过程思路和方案。

由于智能体与环境交互的过程涉及到了第三方的程序以及大量的文件读写操作，使得整个实验过程非常慢，为了解决交互部分的速度瓶颈，采用Ape-X（ Distributed Prioritized Experience Replay）的分布式训练思路，即多个actor负责与环境交互，得到的交互数据存储到公共replay memory中，一个leaner负责从memory中抽样训练更新网络。

由于Pytorch在多进程方面的封装较好，我采用torch.multiprocessing包来实现多进程，并通过其中的Queue队列来实现进程间通信，也就是actor将交互数据发送给learner。主要代码结构简化如下：

def actor(q):
    # 创建环境
    ...
    while True:
        # 获取交互数据 batch 类型为Tensor
        ...
        q.put(batch)

def learner(q)
    # 创建memory
    memory = Memory()
    ...
    while True:
        batch = q.get() # <--- *** 产生 SegFault的地方 ***
        memory.push(batch) 
        update_model()

if __name__ == '__main__':
    # 创建模型、优化器等
    model = DQN()
    model.share_memory()
    ...

    q = torch.multiprocessing.Queue() # 创建 队列q
    processes = []
    for id in range(actor_num):
        p = torch.multiprocessing.Process(target=actor, args=(q))
        processes.append(p)
    processes.append(torch.multiprocessing.Process(target=learn, args=(q)))

    for p in processes:
        p.start()
    for p in processes:
        p.join()

一开始程序运行正常，但循环到一定时候，learn进程直接就消失了，连报错都没有（多进程下，子进程出错是没有提示的）。后来将learn函数移到主进程运行，得到了错误时候的提示：

Segmentation fault (core dumped)

意思是段错误（核心转储）。这种通常是比较严重的运行错误了，导致进程直接结束，因此也得不到python解释器发送的error。

网上查询之后得知，引发该错误的原因基本都和内存相关。经过print调试法，最终将引发错误的语句定位到了 q.get() 这一句，在百度和google上都搜索了一遍，完全找不到相关的解答。于是我开始从官方文档中寻求思路 MULTIPROCESSING BEST PRACTICES

我注意到了这么一句话：

Reuse buffers passed through a Queue

Remember that each time you put a Tensor into a multiprocessing.Queue, it has to be moved into shared memory. If it’s already shared, it is a no-op, otherwise it will incur an additional memory copy that can slow down the whole process. Even if you have a pool of processes sending data to a single one, make it send the buffers back - this is nearly free and will let you avoid a copy when sending next batch.

意思是，任何被放入Queue队列中的Tensor类型数据，都会被移入到共享内存中。因此我推测，是因为从Queue中取出的数据被直接使用，导致它们始终储存在共享内存中，最后爆内存了。经过验证，确实是类似的原因。解决方案如下

def learner(q)
    # 创建memory
    memory = Memory()
    ...
    while True:
        batch = q.get() 
        batch_local = batch.clone() # *** 新增代码 *** 创建一个属于本进程的数据副本
        del batch                   # *** 新增代码 *** 释放共享内存
        memory.push(batch_local)    # *** 修改代码 *** 存储数据副本而不是直接获取的数据
        update_model()

其实在在一个文档中，官方也提供了相应的代码规范，MULTIPROCESSING PACKAGE - TORCH.MULTIPROCESSING 尤其是涉及到GPU cuda Tensor数据的多进程共享，具体包括

尽快从消费者进程中释放内存
保持生产者进程的运行状态，直到所有的消费者进程结束。可以防止生产者进程释放消费者仍在使用的内存的情况
不要直接传递接收来的tensor变量

总结：官方文档，永远滴神

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范的相关文章

使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
PyTorch LSTM：运行时错误：无效参数 0：张量的大小必须匹配，维度 0 除外。维度 1 为 1219 和 440

我有一个基本的 PyTorch LSTM import torch nn as nn import torch nn functional as F class BaselineLSTM nn Module def init self su
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
没有名为“torch”或“torch.C”的模块

希望得到像我 5 这样的解释因为我已经检查了所有相关答案但没有一个有帮助我已经安装了Python 我已经安装了Pycharm 我已经安装了Anaconda 我已经安装了 Microsoft Visual Studio 我有not安装了
如何让火车装载机使用特定数量的图像？

假设我正在使用以下调用 trainset torchvision datasets ImageFolder root imgs transform transform trainloader torch utils data DataLoa
如何在pytorch中动态索引张量？

例如我有一个张量 tensor torch rand 12 512 768 我得到了一个索引列表说它是 0 2 3 400 5 32 7 8 321 107 100 511 我希望从给定索引列表的维度 2 上的 512 个元素中选择 1
PyInstaller 可执行文件无法获取 TorchScript 源代码

我正在尝试使包含 PyTorch 的脚本在 Windows 中可执行我的脚本的导入是 import numpy core multiarray which is a workaround for ImportError numpy cor
PyTorch：运行时错误：函数 MulBackward0 在索引 0 处返回无效梯度 - 预期类型 torch.cuda.FloatTensor 但得到 torch.FloatTensor

我不明白这个错误告诉我什么在另一个帖子 https github com NVIDIA flownet2 pytorch issues 139也解决了同样的问题但没有有效的解决方案 Traceback most recent call
无法在jupyter笔记本中导入torch

系统 macOS 10 13 6 蟒蛇 3 7 蟒蛇3 我遇到麻烦时import torch在 jupyter 笔记本中 ModuleNotFoundError No module named torch 这是我安装 pytorch 的方法
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
Pytorch LSTM：计算交叉熵损失的目标维度

我一直在尝试在 Pytorch 中使用 LSTM LSTM 后跟自定义模型中的线性层但在计算损失时出现以下错误 Assertion cur target gt 0 cur target lt n classes failed 我用以下函数

随机推荐

python安装时间过长_python走过的坑（关于python、pip安装）

第一个坑 python2 or python3 how to choose 变化不大看你目前的研究方向的库支持 python的编辑器选择问题 IDLE Subline text 这属于文本编辑器 pycharm Anaconda IDE集成
【Unity小游戏】游戏开发案例，轻松打造一款塔防游戏！（下）

欢迎来到如何在 Unity 中创建塔防游戏的第二部分你正在Unity中制作一个塔防游戏在第一部分结束时你可以放置和升级怪物你还有一个敌人攻击饼干然而敌人不知道该面对哪条路此外这是攻击的一个严重的失误在这一部分中你将添加敌
[转载]OpenWRT UCI API的使用

OpenWRT UCI API的使用分类 OpenWRT C 2014 03 09 21 51 3551人阅读评论 4 收藏举报目录原文 http blog csdn net bywayboy article details 20
阿里测试8年，肝到P8只剩他了····

在阿里工作了8年工作压力大节奏快但是从技术上确实得到了成长尤其是当你维护与大促相关的系统的时候熬到P7也费了不少心思小编也是个爱学习的人把这几年的工作经验整理成了一份完整的笔记此笔记已助朋友拿到腾讯阿里美团等10个off
Python表白代码合集：5种表白代码，找不到对象你来找我，这也太秀了叭

文章目录一容我啰嗦两句二来吧代码展示 1 给女神比个小心心 2 无限弹窗式表白 3 这货不是表白代码悄悄送给你们 4 520表白墙 5 抖音热门表白小软件 6 无套路表白三写在最后一容我啰嗦两句爬虫看多了对身体不好
在win7中chm打不开的最佳方法

我今天遇到了个非常棘手的问题想看看资料却打不开chm帮助文件我装的是64位win7 打开chm文件时系统提示我安全问题强行打开却无法显示内容得到的提示是该页导航被取消郁闷啊头痛啊怎么办啊急急如火令只有找Google
uni-app 自定义webview大小

在uni app中使用web view 组件默认铺满全屏并且层级高于前端组件会遮挡页面上的其他组件在官网中写明 app vue下web view组件不支持自定义样式默认充满屏幕不可控制大小 nvue web view 必须指定样式宽
Unity3D 如何在ECS架构下，用Unity引擎进行游戏开发详解

前言 Unity3D是一款强大的游戏引擎它提供了丰富的功能和工具可以帮助开发者快速构建高质量的游戏而Entity Component System ECS 是Unity3D中一种新的架构模式它可以提高游戏的性能和可扩展性本文将详细
go操作excelize报表框架

Excelize系统设计养成习惯再看源码在文章后面写在前面感谢go社区的excelize框架 https github com 360EntSecGroup Skylar excelize 版本说明这个版本只是第一版简单利用了
计算0到100中所有含有6的数之和（注意不要生复算66）（用与10取模计算出各位有6的数，用除10 计算十位有6的数）

import
DHCP的概念和原理

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录一什么是DHCP 1 dhcp的作用 2 DHCP工作原理 3 DHCP服务器为客户端分配IP地址有三种形式 4 DHCP的好处 5 DHCP种的租期 6 DHC
服务端授权工具可做跟单和程序化交易源码

源码介绍 MT4行情抓取工具用vc 开发源码全开放速度飞快功能稳定界面显示订阅代码的实时数据直观操作简单可以灵活修改添加订阅代码订阅需要的行情数据可用unifeed协议给MT4服务端做数据源也可以自己修改数据输出格式
58 openEuler搭建Mariadb数据库服务器-管理数据库

文章目录 58 openEuler搭建Mariadb数据库服务器管理数据库 58 1 创建数据库 58 2 查看数据库 58 3 选择数据库 58 4 删除数据库 58 5 备份数据库 58 6 恢复数据库 58 openEuler搭建M
BLE 蓝牙的一些心得总结

1 TI 的CC2541协议栈开发教程 https blog csdn net feilusia category 5630377 html 2 以下是我对BLE 蓝牙的一些理解如果有什么不对的地方恳请大佬们指点
java源码分析-native方法的调用

java源码分析 native方法的调用这段时间在分析java源码时经常能看到很多的底层源码中都调用了被native关键字修饰的方法也就是java调用本地方法但是在进行debug时有进不去看不了具体的实现因为这写方法是用c c
string字符串查找和替换

字符串的查找 string find 函数这个函数比较容易理解就是按照string 的正顺序往后进行对比查找str第一次出现的位置如果可以找到则返回在sring的位置不能找到的话返回 1 因此我们可以写一个if函数进行判断 v
VsCode中好用的git源代码管理插件GitLens

git多人协作的时候需要查看日志如果能在当前代码中查看到那是很方便的一件事能省去很多时间去其他工具查看提高工作效率 VsCode中的GitLens插件刚好能满足这个需求而且搭配Cmder使用很舒服不会出现换行不工整的问题还可以
QImage 类的基本操作

一显示方法两种第一种更佳 1 QImage转QPixmap 然后用QLabel setPixmap 1 2 3 4 5 6 7 image new QImage D Temp XX jpg pixmap newQPixmap pixm
Python识别PDF扫描版PDF纯图PDF，OCR提取汉字的10大方法，力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费，某些方面准确度比百度OCR高

下面实例都以下面的测试样例PDF为实验对象非纯图可复制pdf 纯图PDF TOP1 RapidOCRPDF 可识别纯图PDF也能识别加密签名的PDF 重点是开源免费 https github com RapidAI RapidOCRPDF
Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范

最近在做一个强化学习的项目运用多进程分布训练时遇到了段错误的问题这里记录下解决的过程思路和方案由于智能体与环境交互的过程涉及到了第三方的程序以及大量的文件读写操作使得整个实验过程非常慢为了解决交互部分的速度瓶颈采用Ape X D

Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范

Reuse buffers passed through a Queue

Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范 的相关文章

随机推荐

热门标签

Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范的相关文章