训练PyTorch模型遇到显存不足的情况怎么办

2023-11-09

在跑代码的过程中,遇到了这个问题,当前需要分配的显存在600MiB以下

RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

然后参考 《南溪的目标检测学习笔记》——训练PyTorch模型遇到显存不足的情况怎么办(“OOM: CUDA out of memory“)_墨门-CSDN博客

减小batch_size的数量

最小的数量可以设置为2;


本文目的:修改batch_size,在哪修改batch_size呢?


在train.py文件下,参数设置: 


很奇怪?

电脑的GPU是6G,为啥连4都跑不了? 

如何设置batchsize

batchsize过小:每次计算的梯度不稳定,引起训练的震荡比较大,很难收敛。

batchsize过大:

(1)提高了内存利用率,大矩阵乘法并行计算效率提高。

(2)计算的梯度方向比较准,引起的训练的震荡比较小。

(3)跑完一次epoch所需要的迭代次数变小,相同数据量的数据处理速度加快。

缺点:容易内容溢出,想要达到相同精度,epoch会越来越大,容易陷入局部最优,泛化性能差。

batchsize设置:通常10到100,一般设置为2的n次方。

原因:计算机的gpu和cpu的memory都是2进制方式存储的,设置2的n次方可以加快计算速度。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

训练PyTorch模型遇到显存不足的情况怎么办 的相关文章

随机推荐

  • Redis基础_缓存相关知识

    redis缓存 1 为什么使用redis 2 使用redis有什么缺点 3 单线程的redis为什么这么快 4 redis的数据类型 以及每种数据类型的使用场景 5 redis的过期策略以及内存淘汰机制 6 redis和数据库双写一致性问题
  • STL 中 partition 算法的使用

    背景 STL 中包含一些分组有关的算法 需要引用有文件 include partition 概述 使用输入的比较函数对指定范围的元素重新排序 把结果为 true 的元素放在结果为 false 的元素之前 并返回两部分数据的分界位置的迭代器
  • jmeter如何测试一个get请求

    目录 1 配置测试计划 1 1 创建线程组 1 2 创建GET的HTTP请求取样器 模拟GET请求 1 3 添加查看结果树和聚合报告 2 执行压测并查看结果 2 1 验证接口 2 2 执行压力测试 使用jmeter测试一个http的get请
  • PAT 1002

    include
  • HTML5 WebSocket长连接

    HTML5 WebSocket实现长连接 先介绍一下WebSocket WebSocket的概念 WebSocket 是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议 WebSocket 使得客户端和服务器之间的数据
  • java异常分类

    一 异常父类 Throwable 有两个子类 1 Error 严重问题 2 Exception 非严重问题 二 Exception 1 运行时异常 是RuntimeException以及RuntimeException的子类 2 非运行时异
  • Java中将json字符串导出为json文件【详细步骤】

    一 概述 请根据具体需求具体改动 此代码需要将前端的数据查询出来 然后进行json字符串的转化 getCatalogId id 方法是根据id查出来的内容然后再进行转换成json字符串 也可以直接传入json字符串进行测试 二 代码 Api
  • 案例-使用MapReduce实现join操作

    哈喽 各位小伙伴们中秋快乐 好久没更新新的文章啦 今天分享如何使用mapreduce进行join操作 在离线计算中 我们常常不只是会对单一一个文件进行操作 进行需要进行两个或多个文件关联出更多数据 类似与sql中的join操作 今天就跟大家
  • 【行业了解】天眼查、企查查、启信宝、爱企查

    行业了解 天眼查 企查查 启信宝 爱企查 前言 今天写 行业分析 矿泉水行业 的时候 简单从两个三方平台获取信息 不过毕竟是第三方平台 我不了解的话我心里不放心 于是简单了解一下查企业的第三方平台 11月22写 企业分析 索菲亚 的时候用了
  • 睿智的目标检测37——TF2搭建SSD目标检测平台(tensorflow2)

    睿智的目标检测37 TF2搭建SSD目标检测平台 tensorflow2 学习前言 什么是SSD目标检测算法 源码下载 SSD实现思路 一 预测部分 1 主干网络介绍 2 从特征获取预测结果 3 预测结果的解码 4 在原图上进行绘制 二 训
  • 2019最好用的谷歌扩展工具

    Extensions Manager 安装地址 https chrome google com webstore detail extensions manager aka sw lpleipinonnoibneeejgjnoeekmbop
  • Calendar获取想要的日期

    获取当前天的前n天 getTodayPreNDay int n 取得月第一天 getFirstDateOfMonth Date date 取得月最后一天 getLastDateOfMonth Date date 获取当前的季度 getSea
  • combineReducers()用法详解

    https www cnblogs com aurora ql p 14110920 html
  • Linux文件与目录的复制、删除与移动(cp、rm、mv)

    cp 复制文件或目录 cp adfilprsu 源文件 目标文件 cp options 源文件1 源文件2 目录 选项与参数 a 相当于 dr preserve all的意思 至于dr参考下面说明 d 若源文件为链接文件的属性 link f
  • 【转】常用性能计数器

    CPU 性能计数器说明 CPU 1 System Total Processor Time 平均CPU利用率 指处理器执行非闲置线程时间的百分比 测量处理器繁忙的时间 这个计数器设计成用来作为处理器活动的主要指示器 可以选择单个CPU实例
  • 无锁环形缓冲RingBuffer的原理及Java实现

    在多线程环境下为了保证线程安全 往往需要加锁 例如读写锁可以保证读写互斥 读读不互斥 有没有一种数据结构能够实现无锁的线程安全呢 答案就是使用RingBuffer循环队列 在Disruptor项目中就运用到了RingBuffer RingB
  • HTTP响应报文应答状态码及含义

    本应答报文状态码是老猿结合多方资料收集综合后并加以老猿自己的理解进行说明的应答报文状态码 应该是最新最全解释最详尽的 供大家参考
  • linux服务器查找大文件及删除文件后磁盘空间没有得到释放

    1 查询服务器中大于1G的文件 find type f size 1G 这条命令是查询自 根目录下所有大小超过1G的文件 查询的大小可以根据需要改变 如下 相关查询 查询服务器中大于100M的文件 find type f size 100M
  • ubuntu重新设置root密码

    方法一 如果用户具有sudo权限 那么直接可以运行如下命令 sudo su root passwd 直接更改root密码 sudo passwd root 有关sudo su的区别 1 共同点 都是root用户的权限 2 不同点 su仅仅取
  • 训练PyTorch模型遇到显存不足的情况怎么办

    在跑代码的过程中 遇到了这个问题 当前需要分配的显存在600MiB以下 RuntimeError CUDA out of memory Tried to allocate 60 00 MiB GPU 0 10 76 GiB total ca