深度学习种数据shuffle对模型性能的影响

2023-11-04

博客部分内容参照链接：https://blog.csdn.net/g_b_l/article/details/109600536

相同的两个目标检测实验，模型进行shuffle和未进行shuffle时训练的loss图，发现：未经shuffle的loss曲线出现周期性的震荡，测试后模型的泛化效果也很差。如下图1（未shuffle）和图2（shuffle）所示：

图1 未shuffle实验的loss曲线

图2 未shuffle实验的loss曲线

在模型训练前，我们往往对数据进行shuffle，即随机打乱数据，为什么要这么做呢？不这么做会出现什么问题？何时应该shuffle，何时不该shuffle呢？

下面，本文就以上三个问题发表下自己的拙见。

Q1：为什么要进行shuffle？

A1：不论是机器学习还是深度学习，我们总是基于数据独立同分布的假设条件，也就是说，数据的出现应该是随机的，而不是按照某种顺序排列好的。以上就是需要shuffle的根本原因。因此，我们需要在每个epoch的开始把数据shuffle一下。

Q2：不shuffle会出现什么问题？

A2：泛化能力差。

①模型学到的可能只是数据次序，并未学到有用的信息，导致泛化能力差。

②如果数据是排序过的，比如按类别排序，会导致模型一会儿过拟合这个类，一会儿过拟合那个类，这一方面会使得训练过程的loss周期性震荡；另一方面，在训练结束时，模型总是对最近训练的那类数据过拟合而导致泛化能力差。

比如做公式识别（将图片的公式转换为latex形式），如果不shuffle，按图片的宽高比排列数据，且第一张图片和最后一张图片的宽高比相差很大，在这种情况下，不shuffle直接训练，就会出现loss周期性震荡的现象，比如每个epoch的开始，loss会突然上升很多，然后逐渐下降，等下一个epoch开始的时候，loss又会突然上升，循环往复。

Q3：何时应该shuffle，何时不该shuffle呢？

A3：当我们使用优化器进行模型训练时，比如使用SGD优化方法，不可避免地，在结束模型训练时，模型对刚刚学习过的那类数据有着更好的表现。

因此，①如果我们想让模型泛化能力更强，我们应该对数据进行shuffle，这样模型最后见过的数据在一定程度上是能代表总体的，有着更强的泛化能力，通常情况下，我们都是要进行shuffle的。

②如果我们想让模型学会某种次序关系或者我们希望模型对某部分数据表现的更好一点，那么我们则要根据自己的目的来决定数据的顺序，并决定是局部shuffle还是完全不shuffle。比如，对于时间序列数据，根据过去的数据预测未来的数据，我们则希望越近期的数据，模型给予更高的关注度，一种方式就是将近期的数据放在后面，那么等模型训练完的时候，最近见过的数据就是近期的数据，自然对近期数据有更高的关注，这样在预测未来数据的时候，近期的数据能发挥更大的作用。

所以，是否shuffle要具体情况具体分析。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

人工智能

深度学习种数据shuffle对模型性能的影响的相关文章

深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技

随机推荐

C/S与P2P的主要区别以及相同点

C S方式所描述的是进程之间服务和被服务的关系客户是服务的请求方服务器是服务的提供方服务的请求方和提供方都要使用网络核心部分所提供的服务客户程序被用户调用后运行在通信时主动向远地服务器发起通信服务请求因此客户程序必须知道服务
Python爬虫系列（二）——Python爬虫批量下载百度图片

1 前言先贴代码 coding utf8 import requests import json from urllib import parse import os import time class BaiduImageSpider
关于LayUI 表格高度解决方案

需求是这样式的我有一个产品列表但是我想在产品列表中显示产品主图信息本文只涉及LayUI技巧不涉及JAVA JS 渲染部分 table render cellHeight 300 elem currentTableId url Pro
AIX 上压缩与解压缩

gz gzip d 或 gunzip gzip Z uncompress compress tar tar xvf tar cvf cpio cpio idumv zip unzip 或 jar xvf tar gz gzip dc tar
心跳包实现的另一种机制

因为工作关系经常用到心跳包之前是在服务端中的连接的实体中保持一个timer 每秒加一每次服务端接到客户端的心跳就会把计数置为0 当累加到20秒的时候服务端会接到客户端抛出的掉线函数回调就会视为客户端掉线然后从缓存中删掉掉线用户
一次性搞懂什么是AIGC！

你知道什么是AIGC吗不知道没关系我来告诉你 AIGC就是人工智能生成内容 Artificial Intelligence Generative Content 也就是让AI自己动手创作各种各样的内容比如图片视频音乐文字等等
DNSPod 查看域名解析的 domain_id 和 record_id

本文介绍调用 API 获取 DNSPod 域名解析需要的 domain id 和 record id 参数的方法所有的 DNSPod API 请求都必须提供 login token作为公共参数以验证用户身份是否合法获取 login to
软件版本命名规范

1 版本命名规范 1 2 3 20190114 rc 由四部分组成第一位 1 主版本号当功能模块有较大的变动比如增加多个模块或者整体架构发生变化此版本号由项目决定是否修改第二位 2 子版本号当功能有一定的增加或变化比如增加了对
[小程序实现保存图片到相册]

保存图片到相册实现逻辑首先查看用户申请过的权限中是否有保存图片到相册如果没有这个权限则需要先申请权限弹窗授权如果用户同意授权则保存图片如果用户不同意则跳转到设置页重新授权然后再保存图片查看用户申请的全县有哪些通过微
Httpservlet cannot be resolved to a type的原因与解决方法

刚开始学习Servlet 在Eclipse中新建了一个Servlet 不过页面上报错 Httpservlet cannot be resolved to a type 显然是Eclipse找不到相应的包即javax servlet 原因
重建控制文件 recreate control file

简单总结如下 1 启动到mount2 执行Alter database backup controlfile to trace 3 找到第2步生成的trace文件并作相应修改只保留创建语句4 shutdown并启动到nomount 执行
2023备战金三银四，Python自动化软件测试面试宝典合集（二）

马上就又到了程序员们躁动不安蠢蠢欲动的季节这不金三银四已然到了家门口元宵节一过后台就有不少人问我现在外边大厂面试都问啥想去大厂又怕面试挂面试应该怎么准备测试开发前景如何面试一个程序员成长之路永恒绕不过的话题每每到这个时
DETR，YOLO模型计算量(FLOPs)参数量(Params)

前言关于计算量 FLOPs 参数量 Params 的一个直观理解便是计算量对应时间复杂度参数量对应空间复杂度即计算量要看网络执行时间的长短参数量要看占用显存的量计算量 FLOPs FLOP时指浮点运算次数 s是指秒即每秒浮点运
scrapy框架之item pipeline的使用

转载 https blog csdn net kuangshp128 article details 80321099 一关于scrapy中pipleline的基本认识 Item Pipeline又称之为管道顾名思义就是对数据的过滤处理
集线器端口上的电涌：一个USB设备超过其集线器端口的电源限制

集线器端口上的电涌一个USB设备超过其集线器端口的电源限制花了三个小时查阅了大量资料终于把这个问题大致弄清楚了差点全盘格式化主要是因为不认盘的缘故以为分区表全部损坏我一开始就怀疑是供电不足当然以前也碰到过类似的情况通常重启
MySQL数据库查询字符串数据格式之不足自动填充“0”字符以达到指定位数

MySQL数据库查询字符串数据格式之不足自动填充 0 字符以达到指定位数在MySQL数据库中很多时候我们的数据会跟我们想要的输出结果有出入例如在数据库中如果我们保存的是1 但是我们需要他输出显示的是001 那就需要我们在数据1的前面
【Linux】调试器：gdb 的基本使用

文章目录前序工作 readelf 基本操作 l 显示代码 list r 运行程序开始调试 run b 打断点 breakpoint info b 查看断点 information d 删除断点 delete disable 关闭断
Android 占位式插件化原理实现(三) 如何在插件APP中使用动态广播

写在前面前面实现了插件APP的Activity和Service的启动今天咱来说一下动态广播的使用还是老套路使用宿主环境注册和发送基于宿主Activity注入到插件Activity的Context 一项目目录新增文件宿主APP
ai算子是什么_AI当自强：独家揭秘旷视自研人工智能算法平台Brain++

转载自机器之心随着深度学习逐渐从实验室走向工业应用各大企业都在探索构建算法架构实现模型的工具和平台和使用 TensorFlow 或 PyTorch 等开源框架的公司不同旷视走向了一条自主研制的道路建立了从算法研发到部署应用的全
深度学习种数据shuffle对模型性能的影响

博客部分内容参照链接 https blog csdn net g b l article details 109600536 相同的两个目标检测实验模型进行shuffle和未进行shuffle时训练的loss图发现未经shuffle的

深度学习种 数据shuffle对模型性能的影响

深度学习种 数据shuffle对模型性能的影响 的相关文章

随机推荐

热门标签

深度学习种数据shuffle对模型性能的影响

深度学习种数据shuffle对模型性能的影响的相关文章