深度学习(二)(loss、BP、正则化、激活函数)

2023-11-02

神经网络基础

目录

神经网络基础

5、得分函数

6、损失函数

7、前向传播整体流程

8、反向传播计算方法

9、神经网络整体架构

10、神经网络架构细节

11、神经元的个数对结果的影响

12、正则化与激活函数

 13、神经网络过拟合解决办法

5、得分函数

线性函数:从输入à输出的映射,fx-图像数据,w-权重参数,b-微调)=  wx + b每个类别的得分

6、损失函数

损失函数:Li(衡量权值的优劣)

正则化惩罚项:只考虑权重参数的影响

损失函数=数据损失+正则化惩罚项

(越强大的神经网络,越容易过拟合)

7、前向传播整体流程

整个过程就是fàL的过程

Softmax分类器:

 归一化:得到0-1的值

计算损失值

8、反向传播计算方法

更新模型——这个就交给反向传播了(梯度下降-求导(或者偏导))

链式法则:梯度是一步一步传递的

9、神经网络整体架构

需要做到:明白从前到后对x做了什么,从后到前对权重w又做了什么

10、神经网络架构细节

层次结构:输入层、隐藏层、输出层

神经元:数据

全连接:其中注意输入的数量,权重矩阵的大小,最终的效果主要取决于权值

非线性:[(xw1)w2]w3,不能这样,非线性变换(sigmod、max函数等)

11、神经元的个数对结果的影响

越多,拟合程度越大,得到的效果越好,但是速度会越慢

12、正则化与激活函数

增加一个神经元,隐藏层参数增加很大

惩罚力度对结果的影响,惩罚力度较小,效果不太好;最终主要还是测试集达到好的效果,训练集体现好,可能存在过拟合的情况

参数个数对结果的影响:权重参数(权重矩阵64、128、256、512)

正则化:它是一种非常实用的减少方差的方法,正则化时会出现偏差方差权衡问题,偏差可能略有增加,如果网络足够大,增幅通常不会太高。

过拟合、高偏差的解决:1)正则化

                          2)增加数据

过拟合:一开始经过迭代若干次损失函数为0的情况叫做过拟合,训练集和测试集是有差异的,过分去拟合了训练集,放大了差异性,衰弱了共性,回归损失函数为0的情况说明你拟合了噪声,最后导致了效果差,换句话说拟合函数的过程中模型需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,但是损失函数附加了参数的平方和,导致整个算法不会让参数变的过大,使得拟合函数波动变小。这个参数的平方和就是一种正则化项,用来解决过拟合问题。损失函数加正则项,一般称为目标函数。

逻辑回归中实现L2正则化。其中,正则化部分通常表示为:

 神经网络中实现正则化。可表示为

其中L表示层数

该矩阵范数称为“弗罗贝尼乌斯范数”,用下标F标注。 是正则化参数,通常使用验证集或交叉验证集来配置这个参数。L2正则化有时被称为:权重衰减

 Sigmoid:存在梯度消失的情况(无穷大和无穷小的时候,梯度趋于0)

Relu:

 13、神经网络过拟合解决办法

前面也有提到相关的办法。数据预处理——标准化

 参数初始化——

一开始给一个随机值

 正则化:有利于预防过拟合

总结一下,如果正则化参数变得很大,参数W很小,z也会相对变小,此时忽略b的影响z会相对变小,实际上,z的取值范围很小,这个激活函数,也就是曲线函数tanh会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,不会发生过拟合。(注意定义的J函数,它包含第二个正则化项,否则函数J可能不会在所以调幅范围内都单调递减)

Dropout正则化:“随机失活”,设置了消除神经网络中节点的概率

实施Dropout——最常用的方法:inverted dropout(反向随机失活),其中通过除以keep-prob,确保其期望值不变。

测试阶段不使用Dropout,否则预测会受到干扰。

需要牢记一点,dropout是一种正则化方法,它有助于预防过拟合,因此除非算法过拟合,不然是不会使用dropout的,所以它在其它领域应用得比较少,主要存在于计算机视觉领域,通常因为没有足够的数据,所以一直存在过拟合,这就是有些计算机视觉研究人员如此钟情于dropout函数的原因。

dropout一大缺点就是代价函数J不再被明确定义,每次迭代,都会随机移除一些节点,如果再三检查梯度下降的性能,实际上是很难进行复查的。定义明确的代价函数J每次迭代后都会下降,因为我们所优化的代价函数J实际上并没有明确定义,或者说在某种程度上很难计算,所以我们失去了调试工具来绘制这样的图片。我通常会关闭dropout函数,将keep-prob的值设为1,运行代码,确保J函数单调递减。然后打开dropout函数,希望在dropout过程中,代码并未引入 bug。我觉得你也可以尝试其它方法,虽然我们并没有关于这些方法性能的数据统计,但你可以把它们与dropout方法一起使用。

其他解决过拟合办法:数据扩增(翻转、裁剪)、early stopping

正交化实现减少方差。

附:主要参考了吴恩达深度学习课程

https://www.bilibili.com/video/BV15t4y1G7kq?p=5&vd_source=200eb8f70ee525f2747b0dbbe1d06ab0

https://www.bilibili.com/video/BV16r4y1Y7jv?spm_id_from=333.999.0.0

https://hekuan.blog.csdn.net/article/details/79827273?spm=1001.2014.3001.5506

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习(二)(loss、BP、正则化、激活函数) 的相关文章

  • 深度学习笔记1:end-to-end、anchor box解释、人体检测代码

    SSD xff08 SSD Single Shot MultiBox Detector xff09 是采用单个深度神经网络模型实现目标检测和识别的方法 该方法是综合了Faster R CNN的anchor box和YOLO单个神经网络检测思
  • 【目标检测】目标检测中的标签分配

    文章目录 一 前言 二 标签分配方法的分类 2 1 标签是否非负 2 2 是否有预测结果参与 一 前言 在目标检测任务中 标签分配起着关键的作用 其目的是将样本划分成正样本和负样本 然后与GT之间计算loss 决定模型如何学习和收敛 二 标
  • 激活函数之softmax函数

    1 softmax函数 分类问题中使用的 softmax 函数可以用下面的式表示 exp x 是表示 ex 的指数函数 e 是纳皮尔常数 2 7182 式 3 10 表示假设输出层共有 n 个神经元 计算第 k 个神经元的输出 yk 如式
  • 【计算机视觉

    文章目录 一 Precision Recall 和 F1 score 二 IoU 三 mAP 四 AP 4 1 定义 4 2 分类 4 2 1 APs 4 2 2 APr 4 2 3 两者之间的区别 一 Precision Recall 和
  • C++学习之路-构造函数的初始化列表

    构造函数 初始化列表 一 何为初始化列表 二 初始化列表的本质 三 初始化列表的优势 四 初始化列表中列表顺序问题 五 初始化列表与默认参数的配合使用 六 初始化列表的注意之处 七 构造函数的声明和实现分离时 初始化列表需写在实现里 八 子
  • 深度学习笔记(八):目标检测性能评价指标(mAP、IOU..)

    一 mAP 这里首先介绍几个常见的模型评价术语 现在假设我们的分类目标只有两类 计为正例 positive 和负例 negtive 分别是 1 True positives TP 被正确地划分为正例的个数 即实际为正例且被分类器划分为正例的
  • 【数据结构】--栈--括号匹配

    在pop 那个地方卡了好一会 原来是NULL这个情况没有考虑 用栈实现 输入一行符号 以 结束 判断其中的括号是否匹配 括号包括 lt gt 例如 输入 Result as x lt lt gt gt right a b gt The 6
  • 【计算机视觉

    文章目录 一 前言 二 可以获得什么 三 入门实践 3 1 帮助文档 3 2 安装 3 3 模型的组成 3 4 BERT模型的使用 3 4 1 导入模型 3 4 2 使用模型 3 4 2 1 tokenizer 3 5 model 3 6
  • Java将List对象导入Excel文件

    通过poi依赖将java对象写入excel之中 核心理念是通过反射获取Java对象的getter方法和属性 使用getter方法获取要写入excel中的值 再通过属性上的自定义注解获取excel标题行 然后以文件流的方式写入excel 代码
  • 深度学习apex包安装失败的问题

    文章目录 一 前言 二 正确的安装方法 2 1 从github上下载 2 2 切换到下载后的路径 2 3 进行安装 一 前言 在进行论文复现的时候 发现缺了一个重要的包 apex包 这是NVIDIA开发的基于PyTorch的混合精度训练加速
  • 【机器学习 & 深度学习】通俗讲解集成学习算法

    目录 集成学习 一 机器学习中的集成学习 1 1 定义 1 2 分类器 Classifier 1 2 1 决策树分类器 1 2 2 朴素贝叶斯分类器 1 2 3 AdaBoost算法 1 2 4 支持向量机 1 2 5 K近邻算法 1 3
  • 深度学习(一)

    目录 1 深度学习要解决的问题 2 深度学习应用领域 3 计算机视觉任务 4 视觉任务中遇到的问题 1 深度学习要解决的问题 机器学习流程 数据获取 特征工程 建立模型 评估与应用 深度学习跟人工智能更贴切 机器学习中的一部分 特征工程的作
  • 深度学习笔记丨李沐深度学习课程kaggle竞赛——加利福尼亚房价预测(我的第一个深度学习项目)

    记录作为小白的第一个深度学习项目 1 kaggle竞赛题目 The task is to predict house sale prices based on the house information such as of bedroom
  • caffe的学习笔记一——深度学习框架caffe介绍

    1 深度学习框架caffe介绍 caffe的介绍 谷歌有tensorflow 微软和百度都有自己的框架 caffe入手简单 应用场景广 很多公司用此框架完成工程项目 caffe是基于服务器端的 要在PC端做这个事情 目前深度学习很多场景都应
  • Ablation Study消融研究

    作者 飘哥 链接 https www zhihu com question 291655038 answer 683038545 来源 知乎 著作权归作者所有 商业转载请联系作者获得授权 非商业转载请注明出处 术语 消融研究 通常用于神经网
  • 【torch】如何把把几个 tensor 连接起来?(含源代码)

    一 cat 在 PyTorch 中 要向一个 tensor 中添加元素 你通常需要创建一个新的 tensor 然后将元素添加到新的 tensor 中 PyTorch tensors 是不可变的 所以不能像列表一样直接追加元素 以下是如何实现
  • IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU损失函数分析及Pytorch实现

    IOU Loss 算法作用 Iou的就是交并比 预测框和真实框相交区域面积和合并区域面积的比值 计算公式如下 Iou作为损失函数的时候只要将其对数值输出就好了 def Iou loss preds bbox eps 1e 6 reducti
  • 机器学习基础(五)

    决策树 决策树是一种预测模型 它代表着对象属属性与对象值之间的一种映射关系 树中的每个节点代表一个对象 分叉路径 或者叫树枝 则代表一个属性值 决策树常用方法 分类树分析 是一种监督学习 用于预计结果可能为离散类型 回归树分析 用于预计结果
  • pytorch 2.0.1 版本 [gpu] 安装

    安装Anaconda 1 下载官网 我们下载anaconda的目的主要是为了下一步的python环境管理 所以不考虑anaconda与已有的python的版本是否匹配的问题 下方点击之后会出现 可以根据自己的需要下载安装包 本文以Windo
  • 高效计算基础与线性分类器

    七月算法5月深度学习班课程笔记 No 2 1 深度学习与应用 1 图像上的应用 可以根据图片 识别图片的内容 描述图像 模仿人的创造性生成画作 相册自动归类等 2 NLP上的应用 用RNN学习某作家的文笔风格进行写作 学习代码写作等 下图为

随机推荐

  • js-数组遍历方法forEach和map的原理解析和实际应用

    数组遍历方法forEach和map的原理解析和实际应用 目录 数组遍历方法forEach和map的原理解析和实际应用 一 前言 二 代码 1 相同点 2 forEach 3 map 三 结语 一 前言 forEach和map是数组的两个方法
  • 人们热议的Web3究竟是什么?

    Web3已经是一个热词 几乎每个行业 甚至很多的人都可以从中讲到机会 那么这个机会究竟是什么呢 又该作哪些准备呢 作为一个新兴领域 加密圈盛产各种新概念 哪怕是随便关注下 就知道它总能产生源源不断的行业术语 诸如NFT DApp DeFi和
  • 测试sqlite数据库可承载数据量

    环境 vmvare10 1 ubuntu14 04 sqlite3 一 创建数据库 在当前文件夹下 执行以下命令 如已有数据库则打开 若没有则创建 二 创建所需表 Creat table mysqlitetest id TEXT name
  • 同学,同事,KTV聚会的小游戏

    1 吸心大全 搞个扑克用嘴吸住 传给旁边的人 他在吸过去 依次传下去 谁掉了就喝酒 2 两个人一队 一定要男女搭配哦 一个人口里含一口水或者饮料都可以 然后说裁判指定的话 由另一人来猜 规定时间里猜对最多的就算赢 3 弄个超大的骰子 这个估
  • 最小二乘法,最大似然估计

    最小二乘法 最大似然估计 一 最小二乘法 1 基本思想 2 作用 3 如何求解最小二乘法 二 最大似然估计 1 概念 2 似然估计的思想是 3 如何求解最大似然估计 三 最小二乘法和最大似然估计的联系和区别 四总结 一 最小二乘法 最小二乘
  • gamma分布的推导与理解

    1 概述 gamma分布与指数分布 泊松分布甚至其它一些混合分布有较为紧密的联系 本文通过对比与之相关的概率分布 建立某种联系并推导其概率密度函数 以便加深理解与认知 2 Gamma分布的必要性 在设置 Gamma 分布的两个参数 并将它们
  • Spring Cloud 学习笔记十五:搭建微服务工程之Knife4j 介绍及使用

    目录 Knife4j 介绍及使用 Knife4j 介绍及使用 Knife4j的前身是swagger bootstrap ui 前身swagger bootstrap ui是一个纯swagger ui的ui皮肤项目 具体介绍见官方文档 htt
  • 商业数据分析概论

    我正在和鲸社区参加 商业数据分析训练营活动 https www heywhale com home competition 6487de6649463ee38dbaf58b 以下是我的学习笔记 学习主题 波士顿房价数据快速查看 日期 202
  • Java进阶--编译时注解处理器(APT)详解

    本文同步发布在掘金 未经本人允许不得转载 上篇文章 Java进阶 Java注解及其实例应用 我们使用注解 反射实现了一个仿ButterKnife功能的示例 考虑到反射是在运行时完成的 多少会影响程序性能 因此 ButterKnife本身并非
  • JDBC连接数据库常用的一些配置项

    最近在服务器中部署服务遇到了一个连接超时的报错CommunicationsException 查找解决方法后发现可以通过配置JDBC重连来解决 添加 autoReconnect true failOverReadOnly false 配置在
  • pg_dump 命令

    pg数据库安装目录 bin 下面 有 pg dump exe cmd切换到 安装目录 bin 下 使用pg dump 命令 pg dump help 查看命令详情 导出sql语句 如下 将 10 20 25 224 主机的 数据库fdb11
  • [深度学习]更好地理解正则化:可视化模型权重分布

    在机器学习中 经常需要对模型进行正则化 以降低模型对数据的过拟合程度 那么究竟如何理解正则化的影响 本文尝试从可视化的角度来解释其影响 首先 正则化通常分为三种 都是在loss函数的基础上外加一项 L0 即不等于0的元素个数 L1 即所有元
  • 剪映电脑版_剪映如何剪视频?详细图文教程+更多进阶高级玩法,新手必看!...

    短视频的火爆 平台上出现了各式各样酷炫的视频 因此 许多人也想做出高逼格的视频 但相信大部分的人都会遇到这么一个难题 那就是从未接触过剪辑 不知道视频要怎么优化处理 今天这篇文章 就带着小伙伴们了解一款非常适合新手的手机剪辑软件一一剪映AP
  • Qt5教程: (4) 带参数信号与槽

    在subwidget h中声明一个signal 和之前的信号函数重名但是有参数 void backSignal QString 之后在subwidget cpp的槽函数sendSignal 中也发送该信号 emit backSignal 子
  • Java 爬虫遇到需要登录的网站,该怎么办?

    这是 Java 网络爬虫系列博文的第二篇 在上一篇 Java 网络爬虫 就是这么的简单 中 我们简单的学习了一下如何利用 Java 进行网络爬虫 在这一篇中我们将简单的聊一聊在网络爬虫时 遇到需要登录的网站 我们该怎么办 在做爬虫时 遇到需
  • 为什么uzi排到古手羽就秒_Uzi排到古手羽秒退,网友争相发表看法,直播间弹幕疑似给出答案...

    英雄联盟职业选手Uzi是一位热门人物 他在自己的职业生涯当中也取得过很多令人羡慕的职场比赛成就 因为自己征战的时间较久 多年来也累积了大批量的粉丝 因为他的努力与执着 如今也凝聚了不少喜欢他的真爱粉丝 甚至有不少黑他的粉丝都因此得出了感情
  • C语言面试高频问题:自己代码实现字符串相关的常用API

    参考 C语言面试高频问题 自己代码实现字符串相关的常用API 作者 图触靓 发布时间 2020 08 08 13 31 33 网址 https blog csdn net bhbhhyg article details 107878102
  • 学习《Linux从入门到精通》day-4

    1 cal指令 作用 用来操作日历 语法1 cal 等价于 cal 1 直接输出当前月份的日历 语法2 cal 3 表示输出上一个月 本月 下个月的日历 语法3 cal y 年份 表示输出某一年的日历 语法4 cal m 以周一开头 2 c
  • 自定义windows登录认证(微软 Credential Providers 详解一《调用原理》)

    windows登录认证在不同的windows版本中有不同的方式 在xp中使用gina dll 而在win7及以上版本使用Credential Providers 在win8及以上版本也是使用Credential Providers但是与wi
  • 深度学习(二)(loss、BP、正则化、激活函数)

    神经网络基础 目录 神经网络基础 5 得分函数 6 损失函数 7 前向传播整体流程 8 反向传播计算方法 9 神经网络整体架构 10 神经网络架构细节 11 神经元的个数对结果的影响 12 正则化与激活函数 13 神经网络过拟合解决办法 5