深度学习（二）（loss、BP、正则化、激活函数）

2023-11-02

神经网络基础

5、得分函数

6、损失函数

5、得分函数

线性函数：从输入à输出的映射，f（x-图像数据，w-权重参数，b-微调）= wx + b每个类别的得分

6、损失函数

损失函数：Li（衡量权值的优劣）

正则化惩罚项：只考虑权重参数的影响

损失函数=数据损失+正则化惩罚项

（越强大的神经网络，越容易过拟合）

7、前向传播整体流程

整个过程就是fàL的过程

Softmax分类器：

归一化：得到0-1的值

计算损失值

8、反向传播计算方法

更新模型——这个就交给反向传播了（梯度下降-求导（或者偏导））

链式法则：梯度是一步一步传递的

10、神经网络架构细节

层次结构：输入层、隐藏层、输出层

神经元：数据

全连接：其中注意输入的数量，权重矩阵的大小，最终的效果主要取决于权值

非线性：[（xw1）w2]w3，不能这样，非线性变换（sigmod、max函数等）

12、正则化与激活函数

增加一个神经元，隐藏层参数增加很大

惩罚力度对结果的影响，惩罚力度较小，效果不太好；最终主要还是测试集达到好的效果，训练集体现好，可能存在过拟合的情况

参数个数对结果的影响：权重参数（权重矩阵64、128、256、512）

正则化：它是一种非常实用的减少方差的方法，正则化时会出现偏差方差权衡问题，偏差可能略有增加，如果网络足够大，增幅通常不会太高。

过拟合、高偏差的解决：1）正则化

2）增加数据

过拟合：一开始经过迭代若干次损失函数为0的情况叫做过拟合，训练集和测试集是有差异的，过分去拟合了训练集，放大了差异性，衰弱了共性，回归损失函数为0的情况说明你拟合了噪声，最后导致了效果差，换句话说拟合函数的过程中模型需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值)非常大，但是损失函数附加了参数的平方和，导致整个算法不会让参数变的过大，使得拟合函数波动变小。这个参数的平方和就是一种正则化项，用来解决过拟合问题。损失函数加正则项，一般称为目标函数。

逻辑回归中实现L2正则化。其中，正则化部分通常表示为：

神经网络中实现正则化。可表示为

其中L表示层数

该矩阵范数称为“弗罗贝尼乌斯范数”，用下标F标注。是正则化参数，通常使用验证集或交叉验证集来配置这个参数。L2正则化有时被称为：权重衰减

Sigmoid：存在梯度消失的情况（无穷大和无穷小的时候，梯度趋于0）

Relu：

13、神经网络过拟合解决办法

前面也有提到相关的办法。数据预处理——标准化

参数初始化——

一开始给一个随机值

正则化：有利于预防过拟合

总结一下，如果正则化参数变得很大,参数W很小,z也会相对变小，此时忽略b的影响z会相对变小，实际上，z的取值范围很小，这个激活函数，也就是曲线函数tanh会相对呈线性，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，并不是一个极复杂的高度非线性函数，不会发生过拟合。（注意定义的J函数，它包含第二个正则化项，否则函数J可能不会在所以调幅范围内都单调递减）

Dropout正则化：“随机失活”，设置了消除神经网络中节点的概率

实施Dropout——最常用的方法：inverted dropout（反向随机失活），其中通过除以keep-prob，确保其期望值不变。

测试阶段不使用Dropout，否则预测会受到干扰。

需要牢记一点，dropout是一种正则化方法，它有助于预防过拟合，因此除非算法过拟合，不然是不会使用dropout的，所以它在其它领域应用得比较少，主要存在于计算机视觉领域，通常因为没有足够的数据，所以一直存在过拟合，这就是有些计算机视觉研究人员如此钟情于dropout函数的原因。

dropout一大缺点就是代价函数J不再被明确定义，每次迭代，都会随机移除一些节点，如果再三检查梯度下降的性能，实际上是很难进行复查的。定义明确的代价函数J每次迭代后都会下降，因为我们所优化的代价函数J实际上并没有明确定义，或者说在某种程度上很难计算,所以我们失去了调试工具来绘制这样的图片。我通常会关闭dropout函数，将keep-prob的值设为1，运行代码，确保J函数单调递减。然后打开dropout函数，希望在dropout过程中，代码并未引入 bug。我觉得你也可以尝试其它方法，虽然我们并没有关于这些方法性能的数据统计，但你可以把它们与dropout方法一起使用。

其他解决过拟合办法：数据扩增（翻转、裁剪）、early stopping

正交化实现减少方差。

附：主要参考了吴恩达深度学习课程

https://www.bilibili.com/video/BV15t4y1G7kq?p=5&vd_source=200eb8f70ee525f2747b0dbbe1d06ab0

https://www.bilibili.com/video/BV16r4y1Y7jv?spm_id_from=333.999.0.0

https://hekuan.blog.csdn.net/article/details/79827273?spm=1001.2014.3001.5506

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习笔记

学习之路

深度学习（二）（loss、BP、正则化、激活函数）的相关文章

深度学习笔记1：end-to-end、anchor box解释、人体检测代码

SSD xff08 SSD Single Shot MultiBox Detector xff09 是采用单个深度神经网络模型实现目标检测和识别的方法该方法是综合了Faster R CNN的anchor box和YOLO单个神经网络检测思
【目标检测】目标检测中的标签分配

文章目录一前言二标签分配方法的分类 2 1 标签是否非负 2 2 是否有预测结果参与一前言在目标检测任务中标签分配起着关键的作用其目的是将样本划分成正样本和负样本然后与GT之间计算loss 决定模型如何学习和收敛二标
激活函数之softmax函数

1 softmax函数分类问题中使用的 softmax 函数可以用下面的式表示 exp x 是表示 ex 的指数函数 e 是纳皮尔常数 2 7182 式 3 10 表示假设输出层共有 n 个神经元计算第 k 个神经元的输出 yk 如式
【计算机视觉

文章目录一 Precision Recall 和 F1 score 二 IoU 三 mAP 四 AP 4 1 定义 4 2 分类 4 2 1 APs 4 2 2 APr 4 2 3 两者之间的区别一 Precision Recall 和
C++学习之路-构造函数的初始化列表

构造函数初始化列表一何为初始化列表二初始化列表的本质三初始化列表的优势四初始化列表中列表顺序问题五初始化列表与默认参数的配合使用六初始化列表的注意之处七构造函数的声明和实现分离时初始化列表需写在实现里八子
深度学习笔记（八）：目标检测性能评价指标（mAP、IOU..）

一 mAP 这里首先介绍几个常见的模型评价术语现在假设我们的分类目标只有两类计为正例 positive 和负例 negtive 分别是 1 True positives TP 被正确地划分为正例的个数即实际为正例且被分类器划分为正例的
【数据结构】--栈--括号匹配

在pop 那个地方卡了好一会原来是NULL这个情况没有考虑用栈实现输入一行符号以结束判断其中的括号是否匹配括号包括 lt gt 例如输入 Result as x lt lt gt gt right a b gt The 6
【计算机视觉

文章目录一前言二可以获得什么三入门实践 3 1 帮助文档 3 2 安装 3 3 模型的组成 3 4 BERT模型的使用 3 4 1 导入模型 3 4 2 使用模型 3 4 2 1 tokenizer 3 5 model 3 6
Java将List对象导入Excel文件

通过poi依赖将java对象写入excel之中核心理念是通过反射获取Java对象的getter方法和属性使用getter方法获取要写入excel中的值再通过属性上的自定义注解获取excel标题行然后以文件流的方式写入excel 代码
深度学习apex包安装失败的问题

文章目录一前言二正确的安装方法 2 1 从github上下载 2 2 切换到下载后的路径 2 3 进行安装一前言在进行论文复现的时候发现缺了一个重要的包 apex包这是NVIDIA开发的基于PyTorch的混合精度训练加速
【机器学习 & 深度学习】通俗讲解集成学习算法

目录集成学习一机器学习中的集成学习 1 1 定义 1 2 分类器 Classifier 1 2 1 决策树分类器 1 2 2 朴素贝叶斯分类器 1 2 3 AdaBoost算法 1 2 4 支持向量机 1 2 5 K近邻算法 1 3
深度学习（一）

目录 1 深度学习要解决的问题 2 深度学习应用领域 3 计算机视觉任务 4 视觉任务中遇到的问题 1 深度学习要解决的问题机器学习流程数据获取特征工程建立模型评估与应用深度学习跟人工智能更贴切机器学习中的一部分特征工程的作
深度学习笔记丨李沐深度学习课程kaggle竞赛——加利福尼亚房价预测（我的第一个深度学习项目）

记录作为小白的第一个深度学习项目 1 kaggle竞赛题目 The task is to predict house sale prices based on the house information such as of bedroom
caffe的学习笔记一——深度学习框架caffe介绍

1 深度学习框架caffe介绍 caffe的介绍谷歌有tensorflow 微软和百度都有自己的框架 caffe入手简单应用场景广很多公司用此框架完成工程项目 caffe是基于服务器端的要在PC端做这个事情目前深度学习很多场景都应
Ablation Study消融研究

作者飘哥链接 https www zhihu com question 291655038 answer 683038545 来源知乎著作权归作者所有商业转载请联系作者获得授权非商业转载请注明出处术语消融研究通常用于神经网
【torch】如何把把几个 tensor 连接起来？（含源代码）

一 cat 在 PyTorch 中要向一个 tensor 中添加元素你通常需要创建一个新的 tensor 然后将元素添加到新的 tensor 中 PyTorch tensors 是不可变的所以不能像列表一样直接追加元素以下是如何实现
IOU、GIOU、DIOU、CIOU、EIOU、Focal EIOU、alpha IOU损失函数分析及Pytorch实现

IOU Loss 算法作用 Iou的就是交并比预测框和真实框相交区域面积和合并区域面积的比值计算公式如下 Iou作为损失函数的时候只要将其对数值输出就好了 def Iou loss preds bbox eps 1e 6 reducti
机器学习基础（五）

决策树决策树是一种预测模型它代表着对象属属性与对象值之间的一种映射关系树中的每个节点代表一个对象分叉路径或者叫树枝则代表一个属性值决策树常用方法分类树分析是一种监督学习用于预计结果可能为离散类型回归树分析用于预计结果
pytorch 2.0.1 版本 [gpu] 安装

安装Anaconda 1 下载官网我们下载anaconda的目的主要是为了下一步的python环境管理所以不考虑anaconda与已有的python的版本是否匹配的问题下方点击之后会出现可以根据自己的需要下载安装包本文以Windo
高效计算基础与线性分类器

七月算法5月深度学习班课程笔记 No 2 1 深度学习与应用 1 图像上的应用可以根据图片识别图片的内容描述图像模仿人的创造性生成画作相册自动归类等 2 NLP上的应用用RNN学习某作家的文笔风格进行写作学习代码写作等下图为

随机推荐

js-数组遍历方法forEach和map的原理解析和实际应用

数组遍历方法forEach和map的原理解析和实际应用目录数组遍历方法forEach和map的原理解析和实际应用一前言二代码 1 相同点 2 forEach 3 map 三结语一前言 forEach和map是数组的两个方法
人们热议的Web3究竟是什么？

Web3已经是一个热词几乎每个行业甚至很多的人都可以从中讲到机会那么这个机会究竟是什么呢又该作哪些准备呢作为一个新兴领域加密圈盛产各种新概念哪怕是随便关注下就知道它总能产生源源不断的行业术语诸如NFT DApp DeFi和
测试sqlite数据库可承载数据量

环境 vmvare10 1 ubuntu14 04 sqlite3 一创建数据库在当前文件夹下执行以下命令如已有数据库则打开若没有则创建二创建所需表 Creat table mysqlitetest id TEXT name
同学，同事，KTV聚会的小游戏

1 吸心大全搞个扑克用嘴吸住传给旁边的人他在吸过去依次传下去谁掉了就喝酒 2 两个人一队一定要男女搭配哦一个人口里含一口水或者饮料都可以然后说裁判指定的话由另一人来猜规定时间里猜对最多的就算赢 3 弄个超大的骰子这个估
最小二乘法,最大似然估计

最小二乘法最大似然估计一最小二乘法 1 基本思想 2 作用 3 如何求解最小二乘法二最大似然估计 1 概念 2 似然估计的思想是 3 如何求解最大似然估计三最小二乘法和最大似然估计的联系和区别四总结一最小二乘法最小二乘
gamma分布的推导与理解

1 概述 gamma分布与指数分布泊松分布甚至其它一些混合分布有较为紧密的联系本文通过对比与之相关的概率分布建立某种联系并推导其概率密度函数以便加深理解与认知 2 Gamma分布的必要性在设置 Gamma 分布的两个参数并将它们
Spring Cloud 学习笔记十五：搭建微服务工程之Knife4j 介绍及使用

目录 Knife4j 介绍及使用 Knife4j 介绍及使用 Knife4j的前身是swagger bootstrap ui 前身swagger bootstrap ui是一个纯swagger ui的ui皮肤项目具体介绍见官方文档 htt
商业数据分析概论

我正在和鲸社区参加商业数据分析训练营活动 https www heywhale com home competition 6487de6649463ee38dbaf58b 以下是我的学习笔记学习主题波士顿房价数据快速查看日期 202
Java进阶--编译时注解处理器（APT）详解

本文同步发布在掘金未经本人允许不得转载上篇文章 Java进阶 Java注解及其实例应用我们使用注解反射实现了一个仿ButterKnife功能的示例考虑到反射是在运行时完成的多少会影响程序性能因此 ButterKnife本身并非
JDBC连接数据库常用的一些配置项

最近在服务器中部署服务遇到了一个连接超时的报错CommunicationsException 查找解决方法后发现可以通过配置JDBC重连来解决添加 autoReconnect true failOverReadOnly false 配置在
pg_dump 命令

pg数据库安装目录 bin 下面有 pg dump exe cmd切换到安装目录 bin 下使用pg dump 命令 pg dump help 查看命令详情导出sql语句如下将 10 20 25 224 主机的数据库fdb11
[深度学习]更好地理解正则化：可视化模型权重分布

在机器学习中经常需要对模型进行正则化以降低模型对数据的过拟合程度那么究竟如何理解正则化的影响本文尝试从可视化的角度来解释其影响首先正则化通常分为三种都是在loss函数的基础上外加一项 L0 即不等于0的元素个数 L1 即所有元
剪映电脑版_剪映如何剪视频？详细图文教程+更多进阶高级玩法，新手必看！...

短视频的火爆平台上出现了各式各样酷炫的视频因此许多人也想做出高逼格的视频但相信大部分的人都会遇到这么一个难题那就是从未接触过剪辑不知道视频要怎么优化处理今天这篇文章就带着小伙伴们了解一款非常适合新手的手机剪辑软件一一剪映AP
Qt5教程: (4) 带参数信号与槽

在subwidget h中声明一个signal 和之前的信号函数重名但是有参数 void backSignal QString 之后在subwidget cpp的槽函数sendSignal 中也发送该信号 emit backSignal 子
Java 爬虫遇到需要登录的网站，该怎么办？

这是 Java 网络爬虫系列博文的第二篇在上一篇 Java 网络爬虫就是这么的简单中我们简单的学习了一下如何利用 Java 进行网络爬虫在这一篇中我们将简单的聊一聊在网络爬虫时遇到需要登录的网站我们该怎么办在做爬虫时遇到需
为什么uzi排到古手羽就秒_Uzi排到古手羽秒退，网友争相发表看法，直播间弹幕疑似给出答案...

英雄联盟职业选手Uzi是一位热门人物他在自己的职业生涯当中也取得过很多令人羡慕的职场比赛成就因为自己征战的时间较久多年来也累积了大批量的粉丝因为他的努力与执着如今也凝聚了不少喜欢他的真爱粉丝甚至有不少黑他的粉丝都因此得出了感情
C语言面试高频问题：自己代码实现字符串相关的常用API

参考 C语言面试高频问题自己代码实现字符串相关的常用API 作者图触靓发布时间 2020 08 08 13 31 33 网址 https blog csdn net bhbhhyg article details 107878102
学习《Linux从入门到精通》day-4

1 cal指令作用用来操作日历语法1 cal 等价于 cal 1 直接输出当前月份的日历语法2 cal 3 表示输出上一个月本月下个月的日历语法3 cal y 年份表示输出某一年的日历语法4 cal m 以周一开头 2 c
自定义windows登录认证（微软 Credential Providers 详解一《调用原理》）

windows登录认证在不同的windows版本中有不同的方式在xp中使用gina dll 而在win7及以上版本使用Credential Providers 在win8及以上版本也是使用Credential Providers但是与wi
深度学习（二）（loss、BP、正则化、激活函数）

神经网络基础目录神经网络基础 5 得分函数 6 损失函数 7 前向传播整体流程 8 反向传播计算方法 9 神经网络整体架构 10 神经网络架构细节 11 神经元的个数对结果的影响 12 正则化与激活函数 13 神经网络过拟合解决办法 5

深度学习（二）（loss、BP、正则化、激活函数）

深度学习（二）（loss、BP、正则化、激活函数） 的相关文章

随机推荐

热门标签

深度学习（二）（loss、BP、正则化、激活函数）的相关文章