目录
1.梯度下降
2.bias和variance
1.梯度下降
利用梯度下降寻找最优解是,如果在该点的梯度为负(向下),则需要增加参数大小;如果梯度为正(向上),则需要减小参数大小。
![](https://img-blog.csdnimg.cn/e5e0a268f0a641b3a9dd1d49255fe9f4.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAa29uZ3FpbmcyMw==,size_20,color_FFFFFF,t_70,g_se,x_16)
计算时,减去学习率*偏导表示和梯度方向反向,即负的就要增加,正的就要减少。
![](https://img-blog.csdnimg.cn/0f218a3e6c374e83b9c4c59820187d92.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAa29uZ3FpbmcyMw==,size_11,color_FFFFFF,t_70,g_se,x_16)
正则化使曲线更平滑,不考虑偏置(偏置只是将曲线上下移动,不影响平滑度)。
2.bias和variance
简单的函数式拟合出来的效果往往variance更小,但bias较大。
复杂的多项式拟合出来的效果往往variance比较大,但bias较小。
可以通过多次拟合曲线,最后求平均来观察。
![](https://img-blog.csdnimg.cn/a5b9bf21b986435a99ad9e1fc673daa7.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAa29uZ3FpbmcyMw==,size_20,color_FFFFFF,t_70,g_se,x_16)
bias大往往是欠拟合的表现。
当bias大时,可以考虑增加特征的输入;或者换用更复杂的模型。
variance大往往是过拟合的表现。
当variance太大时,可以考虑增加data。