Nadam
Nadam (Nesterov-accelerated Adaptive Moment Estimation)结合了Adam和NAG的梯度优化方法。为了将NAG方法融入Adam,需要修改下Adam的momentum项
回顾momentum更新规则:
其中J是目标函数,是衰减因子,是步长大小。
展开梯度更新公式:
momentum的更新过程同时参考了历史momentum的方向和当前梯度的方向。
Momentum结合NAG
结合NAG的方法,在更新梯度之前,提前用历史momentum更新目标函数。
但是这个过程要分两步更新两个参数,第一步先更新梯度g(t), 再更新参数(t+1),Dozat提出一种方法,将两个更新过程合并为一个过程:
回顾Adam的梯度更新过程
Adam的梯度更新过程如下:
展开梯度更新公式:
其中:
是前一时刻momentum向量的偏移矫正估计,我们可以用
来替换它,并且忽略
的分母项。
这个等式就与上面扩展的momentum更新规则比较类似了,采用类似的处理的方式,得到以下更新规则: