我正在尝试构建一个包含卷积和 LSTM(使用 Torch 库)的神经网络,以通过 Q 学习或优势学习进行训练,这两者都需要在更新状态 T 的权重之前通过网络传播状态 T+1。
必须进行额外的传播会降低性能,这很糟糕,但不是too坏的;然而,问题是这里面涉及到各种状态。首先,Torch 的反向传播实现有一些效率捷径,这些捷径依赖于前向传播之后立即发生的反向传播,而额外的传播会造成混乱。我可以通过共享权重值的辅助克隆网络来解决这个问题,但我们遇到了第二个问题。
每个涉及 LSTM 的前向传播都是有状态的。当传播网络(T+1)可能改变了 LSTM 的内容时,如何更新 T+1 时的权重?我曾尝试查看 TD-Gammon 中对 TD 权重更新的讨论,但它对我来说很迟钝,而且无论如何都是前馈,而不是经常性的。
如何在 T 处更新网络的权重,而不必将网络推进到 T+1,或者如何将网络推进到 T+1,然后返回并调整权重,就好像它仍然是 T 一样?
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)