样本网络训练梯度问题

LSTM利用批量样本进行训练,采用批量梯度下降,取平均梯度进行参数更新,但是却收敛到中心线上了,推导公式发现是误差相互抵消导致梯度为0不更新了,不知道怎么解决。

img

img

img

学习率调一下,可以用随机的。可以去看一些迭代过程中的优化方法,比如adam。随便用一种就可以解决的

考虑一下损失函数,改成relu