样本网络训练梯度问题

LSTM利用批量样本进行训练，采用批量梯度下降，取平均梯度进行参数更新，但是却收敛到中心线上了，推导公式发现是误差相互抵消导致梯度为0不更新了，不知道怎么解决。