在训练一个transformer模型时遇到的问题:在进行2-3轮迭代后loss基本不下降了(调节学习率基本没效果),且还伴随着一个问题:不同的输出,输出十分相似。想问问有人知道可能导致这个问题的原因吗?以及推荐尝试的解决办法。感谢。