transforme训练遇到的问题

在训练一个transformer模型时遇到的问题：在进行2-3轮迭代后loss基本不下降了（调节学习率基本没效果），且还伴随着一个问题：不同的输出，输出十分相似。想问问有人知道可能导致这个问题的原因吗？以及推荐尝试的解决办法。感谢。