为什么DQN收敛趋势的方向呈现递减趋势？越训练越倒退？

如图所示，一开始每个episode能取到0.8左右的总奖励，但是越训练越下降，到最后只能取到0.2左右？

DQN算法是一种强化学习算法，它的目的是通过训练，让智能体学习如何在特定的环境中做出最优的决策。

在DQN算法中，智能体会不断地在环境中进行决策，并通过反馈（奖励或惩罚）来更新自己的行为模型。在初始阶段，智能体的行为模型是随机的，它会在环境中随机决策。随着智能体不断学习，它的行为模型会逐渐变得更加准确，并且能够做出更优的决策。

在训练过程中，智能体的行为模型会不断变化，导致它的决策质量也会不断变化。如果智能体学习的过程没有被正确调节，它的行为模型可能会在某个阶段变得过于复杂，导致智能体在接下来的学习过程中出现过拟合现象。

在这种情况下，智能体的决策质量可能会出现递减趋势，即越训练越倒退