为什么DQN收敛趋势的方向呈现递减趋势?越训练越倒退?
如图所示,一开始每个episode能取到0.8左右的总奖励,但是越训练越下降,到最后只能取到0.2左右?
DQN算法是一种强化学习算法,它的目的是通过训练,让智能体学习如何在特定的环境中做出最优的决策。
在DQN算法中,智能体会不断地在环境中进行决策,并通过反馈(奖励或惩罚)来更新自己的行为模型。在初始阶段,智能体的行为模型是随机的,它会在环境中随机决策。随着智能体不断学习,它的行为模型会逐渐变得更加准确,并且能够做出更优的决策。
在训练过程中,智能体的行为模型会不断变化,导致它的决策质量也会不断变化。如果智能体学习的过程没有被正确调节,它的行为模型可能会在某个阶段变得过于复杂,导致智能体在接下来的学习过程中出现过拟合现象。
在这种情况下,智能体的决策质量可能会出现递减趋势,即越训练越倒退