PPO用的是Clipped Surrogate Objective的这种方法,来做为目标函数,没有搞懂的是里面的熵目标是怎么来的,而且最后PPOactor更新是这种加和的方式,我看了Proximal Policy Optimization Algorithms的论文,可能是我没找到,还是有一点不懂。
在PPO(Proximal Policy Optimization)算法中,Actor的更新方式是通过最大化目标函数来更新策略参数。具体来说,PPO使用两种不同的策略更新方法:PPO-Clip和PPO-Penalty。
PPO-Clip:PPO-Clip方法通过限制策略更新的幅度来提高训练的稳定性。它使用一个剪切函数来限制新策略与旧策略之间的差异。具体而言,PPO-Clip方法的目标是最大化一个被剪切的优势函数,即最大化新策略与旧策略之间的比率,同时限制这个比率的范围在一个预先设定的区间内。
PPO-Penalty:PPO-Penalty方法通过在目标函数中引入一个惩罚项来更新策略参数。这个惩罚项的作用是限制新策略与旧策略之间的差异。具体而言,PPO-Penalty方法的目标是最大化一个带有惩罚项的优势函数,即最大化新策略与旧策略之间的比率,同时惩罚超过预先设定的阈值的比率。
这两种方法都旨在平衡策略更新的幅度,以确保训练的稳定性和收敛性。通过使用这些方法,PPO能够在训练过程中逐步改进策略,以获得更好的性能。