PPO中actor的更新方式

PPO用的是Clipped Surrogate Objective的这种方法，来做为目标函数，没有搞懂的是里面的熵目标是怎么来的，而且最后PPOactor更新是这种加和的方式，我看了Proximal Policy Optimization Algorithms的论文，可能是我没找到，还是有一点不懂。

在PPO（Proximal Policy Optimization）算法中，Actor的更新方式是通过最大化目标函数来更新策略参数。具体来说，PPO使用两种不同的策略更新方法：PPO-Clip和PPO-Penalty。

PPO-Clip：PPO-Clip方法通过限制策略更新的幅度来提高训练的稳定性。它使用一个剪切函数来限制新策略与旧策略之间的差异。具体而言，PPO-Clip方法的目标是最大化一个被剪切的优势函数，即最大化新策略与旧策略之间的比率，同时限制这个比率的范围在一个预先设定的区间内。
PPO-Penalty：PPO-Penalty方法通过在目标函数中引入一个惩罚项来更新策略参数。这个惩罚项的作用是限制新策略与旧策略之间的差异。具体而言，PPO-Penalty方法的目标是最大化一个带有惩罚项的优势函数，即最大化新策略与旧策略之间的比率，同时惩罚超过预先设定的阈值的比率。

这两种方法都旨在平衡策略更新的幅度，以确保训练的稳定性和收敛性。通过使用这些方法，PPO能够在训练过程中逐步改进策略，以获得更好的性能。