在使用PPO策略训练强化学习模型的时候如何评价模型好坏以及判断是否收敛呢？

最近在利用强化学习的PPOPolicy训练模型，最后输出的结果如图，想问一下如何去判断是否收敛以及用什么指标去判断模型的优劣呢