我想要知道这里"重复"的整个过程,到底是怎么个重复法 要特别详细的说明
我的理解,类似于DQN中的经验池(experience replay buffer)behavior policy采样得到的结果记录到经验池中在更新target policy的时候在经验池进行随机采样,这样就实现了样本的重复利用而这时候target policy和behavior policy对应的参数不同,因此可以引入importance sampling ratio纠正偏差