我是在不理解这个option究竟是什么
我有一个强化学习的动作里面包含四部分,利用传统的强化学习,要学习到一个策略可能需要与环境交互四次(动作包含四部分),这样的话样本量虽然大,但是质量不高。
而利用基于option的分层强化学习,option是时序抽象的action,也就是说把action的四部分抽象成一个option,每个option对应一定的策略,用策略去指导做出动作,改变状态,重复过程,使得option的策略达到最优,利用option使得与环境交互次数少,但是样本的质量有所提高,利用option的经验可以加速以后任务的学习,样本利用率也提高了。
我理解的对吗