option分层强化学习问题

我是在不理解这个option究竟是什么
我有一个强化学习的动作里面包含四部分，利用传统的强化学习，要学习到一个策略可能需要与环境交互四次（动作包含四部分），这样的话样本量虽然大，但是质量不高。
而利用基于option的分层强化学习，option是时序抽象的action，也就是说把action的四部分抽象成一个option，每个option对应一定的策略，用策略去指导做出动作，改变状态，重复过程，使得option的策略达到最优，利用option使得与环境交互次数少，但是样本的质量有所提高，利用option的经验可以加速以后任务的学习，样本利用率也提高了。
我理解的对吗