强化学习中,将Q-learning算法中greedy的评估策略改为和行为策略一样的e-greedy策略,此时和Sarsa算法等效吗?

以下是Sarsa算法与Q-learning算法的大致流程图,并提出了一种Q-learning变种算法:

  • Sarsa算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
更新Q(S1, A1)以Q(S2, A2)更新Q(S2, A2)以Q(S3, A3)……
  • Q-learning算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
greedya2greedya3……
更新Q(S1, A1)以Q(S2, a2)更新Q(S2, A2)以Q(S3, a3)……
  • Q-learning变种算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
e-greedya2e-greedya3……
更新Q(S1, A1)以Q(S2, a2)更新Q(S2, A2)以Q(S3, a3)……

Q-learning变种算法使用两个相同的e-greedy策略,其中评估策略生成的行为a2, a3等并没有实际采用。这种算法依然是off-policy的吗?和Sarsa算法等效吗?算法冒险与否主要是来自于是on-policy和off-policy的区别还是e-greedy和greedy策略的区别?
【经过实验,我发现Q-learning变种算法也倾向于找到更安全的路径,与Sarsa算法类似,而不是像Q-learning算法一样冒险、激进。】