强化学习中，将Q-learning算法中greedy的评估策略改为和行为策略一样的e-greedy策略，此时和Sarsa算法等效吗？

以下是Sarsa算法与Q-learning算法的大致流程图，并提出了一种Q-learning变种算法：

Sarsa算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
					更新Q(S1, A1)以Q(S2, A2)			更新Q(S2, A2)以Q(S3, A3)	……

Q-learning算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
				greedy	a2		greedy	a3	……
					更新Q(S1, A1)以Q(S2, a2)			更新Q(S2, A2)以Q(S3, a3)	……

Q-learning变种算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
				e-greedy	a2		e-greedy	a3	……
					更新Q(S1, A1)以Q(S2, a2)			更新Q(S2, A2)以Q(S3, a3)	……

Q-learning变种算法使用两个相同的e-greedy策略，其中评估策略生成的行为a2, a3等并没有实际采用。这种算法依然是off-policy的吗？和Sarsa算法等效吗？算法冒险与否主要是来自于是on-policy和off-policy的区别还是e-greedy和greedy策略的区别？
【经过实验，我发现Q-learning变种算法也倾向于找到更安全的路径，与Sarsa算法类似，而不是像Q-learning算法一样冒险、激进。】