强化学习为什么要引入马尔可夫

强化学习为什么要引入马尔可夫决策过程？为什么要把马尔可夫决策过程作为理论依据？马尔可夫性质对强化学习有什么关键点是不能被替代的？

大部分带有随机的算法证明收敛都是用马尔可夫来做的，比如pso的收敛验证，ga的收敛等一众进化演化算法