有关强化学习算法理解

for iteration=1,2,~do
iteration是迭代也就是算法训练步骤，
For horizon=1,2,…,T do中T就是范围，马尔可夫决策总步长
整体：就是初始化参数，选择动作与策略
是这样理解吧

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^