首页
编程
java
php
前端
首页
编程
java
php
前端
有关强化学习算法理解
for iteration=1,2,~do
iteration是迭代也就是算法训练步骤,
For horizon=1,2,…,T do中T就是范围,马尔可夫决策总步长
整体:就是初始化参数,选择动作与策略
是这样理解吧
不知道你这个问题是否已经解决, 如果还没有解决的话:
看下这篇博客,也许你就懂了,链接:
机器学习之异常检测算法
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
点击展开全文