首页
编程
java
php
前端
首页
编程
java
php
前端
强化学习中,对某一种策略采用迭代法进行评估,其迭代公式是根据bellman逆推的,请问过程如何?
迭代公式为:
$v_{k+1}(s) = \sum_{a \in A}\pi(a|s)(R_s^a+\gamma \sum_{s' \in S}P_{ss'}^a v_k(s'))$
点击展开全文