首页
编程
java
php
前端
首页
编程
java
php
前端
关于强化学习中Actor-Critic问题
最近学习强化学习,看了书,听了课之后,有几个疑惑,希望可以得到解答
Actor-Critic中的 V(s') 这个下一个时刻的状态价值函数是怎么得到的,是当前时刻系统在 s 状态下采取了动作 a 然后进入到下一个时刻得到状态 s' ,然后将 s' 输入到 Critic 网络中得到 V(s') ,然后再利用 TD_Error 对网络更新吗?
Actor-Critic 算法最终学到得东西是 Actor Net 和 Critic Net 两个网络吗?
点击展开全文