关于强化学习中Actor-Critic问题

最近学习强化学习，看了书，听了课之后，有几个疑惑，希望可以得到解答

Actor-Critic中的 V(s') 这个下一个时刻的状态价值函数是怎么得到的，是当前时刻系统在 s 状态下采取了动作 a 然后进入到下一个时刻得到状态 s' ，然后将 s' 输入到 Critic 网络中得到 V(s') ，然后再利用 TD_Error 对网络更新吗？
Actor-Critic 算法最终学到得东西是 Actor Net 和 Critic Net 两个网络吗？