1,强化学习中,对于连续状态空间和高维动作空间,采用什么方法?2. DPG则是确定性策略梯度与AC算法的结合,Actor采用随机策略,Critic采用确定性策略。不明白Actor和Critic之间的联系
分层强化学习