强化学习中，对于连续状态空间和高维动作空间，采用什么方法？

1，强化学习中，对于连续状态空间和高维动作空间，采用什么方法？
2. DPG则是确定性策略梯度与AC算法的结合，Actor采用随机策略，Critic采用确定性策略。不明白Actor和Critic之间的联系

分层强化学习