强化学习中的策略梯度算法，$\pi(\theta)$ Π（θ）是一个怎么的函数呢？对应的动作空间是有限的？还是无限的呢？

一般采用策略梯度的方法，是不是对应的动作空间是有限的呢？比如动作空间有{上，下，左，右}，但是对当前状态的施加某个动作的概率是不一定的，所以要寻找最佳的动作策略，是吗？