mcts中,是如何模拟对方怎么下棋的,进而考虑ucb中的v值的
在MCTS中,模拟对方怎么下棋可以使用随机模拟(Rollout)的方法。具体地,我们可以利用随机策略模拟对手生成一条随机游戏轨迹,然后利用这条随机轨迹计算当前状态的收益值或V值,进而考虑UCB中的V值。
假设当前搜索树中的节点为S,S的一个子节点为A,我们希望计算A的UCB值。如果我们知道了S和A的状态表示,我们可以随机模拟若干次对手的决策,得到一些随机的对手的决策序列,然后在这些决策序列上计算A的平均收益值或V值。一般来说,我们会执行若干次随机模拟,每个模拟都会产生一个估计值,然后将这些估计值求平均作为A的V值。在这个过程中,我们假设随机模拟算法也是以UCB算法为基础,即每个状态的选择动作是按照UCB算法进行的。
需要注意的是,这种随机模拟方法通常只在叶子节点上执行,因为在非叶子节点上计算V值时,我们会采用S和A已有的统计信息,而不是随机模拟的结果。此外,如果当前状态是一个终止状态,那么它的V值就直接是收益值或者代价值等。
在计算UCB值时,我们结合A的平均收益值或V值以及A被访问的次数(N(A))来计算UCB值