首先,我做了一个棋类游戏。它可以选择模式来自我对抗。(用到了一丢丢简单的AI)
然后,我要用训练ANN使之成为“较为有棋力的棋手”。
结果是,它也就比全random乱下好一点。
ANN:
1. 我建立的是全联接,weight 控制在(-1,1),会用+1 来balance
2. Input 代表的下一步棋局的state(即 黑棋全为正数,白棋全为负数,空为0,组成一个array), output 这是这个input 经过ANN的计算后得到最后一层hidden layer之和。然后最高的就被认为是对黑棋最好的下法。 这里会将所有可能的state都计算一遍,取最高值。
3. 计算白棋的时候,则是将input 的顺序改变,其余不变,取最小的值
所以我想问有大神知道是怎么一回事吗?