使用ANN来coevolution（共同进步），但是结果却不尽人意

首先，我做了一个棋类游戏。它可以选择模式来自我对抗。（用到了一丢丢简单的AI）
然后，我要用训练ANN使之成为“较为有棋力的棋手”。
结果是，它也就比全random乱下好一点。

ANN：
1. 我建立的是全联接，weight 控制在(-1,1)，会用+1 来balance
2. Input 代表的下一步棋局的state(即黑棋全为正数，白棋全为负数，空为0，组成一个array)， output 这是这个input 经过ANN的计算后得到最后一层hidden layer之和。然后最高的就被认为是对黑棋最好的下法。这里会将所有可能的state都计算一遍，取最高值。
3. 计算白棋的时候，则是将input 的顺序改变，其余不变，取最小的值

所以我想问有大神知道是怎么一回事吗？