第一步:模仿学习;向AI展示一个庞大的超过9000帧来自玩家的游戏数据,他们会试图分析模仿;
第二步:强化学习;把AI小人扔进一个虚拟的游戏世界,让他们通过反复的实验来发现和解决问题;
例如AI学会下围棋,最初就是通过输入游戏数据它们掌握了规则,然后一遍又一遍的模拟,当上亿万次模拟之后,无数的可能性被AI记住,那个时候它就超越了所有的人类。
就是这样做的啊。(参考https://baijiahao.baidu.com/s?id=1653855220945970792&wfr=spider&for=pc)