我用相同的种子在 Google colab 上运行 DRL 模型,根本没有做任何更改,但得到了不同的结果。
这个模型的目的是在 MNIST数据集上训练让agent学会绘画。
有时候它成功训练出模型。下面的图片是在验证时agent随着训练次数增加画出的图像,可以看出它在优化策略。
但有的时候,它不能训练出模型,而且在训练期间一直得到的都是负的奖励, Q 值也一直是负的,感觉策略网络一直没有优化并且总是做同样的动作。
我不知道为什么,我想也许 colab 使用了不同的 GPU,然后初始化的神经网络参数不一样导致这样的问题吗?还是说我的超参数和网络结构设置的问题。
关键是为什么有时候成功有时候失败呢??