不同的种子对相同 DRL 模型的结果有影响吗？(标签-网络|关键词-初始化)

我用相同的种子在 Google colab 上运行 DRL 模型，根本没有做任何更改，但得到了不同的结果。
这个模型的目的是在 MNIST数据集上训练让agent学会绘画。

有时候它成功训练出模型。下面的图片是在验证时agent随着训练次数增加画出的图像，可以看出它在优化策略。

但有的时候，它不能训练出模型，而且在训练期间一直得到的都是负的奖励， Q 值也一直是负的，感觉策略网络一直没有优化并且总是做同样的动作。

我不知道为什么，我想也许 colab 使用了不同的 GPU，然后初始化的神经网络参数不一样导致这样的问题吗？还是说我的超参数和网络结构设置的问题。

关键是为什么有时候成功有时候失败呢？？