我看到一篇论文中的强化学习的状态是手动输入的,即通过导入状态数据集进行训练网络,但是之前学习的强化网络都是只输入初始状态,进而自动更新下一时刻的状态,从而训练网络,请问导入状态数据集的做法是否正确?
论文:Deep Reinforcement Learning for Online Computation Offloading论文源码解析: