关于强化学习状态的输入问题，python

我看到一篇论文中的强化学习的状态是手动输入的，即通过导入状态数据集进行训练网络，但是之前学习的强化网络都是只输入初始状态，进而自动更新下一时刻的状态，从而训练网络，请问导入状态数据集的做法是否正确？

论文：Deep Reinforcement Learning for Online Computation Offloading
论文源码解析：