关于强化学习状态的输入问题,python

我看到一篇论文中的强化学习的状态是手动输入的,即通过导入状态数据集进行训练网络,但是之前学习的强化网络都是只输入初始状态,进而自动更新下一时刻的状态,从而训练网络,请问导入状态数据集的做法是否正确?

论文:Deep Reinforcement Learning for Online Computation Offloading
论文源码解析:

img

img

你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答


本次提问扣除的有问必答次数,已经为您补发到账户,我们后续会持续优化,扩大我们的服务范围,为您带来更好地服务。