强化学习求解车间调度

算法架构中第3行是迭代,第4行for horizonot我个人觉得应该是时间步长,但不是很清楚,不是判断机器集是否故障的吧

img


算法解释:在代理与环境的交互中,环境被定义为一组列表,其中包含分配的机器和处理时间。对于车间环境,agent需要观察每个时刻的环境状态信息,即工件的加工状态以及指定的机器矩阵和加工时间矩阵,然后采取行动,为空闲的机器选择工件,使工件得到连续有序的处理,尽可能缩短最大完成时间。动作执行后,agent收到环境给出的关于机器利用率和makespan的奖励函数和环境的下一个状态,触发系统的下一个时间步骤。
在代理策略更新部分,从缓冲区中采样小批量来更新π(θ)。其中,根据随机梯度上升法更新参数θ,优化PPO算法的目标函数Lt(θ)。

有没有运行日志呀!发给我看一下

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^