强化学习求解车间调度

算法架构中第3行是迭代，第4行for horizonot我个人觉得应该是时间步长，但不是很清楚，不是判断机器集是否故障的吧

算法解释:在代理与环境的交互中，环境被定义为一组列表，其中包含分配的机器和处理时间。对于车间环境，agent需要观察每个时刻的环境状态信息，即工件的加工状态以及指定的机器矩阵和加工时间矩阵，然后采取行动，为空闲的机器选择工件，使工件得到连续有序的处理，尽可能缩短最大完成时间。动作执行后，agent收到环境给出的关于机器利用率和makespan的奖励函数和环境的下一个状态，触发系统的下一个时间步骤。
在代理策略更新部分，从缓冲区中采样小批量来更新π(θ)。其中，根据随机梯度上升法更新参数θ，优化PPO算法的目标函数Lt(θ)。

有没有运行日志呀！发给我看一下

不知道你这个问题是否已经解决, 如果还没有解决的话:

这篇博客也许可以解决你的问题👉 ：强化学习如何调整参数

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^