
强化学习在车间调度的应用,调度规则。
如当前的决策点处,采用SPT选择最短处理时间进行动作的选择,所以调度规则就是为了选取动作。
但我不明白的是:
我的理解:强化学习是一个实时调度,那么工序在哪个机器上进行加工,(完整的甘特图),是最后所有操作调度完成后才知道的。
FIFO 先进先出,那么所用工件是同时到达的吗,还是针对的是工序
不知道这样理解对不对?
不知道你这个问题是否已经解决, 如果还没有解决的话:
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^