车间调度中运用调度规则

强化学习在车间调度的应用，调度规则。
如当前的决策点处，采用SPT选择最短处理时间进行动作的选择，所以调度规则就是为了选取动作。
但我不明白的是：
我的理解：强化学习是一个实时调度，那么工序在哪个机器上进行加工，（完整的甘特图），是最后所有操作调度完成后才知道的。
FIFO 先进先出，那么所用工件是同时到达的吗，还是针对的是工序
不知道这样理解对不对？

不知道你这个问题是否已经解决, 如果还没有解决的话:

这个问题的回答你可以参考下: https://ask.csdn.net/questions/7737240

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^