边构造的深度强化学习求解TSP

请问一下有没有论文或者代码是逐步选边构造最后TSP解的深度强化学习模型啊？

"Reinforcement Learning for Solving the Travelling Salesman Problem with Time Windows"，这篇论文提出了一种基于深度强化学习的TSP求解方法，可以同时考虑时间窗口限制和车辆容量限制。该方法使用了一种逐步选边的策略，称之为Edge-picking。
还有一些其他的，博主感兴趣可以去了解一下