请问一下 有没有论文或者代码是逐步选边 构造最后TSP解的深度强化学习模型啊?
"Reinforcement Learning for Solving the Travelling Salesman Problem with Time Windows",这篇论文提出了一种基于深度强化学习的TSP求解方法,可以同时考虑时间窗口限制和车辆容量限制。该方法使用了一种逐步选边的策略,称之为Edge-picking。还有一些其他的,博主感兴趣可以去了解一下