docker+slurm搭建集群,成功搭建后节点无法运行任务

利用docker在不同主机搭建slurm集群,搭建成功后,节点无法执行任务?

本人在三台宿主机上分别利用docker起了一个slurm容器,容器使用ubuntu18.04,用来搭建slurm集群,容器间通过flannel打通了网络;slurm配置如下:

img


img

在容器内成功启动slurmd及slurmctld服务,节点状态都为idle:

img

当我在其中一个节点运行任务时,当前节点的任务能成功执行,但是其他主机上的节点无法运行:

img

查看node1节点的slurmd日志发现:connect io refused

img


全网搜了许久,没有找到类似的情况,请各位指点一下

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^