利用docker在不同主机搭建slurm集群,搭建成功后,节点无法执行任务?
本人在三台宿主机上分别利用docker起了一个slurm容器,容器使用ubuntu18.04,用来搭建slurm集群,容器间通过flannel打通了网络;slurm配置如下:
在容器内成功启动slurmd及slurmctld服务,节点状态都为idle:
当我在其中一个节点运行任务时,当前节点的任务能成功执行,但是其他主机上的节点无法运行:
查看node1节点的slurmd日志发现:connect io refused
全网搜了许久,没有找到类似的情况,请各位指点一下