DRAINED or reserved for jobs in higher priority partitions

Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions

This is an error message, indicating that there are nodes required for a job that are currently not available.

There may be multiple reasons for this error message. One possible reason is that the cluster is experiencing a temporary network congestion, causing nodes to be temporarily unavailable. Another possible reason is that the cluster is experiencing a power outage, which can cause nodes to be temporarily unavailable.

If you are still experiencing this issue, you can try contacting your IT support team or system administrator for more information. They can assist you in diagnosing the issue and providing assistance in resolving it.

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 以下回答来自chatgpt:

    回答: - "DRAINED或者保留给更高优先级分区的作业"是指你的作业在队列中已经等待了一段时间,但是由于一些原因,在当前时间无法执行。可能是因为其他作业已经占用了集群中的所有资源,或者因为系统管理员临时限制了使用集群的条件。 - 要解决这个问题,我们可以采取以下一些措施: 1. 首先,检查一下当前集群中的资源使用情况,看看是否有其他作业在使用大量的资源。可以使用类似于squeue之类的命令查看当前在集群中运行的作业。 2. 如果你的作业没有足够高的优先级,那么可以尝试提高它的优先级。可以使用类似于sprio之类的命令修改作业的优先级。 3. 可以在提交作业时指定一个更合适的分区,以便更好地管理作业。不同分区可能有不同的优先级和资源限制。使用类似于salloc之类的命令分配分区。 4. 再次检查你的作业脚本,确保没有任何语法错误或其他问题,这些问题可能导致你的作业无法运行。 - 以下是一个可能有帮助的示例代码,仅用于参考:

    # 检查当前集群的所有作业
    squeue
    
    # 检查某个特定作业的状态
    scontrol show job [job-id]
    
    # 提高某个特定作业的优先级
    sprio -p [priority] [job-id]
    
    # 重新提交作业到另一个分区
    sbatch -p [partition-name] [script-name]
    

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^