如何构建新型绿色算力?

当前局势下,构建绿色算力面对那些挑战?如何对绿色算力进行统一纳管?如何对多元任务负载进行编排和调度?

构建绿色新型算力云的主要挑战在于三点,它们相互关联。

img

由于各个算力中心的烟囱式建设,算力资源管理处于割裂状态,往往不同的算力中心建设了各自的算力管理平台,如典型的超算平台、智算平台、通用的算力管理平台,因此建设算力的统一视图和算力的感知度量就很关键。
如何实现对以上几类异构算力进行统一纳管?
原先不同的算力中心资源管理建设方案不统一,存在物理机、虚拟化、容器化几种形式。有时候超算中心不一定做虚拟化,直接使用裸金属物理机以达到高性能运行业务诉求。如果是基于Kubernetes的业务,为提升部署密度,往往直接基于裸金属运行容器化业务,所以不同的算力应用场景对算力资源的管理建设方案也不一样,对于存量的、新建的算力中心,需要针对性地制定方案。
如何对多元任务负载进行编排和调度?
实际落地场景中,根据业务属性,有Long Running(一直运行)的业务,也有一次性的任务,而GPU训练的模型在第一次训练好之后,有时可能还需执行增量训练,这其中其实涉及大量的网络通信和数据交换。随着AI for Science的出现,超算与智算的融合已成为刚性需求,业务对于时延、敏感度、稳定性的诉求,对云网协同、资源调度、复杂业务编排等算力云的底层实力进一步提出了挑战。