8月30日,国内运营商最大单集群智算中心——中国移动智算中心(哈尔滨)建设完成并正式投产使用。该智算中心单集群拥有超过1.8万卡的丰富资源,可提供6.9EFlops(每秒690亿亿次浮点运算)智能算力,融合分级存储达150P,具有单集群算力规模最大、国产化网络设备组网规模最大等特点。
所谓单集群智算中心,就是把所有AI加速卡打造成1个集群,用以支持千万亿级参数的大模型进行训练。集群智算中心通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,可以将数据训练完成时间缩短20%,是应对大模型海量数据训练、加快大模型应用落地的利器。拥有1.8万张AI加速卡的中国移动智算中心(哈尔滨)可以支持万亿参数的大模型训练。
中国移动智算中心(哈尔滨)是业内首个大规模应用融合存储的集群,也是首个落地中国移动原创智算网络全调度以太网(GSE1.0)的万卡集群。正是在GSE1.0的支持下,中国移动智算中心(哈尔滨)才大幅提高了GPU节点间的通信效率,减少了数据训练任务的时间和成本。
点评:AI大模型的研发需要基于大量GPU的集群算力来支撑,通常参数规模越大、训练数据越多,对智算集群的要求就越高。不过随着集群中调用的GPU卡数量越来越多,计算任务的调度、中间数据和结果的传递与保存等,也会变得越来越复杂。中国移动在智算万卡集群研发中,采用了多项创新技术确保大模型运行的低时延、高带宽数据处理和存储能力,还有系列自动化、数智化技术确保算力集群的高效、稳定运行,无疑是中国ICT科技创新能力、产业化实力的集中体现。