9 月 3 日消息,当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百 T 比特级、甚至超 P 比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。
中国电信集团宣布,中国电信研究院、中国电信北京公司、天翼云公司共同在中国电信现网基于 800G C+L 技术,为 1024 卡规模的分布式集群提供大容量带宽,实现 120 公里千亿参数大模型分布式训练,性能达到集中训练的 95% 以上。
据介绍,针对数据传输的大带宽问题,中国电信采用高阶调制格式的单波长 800G 技术以提高频谱效率,配合当前的业界热点的 C+L 波段技术实现超大传输带宽,在中国电信武清与润泽机房之间采用华为公司传输设备,通过多次环回构建了大带宽互联的智算验证网,距离达到 120km。
针对数据传输的高可靠问题,中国电信完成了链路误码、波长故障、光纤故障等异常测试试验,结果表明,一个 800G 业务波中断会导致超 40% 的算效降低,而百毫秒级以上光纤故障会导致算效大幅下降甚至训练中断。IT之家从官方获悉,采用 WSON 重路由恢复技术,此次在两点间将重路由恢复时间控制在 50ms 以内,可保证分布式智算业务的高可靠互联,最大程度释放算效。
针对传输链路的高效率问题,中国电信提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率。此次验证为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。