[中国,上海,2023年9月20日] 华为全联接大会2023期间,在数通的星河AI网络主题峰会上,华为联合中国信息通信研究院、科大讯飞研究院向全球共同发布《星河AI网络白皮书》(以下简称“白皮书”),白皮书从AI业务的发展趋势、网络架构和关键技术创新等三个方面展示星河AI网络在业界人工智能产业的技术领导力。旨在促进行业数智化转型、推动产业升级及合作,为构建面向AI大模型的高性能训练网络提供参考。
中国信通院云计算与大数据研究所总工程师 郭亮(左)
华为数据通信产品线副总裁 赵志鹏(中)
科大讯飞AI工程院副院长 王金钖(右)
白皮书指出,近年来AI算法已迈入万亿参数大模型时代,算力需求增长近十万倍, AI大规模计算需要高效协同数万张AI处理器,需要持续优化网络,提高并行计算效率;且由于AI处理器成本高昂,亟需搭建零丢包高吞吐的高性能网络,充分释放AI处理器效率;同时,AI大模型训练周期长,万卡集群流量规模达到数10万条,需要有效的运维手段,降低平均故障间隔时间
基于以上挑战,星河AI网络解决方案提出了以下几个创新点:
高性能:采用NSLB(AI加速器)技术,将网络吞吐提升至98%,AI训练效率提高20%;
高可靠:应用DPFR(业务无感自愈)技术实现故障链路亚毫秒级切换,确保故障应用无感知;
可运维:提供可视化运维方案,高精度采集数据,实现网络一键式故障诊断,训中排障效率提升90%;
大规模:支持万卡集群训练,算力规模是业界的4倍;
开放性:提供超融合以太方案,可完全复用以太生态,相比业界性能基本持平,运维成本降低30%。
当前,AI模型发展已从万千小模型走向了百模千态的大模型时代,星河AI网络解决方案针对网络新需求,持续优化网络架构,革新网络技术,为构建面向AI大模型的高性能训练网络提供参考,推动人工智能技术的发展和进步。
目前,星河AI网络已在全球100+企业部署商用。面向未来,华为希望与众多合作伙伴一起,推动技术的发展和应用场景的拓展,实现人工智能技术的可持续发展和社会的共同繁荣。
了解更多《星河AI网络白皮书》,请参阅:
https://e.huawei.com/cn/material/enterprise/8ac74df519ff4fc4ae9aeabe0215adb0