首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展
首页 >> 移动互联网 >> 正文

是新晋网红还是概念炒作?智算场景OXC深度解析

2024年9月30日 17:14  CCTIME飞象网  

作为人工智能的新引擎,AI大模型的商业价值日益凸显。大模型训练需要海量计算资源,业界算卡集群正在从万卡向十万卡快速演进。面对智算集群组网、能耗、效率等多重压力,行业头部厂商纷纷登场,探索各种网络技术创新的可能性。其中,MEMS OXC技术重出江湖,以“光电融合”为主题、“大规模”、“低功耗”为卖点高调发声,大有重定义下一代智算网络之势,一时间引得吃瓜群众不明觉厉。事实是否真是如此?笔者将从多个维度深度解析。

什么是OXC通过光信号映射实现端口流量交换,本质是自动配线架

MEMS OXC的全称为Micro-Electro-Mechanical System Optical Cross-Connect,指光交叉连接设备(下文简称OXC)。OXC内置两个微镜阵列,微镜阵列1通过调整转角将入射信号偏转到微镜阵列2对应的微镜单元,将光从入端口映射到出端口,从而实现这两条路径之间的光信号交换。

OXC工作原理,图片来自于网络

需要注意的是,OXC只是对跨电交换机流量进行端口级的流量引导和切换,并不参与全局选路、优先级调度等流量工程。因此从本质上来说,OXC充当的是自动ODF(Optical Distribution Frame)配线架或一组点到点光纤的角色。

为什么引入OXC:减少交换机和光模块,理论上功耗收益明显

当前两层或三层胖树(Fat tree)组网方案是业界主流,均采用电交换机组网。当组网从两层向三层扩展时,网络设备需在Leaf层、Spine层之外增加Core层。Spine层和Core层之间需要通过光模块互联,电交换机和光模块数量的增加带来整体能耗的上升。

此时如果Core层部署OXC光设备实现Spine间互联,使用光设备替代电交换机,则理论上可缓解上述能耗问题。

看上去很美的OXC市场商用遭遇滑铁卢

在降能耗的商业驱动下,OXC技术被抬上了桌面,业界甚至大胆预测OXC在未来会取代电交换机。早在2010年,SIGCOMM上刊登了《Helios:A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技术论文,探索光电混合架构的技术可行性。 2022年,Google发布了OXC在云网络和自研TPU集群应用的技术论文。2023年,Nvidia先后在HOT Interconnects和光网络与通信研究会及博览会(OFC)学术会议上分享了其对光电融合组网的思考。

虽然业界对光电融合组网的讨论仍在继续,然而,十几年过去了,全球目前有且仅有Google一家厂商依托光电全栈研发能力实现了OXC在通算业务场景下Fat Tree架构的试点,智算场景Fat Tree架构下OXC商用业界仍为空白。

为什么会出现理论火热,现实惨淡的现象?笔者认为,智算场景Fat Tree架构下引入OXC目前存在三大技术瓶颈。

OXC技术瓶颈1策略调度不能根据灵活拓扑动态适配

由于OXC只是对端口进行映射,从交换机的角度来看,等价于ODF或者是光纤直连。因此当OXC将电交换机替换后,会导致原来标准的Leaf-Spine-Core的胖树组网架构变化,成为Spine直连,且逻辑拓扑动态变化。

引入OXC后需要电交换机针对这种动态组网进行深度配合,路由协议、拥塞调度、负载均衡等策略均需要重新适配。当OXC调整连接关系后,组网拓扑随之发生变化(见下图),交换机能否自动感知并进行实时调优是核心技术难点之一。

同时,由于OXC采用“转镜子”的机械控制方式,同一时间只能完成一组端口间点对点转发,无法支撑智算场景多组流量并行转发的需求,形成性能瓶颈。

OXC技术瓶颈2时延支持智算集合通信关系灵活调整

随着模型从稠密到稀疏,集群并行模式多样化,集合通信库的算子和算法也随之多样化。主要通信算子包括AllReduce, ReduceScater,AllGather,All2All等;每个通信算子又可以有不同的通信算法,例如ring,tree,butterfly等等。不同的算法和算子下通信关系差别巨大(见下图),这就要求整网通信链路能够根据需要随时快速调整互通关系。

算法通信模式对比,图片来自于网络

如前边提到,由于OXC微镜阵列的转动等过程依赖物理机械控制,OXC的交换时延在10毫秒以上,与电交换机的百纳秒时延相比,高出了五个量级。即使OXC的路径切换时延缩短到微秒级甚至纳秒级,由于整网存在端口断开和重新连接,光模块、电交换机侧需要重新协商和路由收敛,整网的切换和连通时间也在秒级以上,完全无法满足智算场景大流量高吞吐的网络需求。不仅如此,OXC内光链路的切换严重依赖控制面的任务信息作为输入,如何获取这些任务信息,谁来给出切换指令,当前业界厂商相关技术介绍中均为空白。

OXC技术瓶颈3高插损长距光模块成本数倍于电交换

万卡集群可能涉及跨机房走线,电交换机间互联一般使用2km FR光模块即可。如果引入OXC通过反射阵列对光路进行调整,会带来额外的光传输损耗,需要使用更长距的光模块,否则可能导致链路信号不稳定,引发训练中断。

以Google为例,即使OXC插损做到了业界最低1.5dB,设备间互联也需要使用10km LR定制光模块,成本是2km光模块的3~5倍。根据业界推测,引入OXC的前期成本约为电交换机的3-6倍,OXC带来的功耗和成本优势并不显著。

最近国内某厂家发布了OXC全光DCN交换机,根据笔者初步评估,综合技术和成本分析无法替代国内厂商三层白盒交换机。

总结:光电混合组网只是概念股OXC商用前景并不乐观

当前,国内产业圈子OXC呼声高涨,引发了不少关注。然而,所有的变革都需要深思熟虑,过度炒作只会掩盖真正的问题。

如果OXC做核心层设备,整网控制面需要以AI训练任务信息作为输入进行光电统一调度。OXC交换带来网络拓扑动态调整,网络的负载均衡、流量调度严重依赖电交换机侧的配合和协同。除此之外,OXC设备本身还要攻克时延、插损等一系列技术难题。智算场景下多种技术挑战叠加,OXC进入DCN还存在较大的差距,产业各方仍需正视挑战,继续努力。

编 辑:T01
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
中国电信邵广禄:面向AI大模型的智算集群及网络的实践和展望
精彩专题
2024中国算力大会
2024年国际信息通信展
中国信科亮相2024年国际信息通信展
第25届中国国际光电博览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像