飞象原创(魏德龄/文)翻看外语辞典,Credo在英语、意大利语和拉丁语中都有“Believe相信”的含义,在意大利语中也可以翻译为“IBelieve”,在英语中则有着“信条”的含义。如今,拥有了神经网络的AI大脑凭借其思考的能力,正在让很多人开始相信它的美丽未来,并让它开始承担起一些专业领域中的预见性工作。
在今年的光博会上,有这样一家名为Credo的公司,凭借其多年以前对技术的长远预见,为数据中心AI大脑“神经系统”的升级带来了可能。如果想要细探这一过程,需要先从如今AI大脑的飞速进化说起。
AI大脑的进化
相较于生物大脑在岁月长河中的缓慢成长,AI大模型的成长可谓是“大力出奇迹”,为了满足计算要求,需构筑专门用于人工智能的数据中心,并由GPU服务器联网构成。当大模型训练时,并行计算节点越多,通信效率越重要,智算网络的性能成为了集群算力提升的关键。智力增长需要更大的服务器集群,万亿参数的GPT-4背后是万卡级规模作为保障。
随着集群规模的增加,能耗问题也随之凸显起来。也就是说,如果把人脑与AI进行比较的话,人脑由1012个神经元和1015实触构成极其复杂网络,能以很小样本和30W功耗实现超高计算效率和识别,而大型AI系统则需百万瓦级功耗和海量数据。
为了满足更加密集的集群需求,数据中心的机架架构也在发生着变化。在AI与AI训练的需求下,现在每一个数据中心都拥有两种网络连接,一种是传统的前端网络,还有一种是用于AI网络连接的后端网络。后端网络将所有GPU连接在一起,形同一台数据中心里的超大计算机,为了满足GPU互联的需求,后端网络的带宽也是前端网络的8-10倍。
针对密集集群的散热问题,传统的风冷技术受限于功耗限制,每个机架只能放1—2台服务器,显然已经不能满足要求。液冷方案随之流行起来。对应也使单机架上能够放置更多台AI服务器,服务器之间的连接距离变得更短。
上述的这些变化,也对连接服务器之间的线缆提出了新的要求。
AEC让思考不中断
“我们在几年前第一次介绍有源电缆(AEC)的时候,很多人都没有意识到这是一个很有价值的产品。但在今天,AEC已经改变了整个行业的规则。”Credo销售副总裁杨学贤在谈到公司对于技术的前瞻性能力的时候,使用了AEC的案例。
在如今一些全球领先厂商展示的基于铜缆的人工智能应用中,以Credo为代表的色彩鲜明的紫色AEC线缆联通起了机架上的每一台服务器。AEC电缆展现出了在AI应用中的独特价值,在继北美互联网公司之后,也正在开始被国内互联网企业所关注。
在今年的光博会上,Credo专为中国超级数据中心市场量身打造,推出适用于400G Q112网络接口的HiWire SHIFT AEC(有源电缆Active Electrical Cables)新系列产品,可以满足AI/ML后端网络与TOR交换机之间的网络连接需求。
AEC在人工智能领域的认可与其自身的技术优势有关。根据实际测试数据反馈,在连接可靠性上,可比光缆高出一到两个数量级。这就意味AEC电缆将可助力算力利用率的提升,当前利用率低的原因正在于互联,一旦一个节点发生故障或链路断联,传输就要重新进行,导致算力利用率普遍仅为40%—50%。AI行业开始重新重视铜互联与电互联的原因正在于通过AEC对于连接可靠性的大幅提升,从而解决这一症结。
此外,如前文所述的机架中服务器的密度增加,要求线缆具有更好的布线灵活度,也就是要易于弯折,才能不会过多遮挡机柜前面的气流,对散热造成影响。而AEC作为一根铜缆,没有任何光学组件,仅每端都放置了一个基于Credo自有铜DSP技术的Retimer,来负责端到端的信号传输。于是,AEC在现有AI领域机房的布线中,不仅好部署,还拥有极长的生命周期。
AEC还具有低功耗上的优势,其中的DSP都是业界功耗最低的产品,一个400G的AEC的单端功率在5W左右,大约仅为一个400G光模块的50%。
以本次发布的SHIFT AEC产品为例,基于Credo先进的800G HiWire AEC设计优化而来,能效卓越,性能更佳,且具有极致的可靠性,MTBF(平均故障间隔时间)长达1亿小时,该数据对于AI/ML应用而言无疑至关重要。
AEC产品负责人Ameet Suri表示:“为了满足中国超级数据中心市场客户对Q112 TOR接口的需求,Credo拓展其800G HiWire AEC产品系列,推出包含三款Q112新品的HiWire SHIFT AEC新产品系列。HiWire AEC不断受到超级数据中心运营商们的青睐,被用于NIC与TOR之间的连接。我们期待借助此次推出的AEC新品,进一步提升AEC解决方案在中国市场的渗透率。”
除了AEC产品外,关于Credo之于“相信”的技术前瞻性案例,LRO也同样可以称得上是一个典范。
LRO让聪明不烧脑
随着能耗问题在数据中心和AI基础设施在规模扩张中问题的凸显,尤其在一年前,伴随着800G容量的增加,业界也开始关注收发器的功率问题。其中已有的LPO方案由于互操作性,依赖链路和故障排除能力等技术限制,大大限制了部署热情。据Cignal预测,LPO方案在800GbE的市场份额将不会超过10%。
对此,Credo提出了线性接收光路(LRO)解决方案,仅将DSP保留在光收发器的发射端。其优势在于,仅在发端放置的DSP可以保证光纤上的拥有完美高质量、符合标准的光信号,达到与完整DSP方案一样的效果。此举自然实现了节省功耗的目的,由于LRO方案移除了一半的DSP,因此可以节省一半的DSP功耗,且仍旧保持了非常好的网络性能。
Credo Dove 850作为世界上第一款针对LRO应用优化的DSP产品,将800G光收发器的功耗控制在低于10W的水平,对比使用完整DSP的光收发器,可节省大约40%—50%的功耗。并且不会像LPO解决方案会牺牲网络性能。
基于Dove850方案的光模块通过提升符合IEEE标准的光发射信号质量来解决线性可插拔光连接(LPO)方案的固有缺陷,并可避免手动调试每个端口以减轻客户的系统运维负担。对比结果就是,Dove850方案拥有更低误码率,增强了灵敏度,减少性能偏差,并提升了对交换ASIC、PCB走线、光器件及环境因素的包容度。
未来,Credo将会持续开发完整的DSP以及LRO解决方案,并计划在DSP中集成一种特殊的诊断预警功能,来帮助客户实时监控电路工作状态。
“相信,是一个漫长而痛苦的等待过程,也是一个技术不断打磨、不断优化的过程。”杨学贤表示因为有了公司对于技术的相信与持续投入,才能造就这些有价值的、改变行业规则的产品。
如果说AI的高速发展,是人类集体大脑的一个全新进化,那么对于参与构建这颗大脑中的神经系统重要一环的Credo来说,或许不仅仅是让这颗飞速成长的大脑思考不中断、聪明不烧脑,也刻下了关于人类的“技术信条”烙印。