算力网络是当前业界研究的热点之一。算力网络对承载网络提出了新挑战,我国自主研发的网络5.0充分考虑了算力网络对网络的需求,可满足算力网络的需求。笔者认为,算力网络隶属于业务网络范畴,以重叠网络形态组建在网络5.0之上的算力网络是当前首选方案。
1 算力网络成为业界研究热点
1.1 算力资源需求和供给同步增长
算力时代,数据已经成为政府决策,人们生产、生活不可或缺的重要资源。智慧城市建设以及各行各业数字化使得数据量大大增加。IDC数据表明,2022年全球数据总量高达81 ZB。数据的生成、传输、处理、存储和应用均需算力资源的支撑,使得社会对算力资源的需求不断攀升,全球算力资源供给也同步增加。经中国信息通信研究院测算,2022 年全球计算设备算力总规模达到 906 EFlops,增速达到47%。同时,算力正加速向政务、工业、交通、医疗等各行业各领域渗透。2023年10月,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委六部门联合印发《算力基础设施高质量发展行动计划》(简称《计划》)。《计划》的实施将进一步推进算力资源的供给和应用。
1.2 算力资源供给和使用向远程按需共享方向发展
1.2.1 算力资源
IEC 60050-171:2019《国际电工词汇第171部分:数字技术基本概念》将计算系统(计算机系统)定义为:执行数据处理的一台或多台计算机、外围设备和软件的集合;将云计算定义为:通过网络,典型地是通过互联网交付的数据处理。云计算提供按需的共享计算机资源。ITU-T将边缘计算定义为:在网络边缘有效利用处理能力并执行数据处理的策略,网络边缘连接端设备,数据来源于端设备或注入到端设备。本文中算力资源指能够提供计算系统能力的计算机系统资源,包括计算资源、存储资源和软件资源。
1.2.2 算力资源种类
算力资源可分为直接算力资源、间接算力资源以及算力资源平台几类。直接算力资源指可直接用于计算的计算资源及存储资源;间接算力资源指在直接算力资源基础上经过人的智能创建的具有特定数据处理功能的算法和软件(如图形处理器、现场可编程逻辑门阵列、专用集成电路等);算力资源平台是指根据使用方需求集成多种间接算力资源(算法和软件资源)组建的平台,如针对个人使用方的包含使用方自有数据(如照片、视频、作业、作品、体检报告等)存储管理功能,新映电影、书籍等推荐功能,个人日程安排提醒功能等的平台。
1.2.3 多种算力资源供给方式并存
算力资源的供给和使用经历了由最初供多人本地共享的大型主机,到个人计算机、通过本地网络连接互操作的多台个人计算机、通过互联网连接的多台计算机、网格计算以及利用便携式计算机按需使用算力资源的云计算6个阶段。当前,根据各自应用环境的不同,以上多种算力资源的供给方式并存。从演进方向来看,算力资源的供给一直遵循着向使用侧使用简单、方便、快捷,资源侧分布式集中及网络化的方向发展。虚拟化技术、并行计算等技术的不断创新和发展,算力资源的可分割,可并行工作能力的提升,使远程供给算力资源成为可能,基于网络供给和使用算力资源成为当前一段时间的发展趋势。
1.3 算力网络成为业界研究热点
算力网络是由中国联通、中国移动、中国电信在2019年前后提出的概念。中国电信主导完成的国际电信联盟标准ITU-T Y.2501算力网络框架与架构将算力网络定义为:一种在云、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。从定义来看,算力网络是一个宽泛的概念,其核心含义是通过网络实现计算资源、存储资源和网络资源的按需分配和灵活调度。算力网络一经提出便成为业界的研究热点,中国联通于2019年11月发布《中国联通算力网络白皮书》, 中国移动研究院网络与IT技术研究所于2019年12月发布《算力感知网络技术白皮书》,中国移动于2022年1月发布《算力感知网络(CAN)技术白皮书》(2021年版)。ITU-T SG13、CCSA TC3和CCSA TC614 均针对算力网络的相关标准进行立项研究,但到目前为止,并没有以算力网络的名义向用户提供相应的服务,取而代之的是以具体信息处理服务的名义向用户提供与算力资源相关的服务,如视频处理、虚拟现实(Virtual Reality,VR)/增强现实(Augmented Reality,AR)渲染服务等。
2 网络5.0满足算力网络对网络的需求
2.1 算力网络对网络的需求
算力网络对网络的需求包括超高带宽、低丢包率、低延迟、低抖动以及高服务质量保证[8]。具体包括转发路径的时延和时延抖动可控,时延抖动不随转发路径节点跳数累加,即业务数据报文端到端转发的时延有严格上限,抖动(即时延的变化)有严格上限,每条业务的时延、时延抖动有可以测量的确定性时延保证;因涉及数据的处理,企业对算力处理有可信性、价值可量化、可交易的需求,要求网络具有安全可信保障措施;鉴于使用算力资源服务的终端所采用的接入方式的多样性,需要网络支持多种接入方式;由于在使用算力资源时,一些数据信息处理对算力资源的使用是连续的,不允许间断,为此要求传输相应数据的网络具有高可靠性。
2.2 网络5.0能够满足算力网络的需求
网络5.0是2018年我国自主提出并研发的第5代数据网络。网络5.0基于“以网络为中心、能力内生”的核心主旨,通过打造新型网络协议体系,赋予网络确定性、可信、安全等属性,使网络具备按需可达、按需服务、安全可信等内在能力,按质连通分散的计算、存储及网络等资源,构建一体化的信息与通信技术(Information and Communications Technology,ICT)基础设施。特别是在确定性方面,网络5.0提出多技术协同的多类型多级别确定性承载能力,支撑差异化应用场景(如大规模连接、有限域等)。网络5.0支持确定性路由,通过管理面或控制面对网络资源进行管理和控制。网络管理设备(网络5.0网管)管理网络资源有两个渠道:一种是通过管理面,由网管(网络5.0采用分层分布形式的网管体系)根据源地址和目的地址(确定路由)确定该通信通过的网元设备;另一种是由网管对相应网元设备配置网络资源(通过网管资源配置命令来实现,网元可以提供资源则确认,否则拒绝)。网络5.0在设计之初就将支撑ICT融合网络(算力网络)作为能力之一,充分考虑了算力资源服务对网络的各种需求。网络5.0具有承载按需提供算力资源服务的算力网络能力。
3 基于网络5.0的重叠网形态算力网络
3.1 重叠网形态算力网络的优势分析
互联网的快速发展得益于业务和承载相分离的发展方式,当前基于IP的网络业务的提供基本上采用重叠网形态进行。采用重叠网形态组建业务网,可以使业务网的建设和运营者在充分利用承载网络信息传输能力的基础上,更加关注用户对业务的需求,从而促进业务网的发展。同时,业务网运营者通过分析网络信息流量流向方面的变化,在网络架构、技术和性能方面进行创新和优化,可以将业务网的承载工作做得更好。
算力网络不仅关注信息数据的传输,同时利用网络向用户提供算力资源服务,隶属于业务网络范畴。算力网络依赖于算力资源基础设施和网络基础设施,是二者的融合,算力网络在提供服务时需要算力资源与网络资源的协调调度和配合。采用重叠网形态组建算力网络,从市场上来看有需求,从技术上来看有基础,是组建算力网络的优选方式。
3.2 基于网络5.0的重叠网形态算力网络
基于网络5.0的重叠网形态算力网络类似于内容分发网络,是部署于网络5.0之上的重叠网络,每个算力网络运营方可以独自建立各自管理的算力网络域,可被称为基于网络5.0的多域重叠网形态算力网络。若在网络5.0之上建立一个统一的算力网络,统一建设统一运营,此种方式可被称为基于网络5.0的单域重叠网形态算力网络。
3.2.1 基于网络5.0的多域重叠网形态算力网络
图1为基于网络5.0的多域重叠网形态算力网络架构示意图。
图1 基于网络5.0的多域重叠网形态算力网络架构示意图
如图1所示,分布式连接到网络5.0的,由不同算力资源拥有方提供的算力资源组成的算力资源池分别由算力管理中心1和算力管理中心2进行管理和运营。由算力管理中心1及其管理运营的算力资源池1组成一个算力网络域,由算力管理中心2及其管理运营的算力资源池2组成另一个算力网络域。两个域分别独立向用户终端提供算力资源服务,网络管理中心配合算力管理中心为使用算力网络服务的用户终端分配相应的网络5.0资源。两个域的算力资源可以依据两个算力网络运营者之间的协议来相互借用并为用户终端提供算力资源服务。
3.2.2 基于网络5.0的单域重叠网形态算力网络
图2为基于网络5.0的单域重叠网络形态算力网络架构示意图。
图2 基于网络5.0的单域重叠网形态算力网络架构示意图
如图2所示,算力资源1到算力资源4是不同算力资源提供方提供的算力资源,这些算力资源可以是直接算力资源,也可以是间接算力资源,这些算力资源在算力管理中心中通过算力资源在网络中的位置(地址)和可度量的算力资源进行管理。
在基于网络5.0的重叠网形态的算力网络中,算力资源管理和网络管理相对独立,算力管理中心管理算力资源,网络管理中心管理网络资源。算力管理中心不具备对网络5.0资源的管理能力,而是通过网络5.0的网络管理中心对网络资源提出请求,由网络5.0的网络管理中心来实施调度。
用户终端是算力服务的消费者,通过向算力管理中心提交终端在网络中的位置(地址)、要使用的可度量的算力和要求的网络能力(包括数据传输速率、最大时延、时延抖动)等相关信息来申请使用算力服务。
3.3 基于网络5.0的算力网络相关方
基于网络5.0的算力网络涉及算力资源拥有方、网络5.0运营方、算力网络运营方和算力网络服务使用方。
3.3.1 算力资源拥有方
算力资源拥有方是算力网络向使用方提供的算力资源的拥有者。算力资源拥有方将自身所拥有的算力资源注册到所选择的算力资源服务提供方所建的服务平台,由算力网络运营方将算力资源拥有方的算力资源提供给使用方使用。算力网络运营方需根据算力资源拥有方和算力网络运营方之间的协议向算力资源拥有方支付因使用其所申报的算力资源的费用。
3.3.2 网络5.0运营方
算力网络服务离不开网络的支撑,网络5.0是连接使用方与重叠网形态算力网络所提供的算力资源的通道。在提供算力网络服务的过程中,网络5.0运营方一方面可以作为服务的网络承载者,另一方面也可以通过自建算力资源管理中心聚合自己所拥有的算力资源以及其他算力资源拥有方所拥有的算力资源并向使用方提供算力网络服务。此时,网络5.0运营方既是网络运营方也是算力网络运营方。
3.3.3 算力网络运营方
算力网络运营方是算力网络服务的提供方,负责搭建算力管理中心,聚集、管理、运营连接到网络上的算力资源,向使用方提供算力网络服务。算力网络运营方可以是独立的算力网络运营方,也可以是算力资源拥有方或网络5.0运营方。同时,在网络5.0之上可以有一个或多个基于网络5.0的重叠网络形态算力网络运营方向使用方提供服务。算力网络运营方可依据自身所提供的算力网络服务向算力资源使用方收取费用。根据算力网络运营方与网络5.0运营方之间的协议确定使用方在使用算力网络服务时因使用网络运营方的网络所发生的网络使用费用合并到算力网络服务费用之中,由算力网络服务使用方一并向算力网络运营方支付还是由使用方分别向算力网络运营方和网络运营方单独支付相应的费用。
3.3.4 算力网络服务使用方
算力网络服务使用方是算力网络服务的使用方,在使用算力网络服务时,使用方需要连接到网络,向算力网络提出算力资源服务请求,在算力网络运营方为其配置了所需的算力资源后,将自身需要处理的数据通过网络传输到算力资源所在地点,使用算力资源对所提交的数据进行相应的处理,最终通过网络获取经过处理的数据。算力网络运营方需为使用服务提供方提供的服务向服务提供方支付相应的费用。
3.4 基于网络5.0的重叠网形态算力网络应用场景分析
根据使用方需求的不同,基于网络5.0的重叠网形态算力网络应用场景主要分为以下几类。
(1)直接算力资源服务应用场景:该场景主要满足使用方在特定的时间范围内需要进行信息化服务平台搭建、特定业务系统(如视频会议系统)搭建、存储或备份自身所拥有数据信息的需要,向使用方提供直接算力资源服务。
(2)间接算力资源服务应用场景:该场景主要满足使用方对数据信息处理的特定需求,向使用方提供包含具有处理数据信息特定需求的软件在内的间接算力资源服务,如向使用方提供VR/AR渲染服务、在线翻译、车联网信息处理服务、视频/音频信息处理服务等。
(3)使用方定制的间接算力资源平台服务应用场景:该场景主要根据使用方需求为使用方构建具有多功能信息处理和服务功能的平台,为使用方提供相对时间比较长的算力资源服务,如为企业使用方进行员工信息管理服务,为个人使用方进行学习资料的维护、管理和推荐服务等的算力资源服务。
3.5 重叠网形态算力网络中统一算力资源标识
如图3所示,在重叠网形态算力网络中,统一资源定位符(Universal Resource Locator,USRI)用来标识抽象或物理算力资源的一个紧凑字符串,其中的I(Identifier)是统一算力资源标识符,可以唯一标识一个算力资源;统一资源定位符(Universal Resource Locator,URL)是一种定位资源的主要访问机制的字符串,一个标准的URL必须包括protocol、host、port、path、parameter、anchor,URL 中的L(Locater)是统一资源定位符,提供找到该资源的确切路径;USRI包括URL、统一算力IT资源名称(Universal Suanli IT Resource Name,USIRN)和统一算力CT资源名称(Universal Suanli CT Resource Name,USCRN)3个类别,URL是URI的子集,所以URL一定是URI,而URI不一定是URL。USIRN 通过特定命名空间中的唯一名称、算力IT属性或ID来标识资源。USCRN 通过特定命名空间中的唯一名称、算力CT属性或ID来标识资源。
图3 算力网络的统一算力资源标识
4 基于网络5.0的算力网络可信安全
基于网络5.0的算力网络可信安全由网络5.0所具有的内生安全能力来保证。图4为网络5.0内生安全网络体系架构。
图4 网络5.0内生安全网络体系架构
内生安全能力资源池负责产生和维护网络安全能力,例如基于网络5.0的溯源、抗DDoS攻击、审计等。安全能力接收平台完成内生安全能力的最终部署目标,例如网络边界、用户层等。可信接入认证服务端用于认证接入网络的终端设备。边界路由负责不同安全域之间需要实现信任的共识。在基于网络5.0的算力网络中,算力资源节点、算力资源用户终端必须是网络5.0的可信用户才能承担向算力资源使用方提供算力资源服务或接收算力网络所提供的算力资源服务。
从网络5.0的角度来看,基于网络5.0的重叠网络形态算力网络中连接到网络5.0上的设备(包括使用方终端、算力资源节点、算力管理中心节点等)均需是网络5.0的可信终端。从而可利用网络5.0所具有的安全可信保障能力实现基于网络5.0的重叠网形态算力网络的可信安全。
5 算力资源申报相关业务流程
对于重叠网形态算力网络,供算力网络提供服务的算力资源由算力资源拥有方采用申报的方式汇聚到算力资源管理中心。同时,在算力网络正常提供服务期间,算力资源拥有方可以针对未处于使用状态的已经申报到算力网络的算力资源进行更新操作。与算力资源申报相关的业务流程包括算力资源申报业务流程和算力资源更新业务流程。
5.1 算力资源申报业务流程
图5为算力资源申报业务流程。由算力资源拥有方向算力资源管理中心发起资源申报请求,算力资源管理中心收到申报请求消息后向算力资源拥有方发送算力资源申报响应消息。算力资源申报业务流程的具体说明如下。
图5 算力资源申报业务流程
(1)算力资源申报请求:算力资源拥有方主动向算力资源管理中心申报可提供服务的算力资源及其位置(地址)。算力资源申报请求中携带的参数有:算力资源端口名(一个或多个地址段)、算力资源端口(一个/多个)速率、算力资源内网性能(时延和抖动)、算力资源类别(直接算力资源/间接算力资源/间接算力服务平台)、算力资源量(可度量的单位数量)。
(2)算力资源申报响应:算力资源管理中心向算力资源拥有方发送申报请求响应,算力资源申报响应中包含确认受理或不接受申报的信息。
算力资源受限于目前的可度量性。算力资源度量方式如下。
(1)直接算力资源采用数学计算能力(MIPS、FMIPS)和CPU等效计算核数两种度量单位。
(2)间接算力资源(如软件算力和平台算力资源)采用等效并发数/s。
5.2 算力资源更新业务流程
算力资源拥有者可对已经申报到算力资源管理中心的自有算力资源进行增、删、改。其中,只能针对算力网络未处于使用状态的算力资源进行删、改。算力资源更新业务流程如图6所示,具体描述如下。
图6 算力资源的增、删、改流程
5.2.1 算力资源更新请求
算力资源拥有方向算力资源管理中心发送算力资源增、删、改请求消息。算力资源增、删、改请求消息中包含一个或多个参数,如算力资源端口名(一个/多个地址段),算力资源端口(一个/多个)速率,算力资源内网时延,增、删、改算力资源类别(直接算力资源/间接算力资源)以及拟增、删、改的算力资源量(可度量的单位数量)。
5.2.2 算力资源更新响应
算力资源管理中心向算力资源拥有方发送算力资源增、删、改响应,算力资源增、删、改响应中包含确认受理或不接受信息。
5.3 算力资源使用相关业务阶段
算力资源使用相关业务阶段包括算力资源申请阶段、算力资源使用阶段和算力资源释放阶段。
算力资源申请阶段完成算力资源使用方申请算力资源,算力网络为算力资源使用方分配算力资源,算力资源节点配置算力资源以及网络5.0为算力资源使用方配置网络资源,并将分配给算力资源使用方的算力资源节点地址发送给算力资源使用方的任务。在该阶段只有当网络5.0管理设备可以为算力资源管理中心为算力资源使用分配的算力资源配置满足算力资源服务所需要的网络资源时,算力资源管理中心才可以为算力资源使用方发送所分配的算力资源信息,若网络5.0管理设备无法为算力资源管理中心拟分配的算力资源配置合适的网络资源,算力资源管理中心需要重新为算力资源使用方分配算力资源。
算力资源使用阶段是指算力资源使用方通过网络5.0分配的网络资源到算力资源节点使用算力资源的阶段。该阶段算力资源使用方根据自身需求使用算力资源节点的算力资源,算力资源可位于一个或多个算力资源节点,同时将使用算力资源需要提交的数据信息或使用算力资源后输出的数据信息通过网络5.0传输到算力资源使用方或算力资源使用方要求的相应位置,或者将相应的数据存储到算力资源(算力资源中的存储资源)中。
算力资源释放阶段是指算力资源使用方使用完算力资源后,算力网络将其所使用的算力资源和网络资源释放,供其他使用方在需要时使用。
6 基于网络5.0的算力网络面临的挑战
经过多年技术和应用的不断发展,算力资源基础设施和网络基础设施无论在规模上还是在能力上均有很大的提升,但是将算力资源和网络资源协同起来为使用方提供满意的算力资源服务还面临诸多挑战,需要业界专业人员探索和研究。
6.1 异构算力资源统一管理和应用问题
本文所述算力资源服务场景中,算力资源可隶属于不同的拥有者。鉴于目前提供算力资源设施的厂家比较多,不同厂家生产的算力资源设施架构各异,在独立使用单厂家产品时对资源的管理和分配由厂家开发完成,使用起来方便可行,但对异构算力资源设施进行管理和使用可能会出现不兼容的问题,影响到具体服务提供。
6.2 算力资源和网络资源协调调度问题
算力资源的使用实际上就是利用算力资源所具有的计算和存储能力对使用方的数据进行处理或存储。一些使用方需求如VR/AR 渲染服务需要实时地将使用方需要进行渲染的数据传输到算力资源,同时经过渲染后的数据需要实时地传输到使用方使用。在该过程中,除了算力资源服务方需要根据使用方请求的服务分配相应的算力资源外,网络运营方也需要根据算力资源服务提供确定的带宽和服务质量保证,为此支撑基于网络的算力资源服务的网络运营方需要与算力资源服务提供方协同调度算力资源和网络资源。另一些使用方一次可能需要大量的算力资源(如基础科学研究数据),这些算力资源可能分布在不同位置的算力资源节点上,一方面需要统筹协调分布式的算力资源,另一方面需要同时在这些分布式部署的算力资源节点之间协调满足算力资源使用时所需要的网络资源。还有一些算力资源应用(如多点实时视频会议应用)需要多个算力节点之间同时处理不同的视频数据,同时这些算力节点之间还需要实时交互式地传递实时处理后的视频信息流,这样一方面需要提供多点的算力资源,另一方面需要同时提供多点之间网状的保证质量的网络资源。
上述典型的算力资源使用场景均需算力资源和网络资源统筹管理和协调调度。
6.3 服务质量评价问题
传统的网络服务主要是信息传输服务,评价服务质量主要可以从信息传输的完整性、安全性、时效性等几个方面进行。信息传输强调的是信息的透明性(源端信息和宿端信息的一致性)。而对于基于网络的算力资源服务,除了直接算力资源服务应用场景外,使用方接收到的数据信息是算力网络所提供的经过算力资源处理过的数据信息,使用方输入到算力网络的数据与算力网络返回给使用方的数据是不相同的。而对于直接算力资源服务来讲,使用方使用服务的体验好坏还与使用方对直接算力资源的熟悉程度和使用水平有关。如何评价算力资源服务的质量有待业界进一步研究。
6.4 算力网络的度量计价问题
如在GB/T 34077.2—2021基于云计算的电子政务公共平台管理规范第2部分:服务度量计价中所规定的那样,当前云计算服务的度量计价方式大多采用按月/年的时间段,根据使用云计算服务的内容进行度量计价,基本采用类似包月的方式进行。对于网络的使用费用则完全由网络运营商根据网络使用的度量计费方式进行收费。没有将计算资源和网络资源的使用协调组合进行度量计价,也没有针对短时间使用云计算服务的度量计价方式。
7 结束语
算力网络可为用户提供基于网络的算力资源服务,算力网络的不断建设和应用将为用户提供更为便利的信息通信基础设施。基于网络5.0的重叠网形态算力网络目前还处在研究推进阶段,挑战和机会并存。但有理由相信,经过业界研究人员的不断创新和努力,不久的将来,使用算力资源就如同使用电和水一样按需便利。