飞象网讯(魏德龄/文)“韩信用兵,多多益善”想必是一个脍炙人口的典故,淮阴侯当时用此来形容自己的领兵才能,当然随之还有高祖的“善将将”。而“多多益善”与“善将将”的优势在AI浪潮之下,也正在变为一种行业所必须的能力。
有分析人士判断,AI市场将会迎来一波长达十年以上的热潮,AIGC在企业IT中的占比投入一定会越来越高,AI对于需求的刺激将是之前10年的10倍-100倍,算力需求也将随之出现等量的增长。而“多”恰恰是能够满足需求的保障,因为不同的算力需求其背后所调用的超算中心硬件资源也并不相同,正所谓“更多选择,更多欢笑”,已经实现盈利的国家超算济南中心就是一个很好的案例。
更多选择,更多欢笑
以目前常见的几类AI用例需求而言,很多高校进行的传统科学计算类应用就需要HPC,才能完成如仿真、模拟、洋流预测、基因检测等工作;对于传统的政务云业务、传统CRM/ERP企业数字化应用则属于传统云计算需求,就需要调用CPU类资源;目前大热的涉及道路识别、车牌识别这样的智慧城市类应用则需要调用GPU的能力。业务的多元需求恰恰决定了对于多元算力的需求。
据悉,仅在三年前国家超算济南中心就已经拥有1000P算力与300PB以上的存储,是当时全亚洲最大的算力中心之一,包括了HPC超算、以CPU为主的传统云计算,以GPU为主的智算,其中智算兼顾了国产化需求,引入了一部分国产GPU,进而成为了一个既拥有多元算力,又具备异构算力能力的超算中心。
“投资建设一个平台后产生的效益取决于平台能力,因为平台能力越强,能支撑客户的业务种类就越多。客户越多,盈利模式越清晰。”三年前参与服务国家超算济南中心的青云科技总裁林源向媒体解释了缘何需要异构计算与多元算力。
反之,如果不拥抱多元算力,仅仅建设一个只支持某一种硬件算力为核心的超算中心,往往会后续实际运营中面临尴尬。例如,国内某大厂曾在某地建了一个计算中心,但由于只支持某一个GPU,造成当应用需求到来时,却出现了不兼容的问题,导致出现客户面变窄的问题。
不过,如何调度如1000P的算力与300PB存储,将多元与异构整合在一起,让超算中心实现高效运营,如同韩信用兵一般,实现多多益善,而不是陷入管理困局,同样是一个需要面对的问题。青云科技作为国家超算济南中心建设的参与者,恰恰为其提供了统领全局的能力,这就需要提到该公司近日发布的新产品—AI算力调度平台。
青云AI,多多益善
“我们已经在国家超算济南中心的实践成功,证明青云平台具备能力、干过,也干成了。”林源专门表达了对于该产品的信心。青云AI算力调度平台作为计算中心运营者的关键工具,可以建立从建设到运营的闭环,在国家超算济南中心的案例中,不仅三年前就成功进行了实践,还助力其不仅运营得好,还实现了盈利。
青云AI算力调度平台恰恰具备了如“韩信用兵,多多益善”的管理能力,可实现对于GPU算力、HPC算力、多存储系统、模型资源、数据资源的多元资源统一平台管理,实现算力平台自动资源。还可根据不同的行业需求,通过平台进行资源分发,具备分布式调度与管理能力,自动分配和管理算力资源,大幅缩短任务执行时间,提高工作效率,让客户专注于业务创新和应用开发。
平台的管理操作也易如反掌,通过统一运营和运维管理平台,实现多种服务场景的运营化服务的后时,规范化高效运维,帮助用户实现精细化运营。青云会为平台管理员交付一个可视化的大屏管理界面,可轻松浏览全国的上千台算力资源与存储。以国家超算济南中心为例,后端其实只需要10-20人的团队,就能实现对于软件的运维,并解决客户的各类问题。
“青云通过一套运营运维平台,让其定价、打折、促销等,只需要在页面上点击按钮即可。”青云科技产品经理苗慧表示青云AI算力调度平台相比传统云计算搞申请表之类的日常流程操作,在运维效率上有着明显优势。
与此同时,青云AI算力调度平台还可帮助客户解决网络交换速度、环境搭建、多业务整合等问题。
除了大幅提升平台运维人员的管理能力外,对于平台用户而言,青云也能进一步提升AI落地的开发效率。面向算法工程师,青云提供的开发主机,已经内置了一些开发环境和IDE环境,工程师可将Python工程文件等直接传上去,在线写代码、调试、运行,立即找到所需的训练集群。推理完成后,还能实现算法调优,通过算力集群与模型不断优化代码。
另外,青云还提供了在线训练平台,将高性能计算、GPU卡等进行集成,在专属环境上,青云提供一个GPU服务器在线申请构建集群,所有的网络和环境均可一键生成。同时青云会根据行业内常用的模型和小工具进行集成。
容器推理平台支持一键部署高性能Kubernetes集群,在推理过程中,如果发生一些性能上的拥堵,可以实现负载均衡、弹性伸缩。
青云还提供了模型仓库,方便客户可以通过模型市场立即部署自己的模型,调用自身的服务。同时,还能给予模型进行微调,或在线通过云平台的形式一键获取。
总体而言,青云AI算力调度平台实现了像如同管理本地资源般的方式,来管理AI基础设施,提供多元算力调度与智能化的算力调度,保证算力快速落地。
开放生态,让客户“善将将”
作为具备了“多多益善”才能的青云AI算力调度平台来说,第二个问题是用户是否有机会也能具备“善将将”的实力。实际上,对于未来AI时代而言,由于投资巨大,单一企业可能很难实现“大包大揽”,因为每个方面的成本都将比过去十年更高,仅以一个大模型为例,可能就需要花费大量人力、算力、金钱与时间成本,CPU、IDC建设等同理如此。据此,青云正在与不同领域的合作伙伴一起实现能力的整合。
“所以我们有一个大胆的设想,在AI领域一定会出现巨头,但是我们觉得这个巨头不应该是一家独立的公司,我觉得它应该是一个小的生态。”林源隆重引出了定位为通过开放生态同盟方式一起运营的青云AI算力云服务。
这一设想主要基于三方面的考虑,首先是生态将能够满足客户需要完整解决方案的需求,其次每位专业参与者间都有着彼此的需求,并彼此保持开发,最终志同道合形成长期共赢的同盟。
从客户需求上看,客户需求的完整解决方案包括机房、算力、调度平台、模型、模型驱动、Model Service,以及可以运行的应用。其中从算力、模型、服务到应用场景每一层都需要极强的专业性。
青云AI算力生态体系目前已经围绕AI 算力基础设施的生态共享、AI 算力大模型的资源整合以及 AI 数据资源的生态整合实现了构建,进而更好的帮助企业AI实现真正的业务价值。林源在媒体采访过程将其分类为技术生态与商业生态,其中技术生态包括GPU与模型生态,商业生态则包括计算中心的投资建设、AI最终客户等。
目前青云已经实现了从适配、MaaS、共筑到最终落地的生态体系整合,涵盖了从各大知名芯片厂商、模型开发商、云数据中心提供商等多层面的联手。对于青云AI算力云的客户而言,正如同是可以调动大量名将的AI开拓者,达到“善将将”的效果。
“每一个新时代到来的时候,大家都站在同一起跑线上,而新的时代可能需要一些新的合作模式与玩法。”林源表示AI时代的到来可能会让格局发生新的变化。
“多多益善”之后的成功故事自不必表,如今AI正被视作是云服务之后的又一新机遇,“能做、做过,做成功了”的青云AI恰巧也已经展现出了“多多益善”的自信,后续的精彩篇章正在开启。