飞象网讯 (一飞/文)5月13日,在零一万物成立一周年之际,零一万物 CEO 李开复博士携带千亿参数 Yi-Large 闭源模型正式亮相,正式进军全球 SOTA 顶级大模型之首,在斯坦福最新的 AlpacaEval 2.0 达到全球大模型 Win Rate 第一。除此之外,零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列,每个版本达到同尺寸中 SOTA 性能最佳。
在国际领先的底座模型之上,零一万物本月同步官宣了从应用到生态的产品线:2C 生产力应用 “万知” 正式提供服务、赋能 2B 生态的 “API 开放平台” 今日全球上线。借一周年发布会,零一万物公开了开源闭源双轨大模型的战略布局,低调许久的创始人李开复也首度现身说法,亲自拆解发展蓝图背后的战略思路。
在中国大模型进入第二年之际,李开复博士提出,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到 “TC-PMF”(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的 ofo 式流血烧钱打法,让大模型能够用健康良性的 ROI 蓄能长跑,奔赴属于中国的 AI 2.0 变革。
零一万物以全球为目标市场,基于全球领先的 Yi 系列模型做出符合 TC-PMF 的B端和C端优质应用,进而与行业携手推进 AI 2.0 生态。中国市场的AI普惠必然到来,零一万物将结合国际经验,打造惊艳的国内 AI-First 应用生态,实现“让通用人工智能普惠各地,人人受益”的公司愿景。
Yi-Large 进击全球SOTA大模型极品,Win Rate全球第一
去年11月,零一万物所发布的 Yi-34B 以开源社区“甜点级”尺寸就在权威榜单中超越了 Llama2-70B、Falcon-180B等大几倍的模型,成为当时世界范围内开源最强基础模型之一,引发国际开发者社区的热烈回响和采用,在国际开源圈破圈建立了全球化的技术品牌信任感。
半年后,零一万物正式发布千亿参数规模的 Yi-Large,在第三方权威评测中,零一万物 Yi 模型在全球头部大模型的中英文双语 PK 上表现出色。最新出炉的斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上,Yi-Large 模型的英语能力主要指标 LC Win Rate(控制回复的长度) 排到了世界第二,仅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前国内模型中仅有 Yi 和 Qwen 曾经登上此榜单的前 20。
斯坦福 AlpacaEval 2.0 Verified 认证模型类别,英语能力评测(2024年5月12日)
在中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能,可谓正式晋升全球大模型的“极品”。
在更全面的大模型综合能力评测中,Yi-Large 多数指标超越 GPT4、Claude3、Google Gemini 1.5 等同级模型,达到首位。在通用能力、代码生成、数学推理、指令遵循方面都取得了优于全球领跑者的成绩,稳稳跻身世界范围内的第一梯队。随着各家大模型能力进入到力求对标GPT4的新阶段,大模型评测的重点也开始由简单的通用能力转向数学、代码等复杂推理能力。在针对代码生成能力的 HumanEval、针对数学推理能力的 GSM-8K和 MATH、以及针对领域专家能力的GPQA等评测集上,Yi-Large也取得了具有绝对优势的成绩。
国际中英文评测数据集(2024年5月12日)
值得注意的是,上述评测均是在零样本(0-shot)或少样本(4-shot/5-shot/8-shot)的前提下进行。在零样本或少样本的情况下,模型必须依赖于其在大量数据上训练时获得的知识和推理能力,而不是简单地记忆训练数据。这最大程度上避免了刷分的可能性,能更加客观真实地考验模型的深层次理解和推理能力。
此外,从行业落地的角度来看,理解人类指令、对齐人类偏好已经成为大模型不可或缺的能力,指令遵循(Instruction Following)相关评测也越发受到全球大模型企业重视。斯坦福开源评测项目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是两组英文指令遵循评测集,AlignBench 则是由清华大学的团队推出的中文对齐评测基准。在中外权威指令遵循评测集中,Yi-Large 的表现均优于国际前五大模型。
发布会上,李开复博士还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中,仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负,训练完成后的性能令人期待。
Yi-XLarge 初期训练中评测(2024年5月12日)
Yi-1.5 开源全面升级,开源闭源双轨完善生态策略
此次发布会上,零一万物Yi系列开源模型也迎来全面升级,Yi-1.5 分为 34B、9B、6B 三个版本,且提供了 Yi-1.5-Chat 微调模型可供开发者选择。从评测数据来看,Yi-1.5 系列延续了 Yi 系列开源模型的出色表现,数学逻辑、代码能力全面增强的同时,语言能力方面也保持了原先的高水准。开源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社区 https://www.modelscope.cn/organization/01ai。
经过微调后的 Yi-1.5-6B/9B/34B-Chat 在数学推理、代码能力、指令遵循等方面更上一层楼。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等数学能力评测集、HumanEval 和 MBPP 等代码能力评测集上的表现远同参数量级模型,也优于近期发布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同参数量级模型中也处于领先位置。
Yi-1.5-34B-Chat 在数学能力同样保持着大幅领先,代码能力与超大参数量级的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多个权威评测集上完全超越了 Mixtral-8x22B-Instruct-v0.1。
去年零一万物选择以开源首发 Yi 系列模型,其优异的性能受到国际开发者的高度认可。Yi 开源版本2023年11月上线首月,便占据开源社区近5成热门模型排行,发布一个月后 Yi-34B 被 Nvidia 大模型 Playground 收录,成为国内唯一获选模型,也建立了 Yi 模型面向国际的科技品牌信任度。
以开源模型构建生态,以闭源模型展开 AI-First 探索,开源闭源双轨模型策略使得零一万物构建起了生态体系。开源模型服务于全球的科研院校、学生、开发者、创业者人群,推动百花齐放的应用滋长;API 开放平台提供企业商用,协助企业实践 AI 2.0 的智能化转型。同时,零一万物以优异的闭源模型能力,正在积极探索与世界 500 强企业的大型战略合作。开源闭源相互助力,确保零一万物本着 TC-PMF 的方法论,以更稳健的步伐奔向 AGI。
Yi 大模型 API 开放平台全球首发
全球开发者们对开源模型的品牌认可,成为零一万物 API 服务的强有力支撑。今天,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。
Yi 大模型 API 开放平台 (https://platform.lingyiwanwu.com/)
其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景;Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。
Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读20万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。
小胰宝是一个在胰腺肿瘤患者群体中广受关注的公益项目,正在寻求以开源方式运营和共建。通过问答的形式,小胰宝 AI 小助手可以 7x24 小时为患者介绍综合治疗知识。这一助手背后的技术支持正是零一万物的 Yi 大模型。使用 Yi API 调用 AI 大模型后,小胰宝突破了胰腺肿瘤治疗信息壁垒,可将胰腺癌治疗路线图和治疗方案精准且系统性地呈现给胰腺肿瘤病友。目前,该公益项目已经帮助了 3000 多位胰腺肿瘤病友,AI 小助手在病历和报告解读的准确率也有显著提升,已被某国家级权威三甲医院推荐。
而这也是零一万物的愿景所及之处。能否实现价值落地是一切技术的试金石,模型能力不应当是空中楼阁,大模型公司不仅要放眼 AGI,更重要的是要切实推动模型进入各行各业、进入日常生活,让每个人都能享受到 AI 2.0所带来的便利。
万知 “AI-First 版 Office” 帮你找、读、写
近期上线的一站式 AI 工作站“万知”(wanzhi.com 微信小程序“万知AI”)则是零一万物基于世界领先的闭源模型 Yi-Large 所做出的 “模应一体” 2C 生产力应用。依托零一万物闭源模型的强大能力,万知在通用问答、多模态、长文本方面都有着不俗表现。更令人惊喜的是,万知成为业内第一款真正实践了“AI-First”理念、创新性地将模型能力与应用场景完美融合的 2C 应用产品。
以往发布的大模型 2C 应用大多定位于“聊天机器人”,万知则针对找、读、写三大场景,将通用问答场景作为交互方式,搭配长文档解读、PPT 制作等功能,打造PC/手机多端协同、覆盖工作生活全场景的 “AI-First 版 Office”,为用户提供 AI 2.0 时代颠覆性的办公体验,创始人李开复也亲自担任“首席体验官” 聆听网友反馈。
大模型赛道从狂奔到长跑,需有达到 TC-PMF 的方法论
在移动互联网的鼎盛时期,PMF(Product-Market Fit,产品市场契合)曾是众多初创企业追求的核心目标。然而,随着大语言模型成为新的创业焦点,仅仅追求产品与市场契合远远不够。
两个时代在创业基础设施层面存在着决定性的差异——在移动互联网时代,用户规模增长所带来的边际成本很低,但是在大模型时代,模型训练和推理成本构成了每一个创业公司必须要面临的增长陷阱。用户增长需要优质的应用,而优质应用离不开强大的基座模型,强大基座模型的背后往往是高昂的训练成本,接着还需要考虑随用户规模增长的推理成本。这一普惠点如何达成、何时到来变得越发难以捉摸。
李开复博士认为,PMF 这一概念已经不能完整定义以大模型为基础的 AI-First 创业,应当引入 Technology(技术)与 Cost(成本)组成四维概念——TC-PMF。“做 Technology-Cost Product-Market-Fit(TC-PMF),技术成本 X 产品市场契合度,尤其推理成本下降是个‘移动目标’,这比传统 PMF 难上一百倍。” 李开复博士表示。
随着高性能计算硬件的迭代和模型优化技术的普及,大模型推理成本的大幅度下降已经成为可预见的趋势所在。在普惠点终将到来的前提下,能够率先察觉、并达到 TC-PMF 这一普惠点的玩家无疑会占尽先机。要做到这一点,模型、AI Infra、应用这“三位一体” 的优异能力缺一不可。基于此,零一万物将 “模基共建”、“模应一体”列为公司的顶层核心战略,在人才密度和协作方式上,也快速打磨出一整套能够媒合不同专业的精英人才进行跨界共创的组织能力。
模基共建:依托AI Infra能力走出增长陷阱
在国内大模型赛道向前狂奔的第一年,模型结构成为行业焦点,鲜少有人注意到 AI Infra 的重要性。
一个不容忽视的事实在于,中国大模型公司没有美国大厂的GPU数量,所以必须采取更务实的战术和战略。AI Infra(AI Infrastructure 人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施,在李开复博士看来,自研 AI Infra 是零一万物必然要走过的路,零一万物也自成立起便将 AI Infra 设立为重要方向。
“第一年大模型行业在卷算法,第二年大家在卷算法 + Infra。在国外一线大厂,最高效训练模型的方式是算法与 Infra 共建,不仅仅关注模型架构,而是从优化底层训练方法出发。”零一万物模型训练负责人黄文灏表示,“这对大模型人才的知识能力提出了全新要求。”
目前来看,模型研究人员只关注算法而忽视 AI Infra 是国内大模型行业现状。而零一万物选择跟国际一线梯队齐平,模型团队和 AI Infra 团队高度共建,人数比为1比1。“我们要求做模型研究的人一定要‘往下沉淀’,具备工程能力。这也对齐我们倡导的 TC-PMF 的方法论。”黄文灏说。
零一万物着力于实现计算效率的优化。据了解,零一万物 Yi-Large 训练环节的平均 MFU已显著超越业内平均水平。多方面优化后,零一万物千亿参数模型的训练成本同比降幅达一倍之多。
今年3月,零一万物推出了基于全导航图的新型向量数据库笛卡尔(Descartes),其搜索内核已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。同样于3月,零一万物成功在 Nvidia GPU 上进行了千亿参数模型 Yi-Large 的端到端 FP8 训练和推理,成为全球率先落地该技术的三个案例之一。
底层技术的突破带来了优化成本的新可能。接入自研向量数据库后,零一万物的C端应用在保证响应速率与准确性的前提下,成本大幅降至了原用第三方向量数据库时的 18%。在端到端 FP8 训练的前提下,零一万物能够采用技术和工程手段得到与更高精度类型相媲美的训练结果,与此同时模型训练所需的显存占用、通讯带宽都极大降低。
训练和推理成本的下降固然已经成为行业趋势,但在达标 TC-PMF 的激烈角逐中,AI Infra 优化使得零一万物能够比行业更快、更精准地抵达普惠点。“模基共建”所带来的绝对领先的成本优势,为零一万物争取到了更多时间,推出价廉物美的 API 和开源模型,进一步催化更多的 AI-First 应用生态。
模应一体:初步跑通TC-PMF,全球市场打磨造血能力
国内大模型领域陷入混战的 2023 年初,各式各样的评测榜单铺天盖地,跻身各大榜单 TOP 的模型不在少数。大模型进入第二年,行业进入更为现实的商业落地阶段,客户/用户都会按照应用侧所展现的能力,用脚投票。如何基于基座模型能力,尽可能提升应用效果,是追赶 TC-PMF 的重要课题。
基座模型、AI Infra、API、C 端应用,全栈式业务部署,使得零一万物能够以更全面的视野来看待大模型时代的增长陷阱,也为零一万物在应用层的商业落地带来了更大的发挥空间。无论是 2C 还是 2B,“模应一体”的思路始终贯穿零一万物的商业实践——模型团队与产品团队紧密结合,摸清模型能力边界,针对某一应用场景去优化专有模型,并最终实现全球范围内的弯道超车。
“AI-First 不等于 AI Only,”零一万物生产力产品负责人曹大鹏表示,“模型、工程、算法、产品要基于场景深度结合,模型长板匹配刚需高价值场景,构建AI-First 工作流,追求极致体验、一站式解决用户问题,而不是单纯秀模型能力肌肉,拿锤子找钉子。”
“万知”正是这一理念的最好证明。“找、读、写” 职场人的三大需求精准切入办公场景刚需,AI 助力之下的文件撰写提效超 10 倍,低专业判断的日常白领任务节约时间超8成,联网生成回答、PPT 速率远超行业平均水平。万知还创新性地将多模态能力与PDF文档阅读场景相结合,解决PDF文档中大量图表无法识别的痛点。这一功能的实现离不开高性能的场景专属模型——多模态模型 Yi-VL-Plus 在视觉模型盲测平台Vision Arena上的评测成绩始终保持全球领先。
在行业普遍追求大项目、快增长的背景下,零一万物选择了冷静克制的发展路径,更关注能造血的“高质量增长”。在 AI 1.0 时代,人工智能还未展现出高泛化性和涌现能力,针对头部客户做私有化部署的模式成为主流,但时间已经证明,偏项目制的重交付模式所带来的营收增长存在上限,其可持续性挑战严峻。
在零一万物 API 平台负责人蓝雨川看来,已经在海外充分得到商业模式验证的 API 会是更好的选择。作为标准化产品的 API 复用性更强,商业模式也更趋近于云服务。比起 AI 1.0 定制化重交付的模式,API 能够更快穿透千行百业,蓝雨川表示,零一万物提供世界第一梯队的模型、最佳性价比的方案,聚焦企业如何用 AI 为自身业务带来增长。
API 与万知等C端应用共同构建起了零一万物的商业落地版图,也成为零一万物追逐 TC-PMF 的重要实践。在李开复博士的规划中,零一万物将作为具有前瞻性的务实者一步步实现落地,并最终达到 TC-PMF,打造出 AI 2.0 时代的超级应用,实现让通用人工智能普惠各地,人人受益。
在普惠各地的愿景下,海外市场是零一万物不可或缺的一部分。值得一提的是,无论是B端API 还是C端应用,零一万物都已开启海外的落地尝试。
去年9月开始,零一万物便聚焦生产力、社交赛道于海外应用展开探索,已有 4 款产品陆续上线。目前零一万物海外生产力应用总用户接近千万,营收今年预期过亿人民币,已实践出大模型 2C 产品的 TC-PMF——产品 ROI 为1,初步摆脱烧钱获客,成功验证了 AI-First 产品的用户订阅制商业模式。API 也将面向海外推出 Yi-Large、Yi-Large-RAG、Yi-Medium 等API,还未上线便已在开发者群体里引发关注。
由于海外市场与国内市场在付费意愿、市场环境方面存在差异,目前万知采取限时免费模式。但据曹大鹏介绍,后续万知会结合产品发展和用户反馈推出收费模式。
TC-PMF 所带来的 AI 普惠点终将来临,这一次市场竞争将不再支持共享单车式的烧钱大战,采用以资金“跑马圈地”商业模式的企业必然会率先力竭,冷静判断行业发展进程,脚踏实地打磨TC-PMF 才是更符合长期主义的路线。这场较量将包含模型、AI Infra、产品应用等三位一体多个方面,零一万物已经做足准备。
李开复博士表示,ofo 式的补贴逻辑不再适用于 AI 2.0,希望大模型赛道的竞争聚焦于达成 TC-PMF。零一万物将以全球为目标市场,以更从容的姿态迎接必然被点燃的中国普惠AI市场。