每经记者 文巧 每经编辑 兰素英
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA 3即将面世。
在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA 3。据了解,该模型将有多个具有不同功能的版本。
但Meta并没有披露LLaMA 3的参数规模。“随着时间的推移,我们的目标是让由LLaMA驱动的Meta AI成为世界上最有用的助手。”Meta人工智能研究副总裁Joelle Pineau说。“要达到这个目标,还有相当多的工作要做。”
而据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。LLaMA 3将支持多模态处理,即同时理解和生成文本及图片。
值得注意的是,LLaMA 3将延续Meta一直以来的开源路线。目前,开源模型界的竞争正在变得愈发激烈,开源大模型亦进化得越来越强大。截至目前,包括谷歌、马斯克旗下的xAI、Mistral AI、StabilityAI等在内的许多公司都发布了开源的大模型。
作为开源模型界的“扛把子”,Meta在AI基础设施上的投入亦不可小觑,目前只有微软拥有与之相当的计算能力储备。Meta发布的一篇技术博客称,到2024年底,该公司将再购350000个英伟达H100 GPU,算上其他GPU,其算力相当于近600000个H100。
LLaMA 3即将登场 参数量或达1400亿
在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA 3。Meta全球事务总裁Nick Clegg表示:“在下个月内,甚至是在很短的时间内,我们希望推出新的下一代基础模型套件LLaMA 3。”
从Nick Clegg的表述上看,LLaMA 3将有多个不同功能的版本。“今年内,我们将发布一系列具有不同功能、不同通用性的模型,很快就会开始发布。”
同时,Meta首席产品官Chris Cox补充称,Meta计划用LLaMA 3为Meta的多个产品提供支持。
值得注意的是,LLaMA 3将延续Meta一直以来的开源路线。
与OpenAI坚持的闭源路线和大参数LLM不同,Meta从一开始就选择了开源策略和小型化LLM。
2023年2月,Meta在其官网公开发布了LLaMA大模型,与GPT系列模型类似,LLaMA也是一个建立在Transformer基础架构上的自回归语言模型。
LLaMA包括70亿、130亿、330亿、650亿这四种参数规模,旨在推动LLM的小型化和平民化研究。相比之下,GPT-3最高则达到了1750亿的参数规模。Meta在当时的论文中总结称,尽管体积小了10倍以上,但LLaMA(130亿参数)的性能优于GPT-3。
一般来说,较小的模型成本更低,运行更快,且更容易微调。正如Meta首席执行官扎克伯格在此前的财报电话会议中称,开源模型通常更安全、更高效,而且运行起来更具成本效益,它们不断受到社区的审查和开发。
谈及开源问题,扎克伯格在接受外媒The Verge采访时曾表示:“我倾向于认为,最大的挑战之一是,如果你打造的东西真的很有价值,那么它最终会变得非常集中和狭隘。如果你让它更加开放,那么就能解决机会和价值不平等可能带来的大量问题。因此,这是整个开源愿景的重要组成部分。”
除此之外,小型模型还便于开发者在移动设备上开发AI软件,这也是LLaMA系列模型自开源以来就获得开发者广泛关注的原因。当前,Github上许多模型都是基于LLaMA系列模型而开发。
去年7月,Meta发布了LLaMA 2。当时,Meta也采用了先发小模型的策略。在发布700亿参数的LLaMA 2大规模版本之前,Meta先行推出了130亿和70亿参数的小型版本。
不过,根据相关的测试,LLaMA 2拒绝回答一些争议性较小的问题,例如如何对朋友恶作剧或怎样“杀死”汽车发动机等。近几个月来,Meta 一直在努力使LLaMA 3在回答有争议的问题上更开放,也更准确。
尽管Meta没有透露LLaMA 3的参数规模,但从The Information的报道来看,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量据悉可能超过1400亿,这与最大版本的LLa-MA 2相比提升了一倍。
在整个开源模型界,竞争正在变得愈发激烈,开源大模型亦进化得越来越强大。
今年2月,谷歌罕见地改变了去年坚持的大模型闭源策略,推出了开源大模型Gemma;3月,马斯克也开源了旗下xAI公司的Grok- 1模型。根据Gemma和Grok-1的性能测试文档,它们在数学、推理、代码等多项基准测试方面的性能均超过了同规模的LLaMA 2模型。
截至目前,包括谷歌、xAI、Mistral AI、DataBricks和StabilityAI等在内的多家科技公司发布了开源的大模型。有业内人士此前在接受《每日经济新闻》记者采访时说道:“开源是大势所趋,我认为Meta正在引领这一趋势,其次是Mistral AI、HuggingFace等规模较小的公司。”
“狂卷”AGI 豪掷百亿美元囤芯片
作为开源模型界的“扛把子”,Meta在AI基础设施上的投入亦不可小觑。
实际上,Meta上个月曾发布一篇技术博客,展示了自己拥有的算力资源,以及布局AI基础设施的细节和路线图。该公司称,其长期愿景是构建开放且负责任的通用人工智能(AGI),以便让每个人都能广泛使用并从中受益。
Meta在博客中写道:“到2024年底,我们的目标是继续扩大(AI)基础设施建设,其中包括350000个英伟达H100 GPU,这是其产品组合的一部分,算上其他,其算力相当于近600000个H100。”据悉,目前只有微软拥有与之相当的计算能力储备。按照亚马逊给出的价格来算,一块H100芯片大约3万美元,350000个H100的价格就是105亿美元(约合760亿元人民币)。
在这份文档中,Meta也透露了一些用于训练LLaMA 3的集群细节,该集群由24576个英伟达H100 GPU构成。
据市场跟踪公司Omdia去年发布的一份报告,Meta和微软是英伟达H100 GPU的最大买家。据其估算,上述两家公司在2023年各自采购了150000个H100 GPU,是谷歌、亚马逊、甲骨文等科技公司所购的H100 GPU数量的三倍以上。
在前述文档中,Meta也重申了将坚持一贯以来的开源路线,“Meta始终致力于人工智能软件和硬件的开放创新。我们相信开源硬件和软件将永远是帮助行业大规模解决问题的宝贵工具。”
值得一提的是,凭借AI上的投入,扎克伯格在福布斯最新发布的2024(第38届)全球亿万富豪榜上居第四,资产净值为1770亿美元,这也是扎克伯格有记录以来的最高排名。以美元计算,扎克伯格的资产净值在过去一年增长最多,共增加1126亿美元,增幅为174.8%。