全球诸多科技公司已经砸下数百亿美元来构建各种大型语言模型,为生成式人工智能产品提供动力,而如今,这些公司开始寄望于一种推动收入增长的新方式——小型语言模型。
小型语言模型的参数相较于大型语言模型少很多,但仍然具有强大的功能。微软、Meta和谷歌近期都发布了新的人工智能小参数模型。
通常来说,参数的数量越多,人工智能软件的性能就越好,它所能执行的任务就越复杂和巧妙。上周,OpenAI公司新宣布的最新模型GPT-4o和谷歌的Gemini 1.5 Pro估计拥有超过1万亿参数,而Meta的开源Llama模型约有4000亿参数。
不过,运行大型语言模型所需的计算能力庞大,也就意味着成本高昂。除了难以说服一些企业客户支付大笔运营费用外,数据和版权问题也成了人工智能产品使用的阻碍。
替代方案
一些科技公司目前正在将只有几十亿个参数的小型语言模型视为更便宜、更节能、可定制的替代方案进行宣传。这些模型可以用更少的电力来训练和运行,并且还可以保护敏感数据。
谷歌、Meta、微软和法国初创公司Mistral已陆续发布了各自的小型语言模型,这些模型显示出先进的功能,并且可以更好地专注于特定的应用功能。
Meta全球事务总裁Nick Clegg直言,Llama 3最新的80亿参数模型可与GPT-4媲美。他指出,“我认为,在你能想到的几乎所有衡量标准中,你都看到了卓越的表现。”
微软则表示,其拥有70亿个参数的Phi -3小型模型的性能优于OpenAI模型的早期版本GPT-3.5。
微软Azure人工智能平台的副总裁Eric Boyd表示,“通过以更低的成本获得如此高的质量,你实际上为客户提供了更多的应用程序,让他们可以做一些令人望而却步的事情。”
Boyd还指出,“更小的型号将带来有趣的应用,并且能够延伸到手机和笔记本电脑”。
小型模型另外的一大优势就是可以在设备上“本地”处理任务,而不是将信息发送到云端,这一点可能会吸引那些注重信息隐私的客户。
目前,谷歌最新的Pixel手机和三星最新的S24智能手机中已嵌入了谷歌的“Gemini Nano”模型;苹果公司也暗示它也在开发AI模型,以运行iPhone上。上个月,苹果发布了OpenELM模型,这是一个小型模型,旨在执行基于文本的任务。