比GPT-3.5 Turbo便宜超60% OpenAI推出小模型卷性价比 -- 飞象网

7月18日，OpenAI正式推出新一代入门级别人工智能模型“GPT-4o mini”，称这款新模型是“功能最强、性价比最高的小参数模型”。

从OpenAI官网的介绍来看，GPT-4o mini在文本智能和多模态推理方面的基准性能超越了GPT-3.5 Turbo，在LMSYS（指聊天机器人(9.770, 0.07, 0.72%)对战）排行榜上还超过GPT-4。而价格层面，GPT-4o mini相比GPT-3.5 Turbo便宜了超过60%。

在“大力出奇迹”的Scaling Law（尺度定律）之外，如何做好小模型正在成为大模型厂家的新考题。

OpenAI入局小模型赛场

OpenAI表示，预计GPT-4o mini将通过大幅降低智能的成本，显著扩展AI应用的范围。据官网介绍，GPT-4o mini的优势在于低成本和低延迟，支持广泛的任务，例如串联或并行多个模型调用的应用程序（例如调用多个API）；向模型传递大量上下文（例如完整代码库或对话历史）；或通过快速、实时的文本响应与客户互动（例如聊天机器人）。

目前，GPT-4o mini在API中支持文本和视觉功能，未来将支持文本、图像、视频和音频的输入和输出。该模型具有128K Token的上下文窗口，数据更新至2023年10月。

性能方面，OpenAI称，GPT-4o mini在涉及文本和视觉的推理任务中优于其他小模型，在MMLU（文本智能和推理基准测试）中得分为82.0%，相比之下，Gemini Flash为77.9%，Claude Haiku为73.8%。

在数学推理和编码任务方面，GPT-4o mini超过了市场大部分小模型。在MGSM（数学推理评估）中，GPT-4o mini得分为87.0%，而谷歌发布的Gemini Flash为75.5%；在HumanEval（编码性能评估）中，GPT-4o mini得分为87.2%，而Gemini Flash为71.5%。

价格方面，GPT-4o mini每百万个输入Token为15美分（约合人民币1.09元），每百万个输出Token为60美分（约合人民币4.36元）。OpenAI表示，这一价格相较GPT-3.5 Turbo便宜超60%。

OpenAI表示，在过去几年中，人们见证了AI的显著进步和成本的大幅降低。例如，自2022年推出文本模型Text-Davinci-003以来，GPT-4o mini的每个Token成本已经下降了99%。

按照设想，OpenAI希望未来能够将一个模型无缝集成到每个应用程序和每个网站中，而GPT-4o mini正在为开发者更高效和更经济地构建和扩展强大的AI应用程序铺平道路。

不过，在小模型赛场中，OpenAI的各家竞争对手已经早早就位。例如谷歌推出的Gemini Flash，Anthropic旗下的Claude Haike等。近日，Mitral AI与英伟达推出的小模型Mistral Nemo上线，声称性能赶超Meta推出的Llama-3 8B。

大模型越卷越“小”

这一年来，“降本增效”已经成为大部分大模型公司的共识。

平安证券研报认为，OpenAI新模型GPT-4o mini兼具性能与性价比，有望加速大模型应用落地。当前全球范围内的大模型逐渐呈现由单方面的性能角逐，转向性能与实用性并重的发展趋势。大模型能力达到一定水平时必然会走向应用，大模型厂商通过提升其产品性价比，助推下游应用端的推广部署，有望加速大模型产业链商业闭环的形成。

一方面，上半年开打的大模型价格战不断蔓延，从两家海外AI巨头OpenAI和谷歌开始，到国内字节跳动、阿里、百度、智谱AI、科大讯飞(39.640, 0.34, 0.87%)等企业，入局者不断增加。从OpenAI此举来看，这场价格战还将持续。

IDC中国研究经理程荫此前在接受《每日经济新闻》记者采访时就谈到，从短期的发展来看，大模型能力更新迭代后将会走向趋同，无论是国内还是国外的技术供应商都不能建立起长久的护城河。一些技术供应商选择直接砍掉大模型成本上的门槛，除了出于促进大模型落地应用，也有增加曝光度，争抢用户、防止用户流失的动因。

另一方面，通过“小模型”，以更低的成本，垂直覆盖更多的应用场景，以推动端侧应用的落地同样成为行业趋势。同时，随着以苹果为代表的各大手机厂商加速发力AI手机，端侧大模型正在成为新的竞争焦点。

专注端侧模型的面壁智能CEO李大海此前在接受包括《每日经济新闻》在内的记者采访时就谈到，相同智能水平的模型，每8个月其参数规模将减少一半，这与摩尔定律具有一定的相似性。在同等性能下，参数规模减小，说明大模型的知识密度在不断提高。李大海表示，随着大模型知识密度的提升和端侧算力的增强，两个因素叠加，有信心在2026年年底前研发出达到GPT-4水平的端侧模型，当端侧模型能够实现GPT-4水平时，很多端侧的产品会更快落地。

李大海认为，当端侧模型可以应用，其成本会更低，且可靠性更高，不需要依赖网络。例如，在用户需求交流时，基于端侧模型的陪伴机器人能够迅速作出反应。这种比较优势使得在适用端侧模型的场景中，大家会更倾向于选择端侧解决方案。

今年3月，百度也发布ERNIESpeed、ERNIE Lite、ERNIE Tiny三个轻量模型。百度集团董事长李彦宏在今年4月的一场公开演讲中也谈到，MoE、小模型和智能体是值得关注的三个方向。“通过大模型，压缩蒸馏出来一个基础模型，然后再用数据去训练，这比从头开始训小模型效果要好很多，比基于开源模型训出来的模型效果更好、速度更快、成本更低。”李彦宏表示。