文生图功能升级 ChatGPT追击 -- 飞象网

转自：北京商报

AI图像生成领域传来了新进展。当地时间3月25日，OpenAI在直播中对GPT-4o和Sora进行更新，并宣布其最新一代多模态模型GPT-4o正式集成“迄今为止最先进的图像生成器”，并开放免费使用。这一动作被业界视为对同日凌晨Google发布的Gemini 2.5 Pro Experimental模型的直接狙击。两大巨头的同日“对垒”，标志着生成式AI竞赛进入白热化阶段。

攻克“生成图像中的文字”难题

据OpenAI介绍，GPT-4o图像生成功能擅长准确呈现文本，并精准遵循提示词，该功能还会将GPT-4o的知识库和聊天上下文作为灵感来源，这有助于使用者与图像生成工具更有效地沟通并提高生成图像的质量。该功能供ChatGPT Plus、Pro、Team和免费用户使用，并计划随后向企业、教育和API使用者推出。

在OpenAI的示例中，要求大模型生成一名女子在一个俯瞰海湾大桥的房间里用笔在白板上写字，衣服上印有OpenAI字样，白板映着摄影师的身影，并描述了白板上所写的文字。GPT-4o生成的图像都体现了以上要求。随后，OpenAI要求摄影师走到镜头前与女子击掌，GPT-4o也呈现了这一画面，且白板上的字不会变得凌乱，女子的身形和发型也与前一张图像呈现的背影一致。

生成图像中的文字，此前是图像生成领域的一个难题。ChatGPT在2022年底上线，最初只能生成和编辑文本，不能生成图像。大约一年后，OpenAI发布第三代图像生成模型DALL-E 3，并集成到ChatGPT，但两者一直是互相独立的系统。国内厂商中，去年豆包升级文生图能力，支持一键生成指定文本。今年3月，智谱AI发布了首个支持生成汉字的开源文生图模型CogView4。

就如何训练GPT-4o图像生成功能，OpenAI解释，OpenAI使用了网络上的图像和文本训练模型，让模型学习图像与文字、图像与图像之间的关系，使模型具有视觉流畅性，生成的图片是有用的、具备上下文连贯性的。

就GPT-4o图像生成功能的特点，OpenAI还表示，用户可以通过自然对话与大模型交流，要求大模型改进图像，在这个过程中图像中的人物等要素会保持一致性。使用者与大模型的交流也更顺畅，可以同时要求大模型处理10到20个不同的对象，以便图像中各要素呈现出相关性。OpenAI对比其他图像生成系统时称，其他系统只能同时处理5到8个对象。

不过，OpenAI也指出，GPT-4o图像生成功能也具备一些限制，例如存在幻觉、难以呈现太多依赖知识库的图像要素（例如元素周期表）、图表准确性不足、呈现非拉丁语言时可能容易出现幻觉、要求修改图像中的错别字时难以精准编辑。

一位从业者对北京商报记者表示，GPT-4o图像生成确实强大，但完全替代UI设计师还早，创意和细节还得靠人。“88分的设计流，剩下12分才是设计师的真正价值。”

GPT-5路线图

此次更新GPT-4o的图像生成功能之后，OpenAI更大的产品更新将是推出GPT-5。今年2月，OpenAI首席执行官山姆·奥尔特曼表示，OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5，GPT-5将集成公司多项技术，包括推理模型o3的技术，GPT-5可能会在未来几个月内推出。

相比于之前一直不明确GPT-5的推出节点，奥尔特曼突然官宣GPT路线图，或许是因为OpenAI面临用户流失的压力。奥尔特曼此前表示，DeepSeek让OpenAI的领先优势不会像前几年那么大了，并称个人认为在开源权重模型和研究成果的问题上，OpenAI已经站在了历史的错误一边，需要制定不同的开源策略。

此前据《华尔街日报》报道，OpenAI内部代号为“猎户座”（Orion）的GPT-5项目的开发已持续近两年，目前面临严峻挑战。按原计划，该项目应在2024年年中完成，但现在进度严重滞后。

OpenAI已经进行了至少两次大型训练，每次训练都需要数月时间处理大量数据，目的是让“猎户座”变得更聪明。一位前OpenAI高管表示，如果说GPT-4的表现相当于一个优秀高中生，那么GPT-5的目标是要在某些任务上达到博士水平。然而熟悉该项目的人士表示，“猎户座”的训练每次都会出现新问题，软件也达不到研究人员的预期。

东吴证券(7.920,-0.03,-0.38%)发布研报称，判断OpenAI对大模型的产品线与预期曾进行过调整。GPT-5的发布时间或提前，或由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成了威胁，进而希望加快产品迭代步伐。

外部竞争

困扰OpenAI的不只是数据和成本，外部竞争同样关键。就在OpenAI宣布更新的大约一小时前，谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。该模型基于多模态大语言框架升级，显著增强了推理能力、多语言支持及长文本处理能力。

谷歌将Gemini 2.5定义为公司迄今为止“最智能的AI模型”，Gemini 2.5 Pro实验版本在多项基准测试中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。据官方介绍，Gemini 2.5通过优化算法架构，将响应速度提升40%，能耗降低25%。在关键指标测试中，其复杂逻辑任务完成度较前代提升65%，尤其在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度。

Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入，上下文窗口达100万token（约75万单词），可解析完整《指环王》系列文本，未来将升级至200万token。谷歌表示，“推理”能力不仅仅指分类和预测，而是指系统分析信息、得出逻辑结论、融入上下文和细微差别，以及做出明智决策的能力。

该模型一经发布，便在各大基准测试上全面“屠榜”，在所有测试中都稳居第一名的位置，包括常见的编程、数学和科学基准测试。在推理能力方面，Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位。在“人类的最后考试”中（一个由数百名学科专家设计的数据集，旨在捕捉人类知识和推理的前沿），它在未使用工具的模型中也获得了18.8%的最高分数，这是目前最先进的成绩。

谷歌Deepmind首席技术官Koray Kavukcuoglu在博客中写道：“现在，通过Gemini 2.5，我们结合了显著增强的基础模型和改进后的后续训练，实现了全新的性能水平。未来，我们将把这种思维能力直接构建到我们所有的模型中，使其能够处理更复杂的问题，并支持更强大、更具情境感知能力的智能体。”

研究机构Gartner预测，到2026年，多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头持续加码，生成式AI正从通用工具向产业基础设施演变，但其社会伦理、监管框架的完善也有待各方共同探索。

北京商报记者赵天舒