AI迎来转折点：谷歌Gemini 2.0会成为自主AI的开始吗？ -- 飞象网

北京时间12月12日晚间消息，谷歌今日发布了新一代AI大模型Gemini 2.0，标志着向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。同时，Gemini 2.0还引入了原生图像生成和多语言音频功能，使得谷歌在日益激烈的AI竞争中与OpenAI和Anthropic展开直接竞争。

新版本的发布正值谷歌首次推出Gemini的一年后，也正处于AI开发的关键时刻。这些新的“代理”AI系统不仅可以响应查询，还可以理解微妙的上下文，提前规划多个步骤，并代表用户采取受监督行动。

谷歌的新AI助手将如何重塑日常数字生活？

在最近的一次新闻发布会上，Gemini产品管理总监Tulsee Doshi概述了该系统的增强功能，同时展示了实时图像生成和多语言对话。Doshi解释说：“Gemini 2.0带来了增强的性能和新的功能，如原生图像和多语言音频生成。它还具有原生智能工具的使用，这意味着它可以直接访问谷歌产品，如搜索，甚至执行代码。”

最初的版本以Gemini 2.0 Flash为中心，这是一个实验版本，谷歌声称其运行速度是其前身的两倍，同时超越了一些强大模型的功能。这代表着一项重大的技术成就，因为之前的速度提升通常是以降低功能为代价的。

走进新一代AI代理

也许最重要的是，谷歌推出了三个基于Gemini 2.0架构的原型AI代理，展示了该公司对AI未来的愿景。Project Astra是一款升级后的通用AI助手，展示了它在访问谷歌工具和维护先前交互的上下文记忆的同时，能够跨多种语言保持复杂对话的能力。

谷歌DeepMind团队产品经理Bibo Xu在现场演示中解释说：“Project Astra现在有长达10分钟的会话记忆，可以记住你过去与它的对话，这样你就可以获得更有用、更个性化的体验。”

该系统可以在各语言之间平稳过渡，并通过谷歌搜索和地图访问实时信息，显示出了以前在消费者AI产品中看不到的整合水平。

企业AI之战愈演愈烈

对于开发人员和企业客户，谷歌推出了Project Mariner和Jules，这两款专门的AI代理旨在自动化复杂的技术任务。作为Chrome扩展程序演示的Project Mariner，在WebVoyager基准测试中实现了令人印象深刻的83.5%的成功率，这比之前的自主Web导航尝试有了显著改进。该WebVoyager基准主要测试代理在端到端、真实世界的Web任务上的性能。

Google Labs产品管理总监Jaclyn Konzelmann表示：“ Project Mariner是一个早期的研究原型，它探索了浏览网页和采取行动的代理能力。当使用WebVoyager基准进行评估时，Project Mariner取得了83.5%的令人印象深刻的成功率。”

定制硅：谷歌AI雄心背后的基础设施

支持这些进步的是Trillium，谷歌的第六代Tensor Processing Unit （TPU），如今已普遍可供云客户使用。定制的AI加速器代表了对计算基础设施的巨大投资，谷歌在单个网络结构中部署了超过10万个Trillium芯片。

谷歌AI工作室和Gemini API团队的产品经理Logan Kilpatrick在新闻发布会上强调了这项基础设施投资的实际影响。Kilpatrick说：“闪存使用量的增长超过了900%，这令人难以置信。你知道，在过去的几个月里，我们已经推出了六个实验模型，现在有数百万开发人员在使用Gemini。”

未来之路：自主AI时代的安全问题和竞争

谷歌向自主代理的转变，可能是自OpenAI发布ChatGPT以来AI领域最重要的战略转折点。虽然竞争对手一直专注于增强大型语言模型的能力，但谷歌认为，未来属于能够主动导航数字环境、并在最少的人为干预下完成复杂任务的AI系统。

这种能够思考、计划和行动的AI代理的愿景，代表着与当前响应式AI助理模式的背离。这是一个有风险的赌注，因为自主系统可能带来更大的安全问题和技术挑战。但如果成功，它可能会重塑竞争格局。谷歌在定制硅和基础设施方面的大规模投资表明，该公司准备在这个新方向上积极竞争。

然而，向更自主的AI系统的过渡引发了新的安全和伦理问题。谷歌强调了其对负责任开发的承诺，包括与值得信赖的用户进行广泛的测试和内置的安全措施。谷歌还逐步推出这些功能的方法，从开发人员访问和值得信赖的测试人员开始，表明了对部署自主AI系统所涉及的潜在风险的认识。

此次Gemini 2.0的发布正值谷歌面临竞争对手日益增加的压力和对AI安全的严格审查的关键时刻。微软和OpenAI今年在AI开发方面取得了重大进展，而Anthropic等其他公司也在企业客户中获得了吸引力。

谷歌Gemini API集团产品经理Shrestha Basu Mallick在新闻发布会上强调：“我们坚信，构建AI的唯一方法是从一开始就负责任。随着我们推进模型和代理，我们将继续优先考虑将安全和责任作为模型开发过程的关键要素。”

随着这些系统在现实世界中采取行动的能力越来越强，它们可以从根本上重塑人们与技术的互动方式。Gemini 2.0的成功不仅可以决定谷歌在AI市场的地位，还可以决定随着行业向更自主的系统发展，AI发展的更广泛轨迹。

一年前，当谷歌推出Gemini的第一个版本时，AI领域主要由聊天机器人(21.990, -0.01, -0.05%)主导，这些机器人可以进行聪明的对话，但在现实世界的任务中却举步维艰。现在，随着AI代理开始朝着自主性迈出第一步，该行业正处于另一个转折点。问题不再是AI是否能理解我们，而是我们是否准备好让AI代表我们行事。谷歌正在押注，而且赌注很大。