财联社5月15日讯(编辑 周子意)本周,人工智能领域的头条新闻无疑就是OpenAI和谷歌(173.88, 1.95, 1.13%)的产品大对决。
OpenAI公司一贯“喜爱”在竞争对手的重大产品发布会之前抢先发布自己的产品,从而抢占新闻焦点,本周也不例外。
OpenAI在此前就给予了公众很高的期望值,周一(5月13日),该公司如期宣布了GPT-4的升级版,名为GPT-4o(“o”代表omni全方位)。GPT-4o旨在充当手机或平板电脑上的个人助理,具有改进的语音交互功能,能够解释和推理设备相机拍摄的照片,拥有更强大的语言翻译能力,以及更快的响应时间。
GPT-4o背后的技术创新令人印象深刻,该模型是多模态的,它可以实时对音频、视觉和文本进行接收、推理,并生成文本、音频和图像的任意组合输出。该模型与过往版本比较,省去了将用户的声音转化为文本并处理的步骤,意味着整个流程更加快速。
GPT-4o还缩短了模型处理特定数量token所需的时间(在英语文本的情况下,一个token通常等于一个半单词),这也使得该模型比OpenAI此前最佳型号GPT-4 Turbo运行得更快、更便宜。
周二(5月14日),谷歌也连放大招,正面硬刚OpenAI。
在谷歌的I/O开发者大会上,谷歌宣布了一系列新的人工智能功能和即将发布的产品,包括Gemini模型的广泛升级、未来的人工智能助手“Astra”、生成式人工智能赋能谷歌搜索、以及一系列与图像、音乐、视频有关的生成式AI工具。
谷歌在会上公布了Gemini 1.5 Pro模型的改进,将100万tokens的上下文窗口进一步扩大至200万,并且使其能够拥有更自然的声音,更好地理解音频和图像,更强的逻辑推理和规划能力,以及更好的计算机代码生成能力。
并且,谷歌还发布了一款高级视觉和对话响应智能体项目Astra,用于处理音频、视频等多模态的输入内容。相较于OpenAI的GPT-4o只能处理静态图像,Astra还可以处理视频。在一段演示视频中,它能够通过摄像头视频,识别“什么东西能发出声音”、“现在身处何地”等指令。不过它的回应存在滞后或延迟,据悉,谷歌未来版本的人工智能个人助理正在通过“Astra”进行开发。
人工智能助手的“高光时刻”
从OpenAI和谷歌的产品发布可以看出,科技公司都非常重视人工智能助手的研发,并且,“首个人工智能杀手级应用”的位置已成为硅谷各家的“必争之地”。
从本周的产品发布情况来看,OpenAI和谷歌的人工智能助手各有优势。GPT-4o可以直接接收并生成语音,省去了将语音转化为文本的过程;而Astra则可以处理视频此类的动态图像,这是一个显著的优势。
这两个产品的发布显然让硅谷另两家巨头苹果(189.72, 2.29, 1.22%)和亚马逊(185.99, -1.08, -0.58%)处于不利地位。他们需要升级语音助手Siri和Alexa,以跟上这些新的竞争对手的能力,否则这些产品将陷入困境。就目前已知信息,亚马逊投资的Anthropic拥有强大的Claude AI模型可供使用;此前也有报道传出,苹果正在与OpenAI谈判,以在短期内获得其技术许可。
不过,这些新的人工智能助手就会是未来的“人工智能杀手级应用”吗?这个结论目前还没有定论,完全取决于接下来会发生什么。
就从目前的人工智能助手的用例来看,它们还称不上是人类日常生活中无处不在的必备产品,除了翻译功能以外,几乎没有一个是能够关于帮助人们完成工作的。
有分析指出,当这些助手拥有更多的“代理”属性时,这种情况可能会改变。若有朝一日,它们能够真正了解人类的个人偏好,按照人们的喜好完成任务,并且可以在日常生活中帮忙处理一些事情(例如在线购物、填写保险表格、预订假期等)时,这时的人工智能助手就很有可能成为一款“杀手级应用”。
谷歌目前表示正在开发此类产品,但没有给出产品发布的时间表;OpenAI也继续透露“即将”发布激动人心的未来公告;下周,微软(423.08, 7.27, 1.75%)将召开Build开发者大会。