首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展
首页 >> 头条资讯 >> 正文

智源研究院“百模”评测结果:字节跳动多项第一,大厂AI整体领先

2024年12月24日 08:19  新浪科技  

12月23日午间消息,近日,智源研究院发布国内外100余个开/闭源语言、视觉语言、文生图、文生视频大模型综合及专项评测结果。评测发现,2024年下半年,大模型发展更聚焦综合能力提升与实际应用。多项评测结果中,字节跳动多项AI能力领先,阿里巴巴、百度等大厂派AI均取得优异表现。

据评测结果,针对一般中文场景的开放式问答或生成任务,语言模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。在中文能力理解上,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。

在视觉语言多模态模型能力评测结果中,一些较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

此外,文生图多模态模型今年上半年参评模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax海螺AI、Pika 1.5位列前五。

据介绍,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。(文猛)

编 辑:路金娣
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
中国移动副总经理张冬:5G扬帆开新篇,数智远航启新程
精彩专题
2024通信业年终盘点
2024数字科技生态大会
2024年度中国光电缆优质供应商评选活动
2024全球6G发展大会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像