首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展

首页 >> 人工智能 >> 正文

OpenAI开源SimpleQA新基准，专治大模型“胡言乱语”

2024年10月31日 10:37 IT之家作者：清源

当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。

多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。

高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

编辑：章芳

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。

相关新闻

·Gartner发布2024年中国信息与通信技术成熟度曲线	·全球AI芯片竞赛下，IC公司对这类工具需求迫切
·护航低空经济“高飞” 低空智联网迎多方布局	·OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台
·谷歌重振“AI信仰”! 微软与Meta业绩将续上火力?	·微软高管解读Q1财报：本财年下半年一些供需将达到完美匹配
·苹果发布新款MacBook Pro，M4 Max芯片重磅登场	·荣耀Magic7系列发布：开创AI智能体新纪元，重塑智能手..
·华为李鹏：拥抱移动AI时代，开创MBB商业新范式	·中国移动千兆宽带用户突破1亿感恩一路信赖与支持
·5G小基站发展现状和发展趋势	·全国数据标准化技术委员会成立
·OpenAI自研芯片雄心曝光：据称已计划联手博通和台积电	·全国首批人形机器人具身智能标准发布

人物

中国电信李峻：只有当人工智能成为公共基础设施，才能普惠大众

·中国移动董事长杨杰：共创AI+新时..

·中兴通讯总裁徐子阳：5G-A新时代..

·高通总裁兼CEO安蒙：与生态伙伴合..

·中国电信总经理梁宝俊：AI赋能，..

·华为周军：全光品质运力网，以确..

·中国移动副总经理李慧镝：筑牢“A..

精彩专题

2024中国算力大会

2024年国际信息通信展

中国信科亮相2024年国际信息通信展

第25届中国国际光电博览会

CCTIME推荐

·中国民企500强榜单，亨通位次再攀..

·初心如炬十年路奋楫笃行启新程

·成都大唐线缆公司中标国铁沈白高..

·崔根良受邀参加庆祝中华人民共和..

·连接数字化美好未来 | 和中国信科..

·勇追光，向新行 | 通鼎集团连续8..

·西古光通打造5G+智慧工厂，开启光..

·2024财富500强榜单透视：崛起之路..

·上半年电信业务收入累计完成8941..

·固定宽带接入用户总数达6.54亿户 ..

·6月户均移动互联网接入流量超18GB..

·三家基础电信企业发展蜂窝物联网..

·中国移动用户总数突破10亿户

·思特奇强化“新IT架构”能力，助..

·EchoStar开设ORAN集成与部署中心 ..

关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图

CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1 电信与信息服务业务经营许可证080234号京公网安备110105000771号
公司名称：北京飞象互动文化传媒有限公司
未经书面许可，禁止转载、摘编、复制、镜像