首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展

首页 >> 移动互联网 >> 正文

北京中考试卷出炉，来看九章大模型对决GPT-4o

2024年6月29日 12:08 CCTIME飞象网

继高考之后,各地中考也陆续落下帷幕。之前,多家机构和媒体用高考题评测大模型们的“高考成绩”,吸引了不少眼球。那面对中考题,尤其是大模型不太擅长的数学科目,又会有怎样的结果呢?

让我们以今年北京中考数学试卷为例,再测一下大模型们的答题实力吧!

今天的测试“选手”分别是国产九章大模型和GPT-4o大模型。九章大模型(MathGPT),是学而思自主研发,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。此前在Matheval排行榜多个维度的评测中都排名第一。GPT-4o是由OpenAI公司研发,是国际上备受关注的大语言模型之一,除了自然语言处理,GPT-4o还具备一定的推理能力,能够处理需要逻辑分析和判断的问题。

究竟谁在这场“数学比拼”中更胜一筹,让我们一起看看。

一、先说结论

本次测试选择了2024年北京中考数学试卷中的17道题,分别是8道选择题、8道填空题以及1道解答题。

在测试题目的比拼中,九章大模型的正确率为85%,GPT-4o的正确率为75%。

【九章大模型(MathGPT)】

选择题8题,做对5题。

填空题8题,做对6题。

九章大模型总分 = 5 * 2分 + 6* 2分+1分 = 23分 (满分30分)

【GPT-4o】

选择题8题, 正确5题。

填空题8题, 正确5题。

GPT-4o总分 = 5* 2分 + 5* 2分 = 20分 (满分30分)

注:填空题的最后一题有两问共2分,答对一问记1分。

在这次AI比拼中,九章大模型凭借其在数学领域的专业优势,取得了较高的正确率。这表明在特定领域,尤其是数学解题,定制化的大模型能够展现出更强的性能。然而,两者在复杂图题上的表现都存在不足,说明在这类问题的逻辑推理和步骤展示上,AI仍有待提升。

从教育的角度看,AI大模型为学习者提供了及时反馈和考点解析,有助于增强学习体验和深度理解。但同时,AI的局限性也提醒我们,它目前还不能完全替代人类教师的角色,尤其是在精细化指导和情感交流层面。

未来,AI与教育的结合可能会推动教学模式的创新,如人机协同教学以及自适应学习路径等。要实现这些愿景,AI技术需要在保证准确性和普适性的同时,进一步增强其在复杂情境下的理解和应用能力。

二、测试方法

1、测试题目:2024年北京中考数学试卷选择题的第1-8题,填空题的第9-16题,解答题第26题。

2、由于数学解答题的评估涉及复杂的推理步骤和逻辑判断,直接评判模型答案的正确性较为困难。因此,本次测试的重点放在了选择题和填空题上,这些题目通常有明确的正确答案,便于公正地评估模型的解答能力。

三、选择题,难分伯仲

以一道经典的概率推论题为例,一起来看一下二者的分析过程

九章大模型如下作答:

GPT-4o分析思路:

四、填空题,九章大模型获胜

第14题,GPT-4o回答错误

九章大模型正确解答:

GPT-4o的分析过程:

第16题,均出现错误

九章大模型只答对了第一问,其分析过程:

GPT-4o两问均回答错误,其解答过程:

五、解答题

第26题,九章大模型最终答案正确。

九章大模型的分析过程:

GPT-4o最终答案有误,其分析过程:

编辑：T01

声明：刊载本文目的在于传播更多行业信息，本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题，请在30日内与本网联系，我们将在第一时间删除内容。本站联系电话为86-010-87765777，邮件后缀为#cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。

相关新闻

·跨越时代的发展浪潮：阿曼电信如何在5G-A时代再次领跑？	·连接未来智启新篇\| 直击中国信科MWC上海展现场
·高通侯明娟展望AI和5G浪潮驱动的新一轮市场机遇	·打造国内最大的XR空间观赛平台，咪咕公司升级推出咪咕..
·2024 MWC 上海｜中国联通唐永博：加速推动Open Gateway..	·GTI与GSMA签署合作协议，携手全球产业推动5G-A与AI融合..
·2024 MWC上海展丨数智驱动，百业共荣：亚信科技数智融..	·英特尔推出光学计算互连芯粒，提高带宽降低功耗
·Canalys：2024年Q1中国大陆云服务支出同比增长20%	·荣耀手机将采用华为麒麟芯片？荣耀CMO回应：纯属胡扯
·华为李鹏：拥抱5G-A，迈向体验经营新时代	·华为发布5G-A产业技术演进方向，促5G-A产业共赢
·如期兑现！讯飞星火V4.0整体超越GPT-4 Turbo	·中国移动发布网络发展与安全技术五项重磅成果

人物

邬贺铨：大模型下沉到手机将激活万亿元规模手机产业

·刘庆峰：讯飞星火V4.0将提供多项G..

·中国移动设计院原副院长刘涛：6G..

·中国信通院胡坚波：头部领先、以..

·中国铁塔赵敬宝：筑牢数字基础，..

·中国联通傅强：推动移动通信高质..

·中国移动邱宝华：续航5G+计划拥..

精彩专题

CES 2024国际消费电子展

2023年信息通信产业盘点暨颁奖礼

飞象网2023年手机评选

第24届中国国际光电博览会

CCTIME推荐

·中国信科荣获国家科学技术进步奖..

·2024，超越5G！

·中国信科精彩亮相2024MWC上海

·提前看！中国信科2024MWC上海展点..

·MWC上海世界移动通信大会：中国信..

·中国移动完成全球最长距离数据快..

·江苏省领导调研亨通光电海洋产业发展

·2024年TC618/NGOF“智算时代下的..

·再创历史新高！英伟达成为全球市..

·火“荔”全开背后的5G新“荔”量

·小折叠“不香了”都要放弃？赵明..

·IDC：2028年中国下一代 AIPC 年出..

·四部门有序开展智能网联汽车准入..

·工信部谢远生：APG会议为亚太地区..

·Canalys预计2024年全球智能手机出..

关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图

CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1 电信与信息服务业务经营许可证080234号京公网安备110105000771号
公司名称：北京飞象互动文化传媒有限公司
未经书面许可，禁止转载、摘编、复制、镜像