首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展
首页 >> 移动互联网 >> 正文

九章云极联合团队大模型慢思考推理技术获系列成果预印版论文于arXiv发表

2025年3月12日 16:47  CCTIME飞象网  

近日,九章云极DataCanvas公司联合中国人民大学STILL项目团队、北京智源研究院团队联合在大模型慢思考推理技术上形成系列技术成果,初步复现类R1推理模型,完整开源了类R1类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在AIME数学推理测试中超越DeepSeek-R1的模型性能。 相关成果已经形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在预印版论文网站 arXiv上公开发表。

九章云极DataCanvas联合研究团队公布了复现DeepSeek- R1全参数微调开源方案,并发布了全新的强化学习训练模型STILL-3-Tool-32B。这个方案完整开放了从模型训练到推理部署的全链路工程代码,同步公开实践验证过的技术经验与调优策略,为开发者提供可直接部署的工业化级大模型训练框架。研究成果显示,该模型在 AIME 2024 基准上取得了81.70%准确率(采样),超越了DeepSeek-R1满血版。该成果在GitHub社区中详细阐述,并公开了相关开源链接。

论文地址:https://arxiv.org/pdf/2503.04548

开源链接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

STILL-3-Tool-32B模型是九章云极DataCanvas联合团队在基于长链复杂推理模型训练框架上的又一次重要创新实践。该研究论文表明,在已接近性能巅峰的蒸馏模型上,通过该强化学习训练方法也可以大幅提升AIME 2024的准确率,这一研究结果将极大促进正在运行中的较大模型的回复长度和推理准确性。面对语言推理可能存在精准性不够的问题,STILL-3-Tool-32B模型引入了外部工具来加强AI模型的复杂推理能力。在AIME 2024上取得81.70%准确率(采样),以15.56%的显著优势超越其基座训练模型,与OpenAI o3-mini持平,超越o1 和DeepSeek-R1同场景表现。

自DeepSeek-R1技术报告公布后,开源模型仍然复现面临代码完整性缺失、超参数调试等共性难题,九章云极DataCanvas联合团队通过AI基础设施深度融合‌实现突破。研究同步开源了该模型在DataCanvas Alaya NeW智算操作系统上完成的全过程完整训练日志、奖励函数代码及容器化部署方案。研究结果公布,在Alaya NeW中采用on-policy 学习策略是成功的关键因素,其将DeepSeek背后的基于规则的强化学习方法加以微调,充分探索了相关的超参数设置以及训练技巧。

值得关注的是,DeepSeek以及蒸馏模型在推理过程中无法调用外部代码工具,而这恰是复现的关键难点。研究结果显示,Alaya NeW智算操作系统在开源工具链与基座模型适配、算法与算力协同、逻辑推理与多步决策等复杂任务框架方面表现出明显优势,有望推动AI技术的进一步发展。

编 辑:T01
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
vivo胡柏山:手机行业是最典型的新质生产力代表
精彩专题
聚焦2025全国两会
2025年世界移动通信大会
低空经济2025:助力中国经济腾飞,成就高质量发展
2024通信业年终盘点
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像