首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片|报告|智慧城市|移动互联网|会展
首页 >> 人工智能 >> 正文

人形机器人加速“进化”,专家:距离像人一样思考和行动还很远

2025年2月26日 07:11  环球时报  作 者:陈子帅

从简单的独立行走到精准的前后空翻,从经过反复训练才能抓取物品到无须训练就能听从指令处理家务……人形机器人的“进化”速度令人惊讶。最近,硅谷机器人创新公司Figure AI的最新大模型Helix亮相,业内有观点认为,Helix的能力“前所未有”,让机器人能够像人一样思考与行动。Figure AI这次发布究竟有哪些重大突破?它会是现阶段人形机器人的主流发展方向吗?中外人形机器人具有哪些不同的发力方向?《环球时报》记者对此进行了采访和调查。

Figure AI公司两个共用“大脑”的机器人配合完成一系列复杂任务

这个刷屏的美国机器人有啥绝活

在Figure AI公布的一段近3分钟视频里,两台Figure人形机器人按照工作人员的指令,配合默契地将一堆食物与杂货放入冰箱等相应的位置。

美国机器人网站The Robot Report提到,视频中有几个值得注意的要点,例如两个机器人并不进行语言交流,但它们在互动过程中会有明显的停顿,它们盯着对方,似乎是一种不可思议的“心灵感应”。

按照Figure AI公司的说法,两台机器人共用一个大模型“大脑”,协作完成复杂任务,这在行业内是首例。此外,Helix还创造了其他多项“第一”:它是全球首个能够对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作(VLA)模型;它仅需接收自然语言指令,就能拾取几乎任何小型家用物品,包括数千种它从未见过的物品。这些体现了人形机器人的“泛化”能力。

“Helix最大的突破在于它是一个‘通用’的视觉-语言-动作(VLA)模型。这意味着它将机器人的视觉感知、自然语言理解和动作控制整合到了一个统一的框架中,这就是有点奔着端到端具身智能大模型方向去了。”一位人工智能专家告诉《环球时报》记者,传统的机器人系统往往针对特定任务进行设计,需要大量的编程工作,难以适应新的环境和任务。而Helix模型则具备更强的泛化能力,能够理解自然语言指令,并处理之前从未见过的任务,这大大减少了对特定任务演示或大量手动编程的需求。

《环球时报》记者在调查和采访中了解到,Helix模型目前还存在一些短板。首先,Helix目前主要应用于Figure机器人的上半身控制,包括手腕、头部、手指甚至躯干。这意味着,对于下半身的控制,比如行走、奔跑等,可能还需要进一步研发和完善。其次,尽管Helix在数据利用效率上表现出色,但其训练所用的数据量仍然相对较少,这可能会影响它在处理更复杂、更多样化任务时的表现。

代表未来发展方向吗

值得关注的是,大模型与人形机器人的融合日益加深。Helix模型不仅让机器人能够“看懂”“听懂”,更重要的是,能够让机器人根据所见所闻,做出相应的行动。这打破了以往机器人技术中感知、理解和行动之间的壁垒,实现了更高层次的智能化。有专家告诉记者,Helix模型可以被视为人形机器人发展历程中的一个重要节点,是数字化的AI模型与物理世界的真实交互,是一种“虚实融合”。

《环球时报》记者在采访中了解到,从Helix的架构来看,它与最近一篇发表在2024年机器人学习大会(CoRL)上的论文“非常相似”。

“Figure AI认可了这条路线并成功移植到实体机器人上。Helix的出现证明了‘具身智能’方向的迭代速度越来越快,许多最新提出的技术路线能迅速落地到真实机器人身上。不过,目前我们依然处在技术爬坡阶段,量产仍是具身智能机器人领域面临的最大挑战。”深圳市人工智能与机器人研究院具身智能中心主任刘少山对《环球时报》记者表示。

业内普遍认为,“端到端”具身智能大模型是人形机器人发展的重要方向之一。即希望机器人能够像人一样,直接根据眼睛看到的、耳朵听到的信息,做出相应的反应,然后去执行任务。

“像Helix这样的通用型VLA(视觉-语言-动作)模型,很可能代表了人形机器人大模型的一种主流发展方向。从目前的技术趋势来看,人形机器人需要的大模型,不仅仅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精确性)。”专家说。

不过,“端到端”具身智能大模型并非是人形机器人发展的唯一目标,也不是现阶段的全部。业界还存在另一种技术路线,即基于LLM(大语言模型)或VLM(视觉-语言模型)的分层大模型。此方案难度低一些,一般将任务分解为感知、决策、执行等多个模块,每个模块可以使用不同的模型来实现,更易于快速落地和迭代。一些行业内的头部企业,都采用了这种方案。

刘少山表示,与聊天式大模型相比,具身智能大模型更需要的是强大的“学习能力”——它必须能在陌生环境中,通过与环境的交互不断学习和进化。当前大模型大多是从海量数据中提取知识,而具身智能则强调“学习如何学习”,而非简单记忆已有的知识。只有具备这类元学习、上下文强化学习等理论基础,才能真正实现通用智能。虽然这类研究方向提供了思路,但还需要时间来发展和完善。

国内外机器人各有侧重

全球人形机器人的技术竞赛正在升温,新技术亮相越来越密集。近日,国产“天工”机器人成为全球首例可在室外连续攀爬多级阶梯的人形机器人。“天工”实现了基于视觉的感知行走,可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和35厘米大高差台阶,奔跑时速提高至12公里,并且能在雪地进行高速奔跑。深圳一家机器人公司的产品则完成了全球首例人形机器人“前空翻”特技。

“与Figure的最新机器人技术相比,国内的机器人是在不同领域各有侧重。”一位人工智能专家告诉《环球时报》记者,国内机器人公司在运动控制方面取得了显著成果,例如跳舞、空翻等。这些机器人可能在部分处理复杂任务,特别是涉及与环境的深度交互、理解自然语言指令等方面,与Figure相比可能有一定差距。

何时能像人一样思考

在Helix的加持下,人形机器人能够直接理解自然语言、解析视觉信息,并执行相应动作。有科技媒体评论称,Helix让机器人像人一样思考和行动。Figure AI首席执行官宣称,“Helix的思维方式类似于人类。”刘少山认为,“目前仍处于行业的早期阶段,要让人形机器人真正具备与人类相似的思维能力,还有很长的路要走。即便最先进的大模型,在几乎无限算力的支持下,与人类的思维方式和水平依然存在显著差距。”

另一位专家称,综合国内外多篇论文来看,目前最先进的大模型应该定性于“初始AGI(通用人工智能)”阶段,虽然能力很强,但仍局限于特定领域,比如做题目等,无法在所有通用任务中始终超越人类。要实现真正像人一样思考,人形机器人需要实现通用人工智能(AGI)乃至超级人工智能(ASI)。这就得包括更先进的算法、更强大的计算能力、更完善的感知系统,以及对人类大脑工作机制的更深入理解。“这是一个长期、渐进的过程,可能需要十几年、几十年甚至更长时间。”

“大家都是在黑暗中摸索,你现在走的路线看似取得了一定成果,最后这个路线就一定能走得通吗?这个问题没有人能够给出答案。”上述不具名专家告诉《环球时报》记者,发展未来产业的精神,就是在不确定性中寻找最大的确定性。阶段性的成果也能够形成较好的规模应用,造福社会,赋能产业。“我们一开始奔着终极目标,哪怕遭遇挫折,有部分技术转化为成果也可以,并不强求非得造出一个全知全能的AGI。”

专家在受访时还提到,未来人形机器人可能会出现新的形态。一方面,机器人不必非得是人形,“实际上人形态并不是专业场景下最好的选择,有时候轮式甚至机械臂工作效果更好、性价比更高。”另一方面,人形机器人可能会呈现虚拟形态,类似更智能、更完善的数字人。“类似于电影《流浪地球2》中的MOSS系统,也有一定的可能,但这些距离现实还相当遥远。”

编 辑:章芳
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
vivo胡柏山:手机行业是最典型的新质生产力代表
精彩专题
低空经济2025:助力中国经济腾飞,成就高质量发展
2024通信业年终盘点
2024数字科技生态大会
2024年度中国光电缆优质供应商评选活动
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像