具身智能是人工智能(AI)与其他学科交叉融合发展的智能新范式,从字面可理解为“具身+智能”,通过赋予AI“身体”,能够与现实产生交互,让AI从仅存于数字世界的软件算法走向真实的物理世界,并在物理世界也能呈现模拟人类甚至超越人类的智能水平。伴随大模型的技术突破、硬件成本的降低、软硬协同的不断成熟,能够主动探索世界、认识世界、改变世界的具身智能,有望成为迈向通用人工智能的重要驱动力,同时不断延伸和拓展AI边界,实现“知行合一”。
2024年8月22日,2024世界机器人大会——具身智能产业趋势与未来发展论坛上,中国信息通信研究院(简称“中国信通院”)与北京人形机器人创新中心有限公司共同发布《具身智能发展报告(2024年)》。
报告致力于厘清具身智能的概念内涵、演进历程、技术体系,通过梳理当前具身智能技术发展现状,研判分析具身智能应用潜力与带来的影响,并总结当前产业应用困难与挑战,展望思维智能和行动智能有机融合的无限可能。
报告核心观点
1. 具身智能:依靠物理实体通过与环境交互来实现智能增长的智能系统
当前,针对具身智能各家观点百花齐放,但都明确了“智能”的核心地位。因此,本报告从AI视角切入,认为具身智能是指通过机器人等物理实体与环境交互,能进行环境感知、信息认知、自主决策和采取行动,并能够从经验反馈中实现智能增长和行动自适应的智能系统。
2. 具身智能与离身智能相互补充、协作发展共同促进了对智能的理解、模拟与扩展——具身智能时代有望来临
结合人工智能的演进历程,具身智能的发展大致可以分为三个阶段,即:早期萌芽阶段(1950s-1990s),在对智能的激烈争论和分立研究中,形成AI三大学派,尚未形成成熟的智能理论;技术积累阶段(1990s-2022),随着智能理论的完善、底层数学理论的深耕,AI三大学派从各自突破,逐步走向取长补短的综合性研究,为具身智能发展奠定理论和算法基础;技术突破阶段(2022年至今),以ChatGPT为代表大模型的通用知识和智能涌现能力为机器人实现智能感知、自主决策乃至拟人化交互方面带来巨大潜力。当前人们的关注点转向如何将AI应用于物理世界,并期望通过AI的“具身化”找到新的智能增长点。
3. 具身智能技术尚处于多条路径探索发展阶段,可以类比于自然语言处理领域的“BERT”发展时期
具身智能技术体系可分为“感知—决策—行动—反馈”四个模块形成一个闭环,在与环境的不断交互中,实现对环境的重构映射、自主决策和自适应行动,并从经验反馈中不断学习进化。
4. 具身智能将在技术涌现式创新和突破下,实现“一脑多形”“一机多用”
具身智能将成为与各行各业深度融合的创新驱动力,其相关应用有望快速扩展至社会经济的各个层面,推动着生产力的跃升和生活方式的变革。有望实现“一脑多形”即让一个智能系统适配各种形态的物理实体,如智能机器人、智能车辆等; 将实现“一机多用”,即让一个机器设备可以灵活地执行多种任务,适应多样化场景。未来将从工业协作生产到柔性制造,从家务助手到医疗护理,从灾难救援到太空探索,深入融入人类社会。
5. 具身智能在感知与认知、学习与泛化、计算能力、多任务处理、安全性、隐私保护以及人机关系等多个方面都面临着挑战
算法层面:具身智能系统在实现通用智能时面临两大根本性挑战。一是系统需要人类智能的介入,二是尚未实现感知到行动间的认知映射。数据层面:缺乏数据成为具身智能能力突破的重要壁垒。一方面,真实数据面临获取成本过高,广泛、高质量和多样化的挑战。另一方面仿真合成数据面临“现实差距”——即模拟环境与现实世界之间的差异挑战。软件层面:缺乏统一的操作系统和标准化软件开发工具链。硬件层面:耐用性和能源效率以及与软件的深度集成需求构成了具身智能硬件发展的主要障碍。标准与合规层面:具身智能技术、评测、安全伦理等标准缺失,面临信息安全、个人隐私等一系列伦理和社会学问题。