【研究】“人工智能+”赋能具身智能机器人新形态及关键技术应用

语言	格式	评分
中文（简体）	.pdf	3
概览
�N��7� ��0 �� “人工智能+”赋能具身智能机器人新形态及关键技术应用李腾达朱紫钰韩子奇 (中国移动上海产业研究院,上海 201206) 摘要:人工智能与机器人的深度融合正催生新一代机器人形态,其中具身智能机器人因其强调物理实体与环境交互的核心特性而成为关键发展方向。聚焦“人工智能+” 赋能的具身智能机器人这一特定形态,系统综述了具身智能机器人的概念演进与发展现状,着重剖析了人工智能技术在感知、认知、决策、执行及底层数据支撑等环节带来的变革;围绕多模态感知、大语言模型与深度强化学习等核心技术,结合工业制造、医疗护理、家庭服务等场景应用,展示了“人工智能+” 赋能具身智能机器人的应用成果。同时,指出了计算资源消耗、算法泛化性与鲁棒性不足等现实瓶颈,并展望了更高效模型架构、跨模态协同与多领域扩张等未来趋势,为具身智能机器人的技术创新和产业落地提供了参考。关键词:人工智能+;具身智能;多模态感知中图分类号:TP18;TN929. 11 文献标志码:A 引用格式:李腾达, 朱紫钰, 韩子奇 . “人工智能+”赋能具身智能机器人新形态及关键技术应用[J]. 信息通信技术与政策, 2025,51(8):15-25. DOI:10. 12267/ j. issn. 2096-5931. 2025. 08. 003 0 引言随着多模态感知、大语言模型和深度强化学习的快速突破,具身智能机器人正成为“人工智能+” 时代驱动工业、医疗、家庭服务等领域深度变革的关键载体。具身智能机器人作为机器人领域的重要分支,其能够在真实环境中与周围环境进行交互,执行各种复杂任务。本文首先回顾了具身智能的概念演进及其在机器人技术中的定位,概述了从行为控制到“感知—认知—决策—控制”一体化系统的技术脉络与产业进展; 进而构建了“感知融合—认知规划—控制执行—数据生成”4 层“ 人工智能+” 赋能框架;最后深入探讨了 “人工智能+” 对具身智能机器人的赋能作用,以及相关技术及应用案例,并对未来发展前景进行了展望。 1 具身智能机器人概述 1. 1 具身智能的概念现代人工智能起源于 20 世纪 50 年代的“达特茅斯会议”,此后人工智能由“符号主义” 逐渐发展向以神经网络模型为代表的“联结主义” [1]。具身智能起源于对传统“符号主义”与“联结主义”局限性的反思, 强调智能源于身体、环境与认知的交互。 20 世纪 80 年代,有学者提出智能需要具身化和情境化,从而推动了仿生机器人的发展;同时,从心理与感知角度强化了 “动作即认知” 的观念 [2]。随着材料、控制、学习等跨学科融合,具身智能逐渐发展为区别于离身智能、强调交互与形态的重要研究范式,并成为新一代人工智能突破的关键方向 [3]。 ·15· ��E��0 现代具身智能指的是融合多模态感知、自主学习、行为决策与人机协作能力的智能系统,强调智能体通过身体与环境的持续交互,在动态、不确定环境中展现出高度适应性与进化能力 [4]。其核心特征包括环境感知与认知融合、跨任务的自主适应优化以及在服务、制造等场景中的协同与实用性。 1. 2 具身智能机器人的概念具身智能机器人是指具有物理实体,并能够通过自身的感知、决策和行动能力在真实环境中与周围环境进行交互的机器人。与传统机器人相比,具身智能机器人不仅具备机械结构和运动能力,更重要的是拥有类似人类的智能感知和决策能力,能够根据环境变化自主调整行动策略。其“具身” 特性使其能够直接接触和影响周围环境,基于对真实世界的物理特征与语义信息的充分理解,通过身体与环境的实时交互完成任务并基于物理世界的交互反馈实现“智能” 的持续学习。例如,传统工业机械臂仅能执行预设的焊接或搬运任务,而具身智能机器人(如 Optimus) 则能通过多模态感知理解复杂场景,并自主规划路径、抓取物体,甚至与人类协作完成动态任务。 “人工智能+”作为推动产业智能化升级的战略方向,其与机器人技术的结合催生了多样化的智能机器人形态,这些形态根据其智能水平、交互深度和应用场景存在显著差异。其中,具身智能机器人代表了“人工智能+机器人”的一种高级形态,其核心在于强调智能体必须拥有物理实体,通过该实体在真实物理环境中进行感知、交互、行动等,并基于环境反馈持续学习和优化。如表 1 所示,与广义的“人工智能+机器人” 相比,具身智能机器人具有以下 3 个特征:一是物理实体的必要性。必须具备可操作的机械结构(如四肢、传感器等),而非仅在虚拟环境中运行(如软件 Agent)。二是环境交互的深度性。通过物理实体主动与环境互动 (如抓取、移动),而非仅执行预设路径的简单任务(如 AGV)。三是闭环学习的持续性。基于环境反馈的持续优化能力,而非静态规则驱动的执行逻辑。因此,具身智能机器人是“人工智能+” 赋能机器人的重要体现和前沿方向。具身智能机器人从早期的行为控制探索,发展到融合感知、控制、学习与认知的高度复杂系统,其路径经历了“理论奠基—工程落地— 产品化尝试—系统集成升级”4 个阶段,现已成为新一代人工智能的关键技术突破口之一。 1. 3 具身智能机器人发展现状近年来,具身智能机器人在技术和应用方面取得了显著进展。在技术上,机器人硬件性能不断提升,传感器精度更高、种类更丰富,电机驱动系统更加高效和精准,为具身智能机器人的感知和运动提供了坚实基础。在软件算法方面,人工智能技术尤其是多模态大模型能力的引入极大地增强了具身智能机器人的智能水平。从早期简单的编程控制,逐渐发展到如今利用机器学习、深度学习等算法实现自主感知、交互、决策及优化学习。在应用领域方面,由于与传统移动机器人相比,具身智能机器人能够完成一些通常需要人类智慧才能完成的复杂工作,因此可广泛应用于工业制造、物流仓储、医疗护理、家庭服务等多个行业。在工业制造中,具身智能机器人能够完成复杂、柔性的装配任务,提高生产效率和质量;在物流仓储中,具身智能机器人可实现货物的智能搬运和分拣;在医疗护理领域,具身智能机器人能够辅助医护人员进行康复治疗表 1 “人工智能+机器人”形态对比特征传统机器人人工智能+机器人 (广义) 具身智能机器人 (“人工智能+机器人”子集) 核心驱动程序控制人工智能算法驱动人工智能算法驱动智能水平低(执行预设任务) 中高(具备感知、决策能力) 高(强调“感知—认知—决策—执行”闭环) 交互深度浅层(与环境交互有限) 多样(视具体应用而定) 深层(通过物理实体主动交互、反馈学习) 环境适应性低(依赖结构化环境) 中高(视人工智能能力而定) 高(需适应非结构化、动态环境) 学习能力无或弱有(基于数据/ 模型) 强(强调基于环境交互的持续学习) 典型代表工业机械臂(基础功能) 智能扫地机器人、智能客服机器人人形机器人、高级护理机器人 ·16· �N��7� ��0 �� 等工作。 2009 年,波士顿动力公司推出四足机器人 “BigDog”与人形机器人“ Petman”,并于 2013 年研发出首代“Atlas”原型机,标志着具身智能机器人进入工程化突破阶段。 2013 年,我国香港汉森机器人技术公司(简称“汉森机器人公司”) 与深圳市优必选科技股份有限公司(简称“优必选”)等企业相继进入该领域, 推动具身智能机器人向产业化演进。 2016 年汉森机器人公司推出社交机器人“Sophia”,2018 年优必选发布双足服务机器人“Walker”,具身智能机器人逐步具备人机交互、多模态感知与自主导航等综合能力,迈入商业化尝试阶段。 2023 年,特斯拉发布“ Optimus” 系列人形机器人,融合类人操作、环境理解与能源优化设计,推动具身智能迈入系统集成升级的新纪元。总体来看,具身智能机器人已从单一行为控制发展为融合感知、认知、决策控制的复杂系统,成为新一代人工智能技术突破与产业落地的重要方向。目前, 国内外具身智能机器人应用大多仍处于实验室测试阶段,针对特定场景、特定任务的具身智能机器人虽然有了较大的发展,但整体技术并不成熟,尚未实现产业化与商品化。 2 “人工智能+”赋能具身智能机器人的关键技术体系 “人工智能+”在机器人领域的应用涵盖广泛的技术范畴,从传统的图像识别到最新的多模态大模型方法等,在赋能具身智能机器人这一特定形态时,其技术体系呈现出围绕“ 感知—认知—决策—执行—数据” 闭环的深度融合特征。具体而言,具身智能机器人的关键技术体系包括:多模态感知与理解技术,即通过视觉、语言、触觉等多源信息融合来构建环境的语义表征;多模态规划与决策技术,即基于大语言模型和世界模型将高层语义转化为可在物理环境中执行的动作序列; 运动控制技术, 即结合模型预测控制 ( Model Predictive Control, MPC ) 与深度强化学习 ( Deep Reinforcement Learning,DRL)实现高精度、自适应的执行;多模态生成式人工智能技术,即利用合成数据驱动模型迭代优化。这些技术共同构成了具身智能机器人从感知到执行的完整闭环。本文将系统阐述支撑具身智能机器人发展的关键人工智能技术,这些技术不仅包括当前取得显著突破的大模型方法,也包含其他基础性人工智能方法在机器人感知、规划、控制等环节的创新应用。 “人工智能+”赋能具身智能机器人的关键技术体系可概括为 4 个依次递进的核心环节:其一,多模态感知与理解为具身智能机器人提供跨视觉、语言、触觉等信息的统一环境表征;其二,多模态规划与决策借助大语言模型和世界模型,将高层语义转化为可在物理环境中执行的动作序列;其三,运动控制通过模型预测与强化学习的协同,实现对真实物理约束下的高精度、自适应执行;其四,多模态生成式人工智能则以低成本、高保真的合成数据持续驱动前述各环节迭代优化。图 1 直观展示了支撑具身智能机器人发展的核心人工智能技术环节及其典型方法。 2. 1 多模态感知与理解技术在具身智能机器人系统中,多模态感知技术是实现智能体对复杂环境理解、行为决策和交互控制的基础能力。随着大规模多模态模型的发展,具身智能的感知范式已由传统的单模态输入与规则驱动,演进为以语言、视觉、语音、触觉等多模态信息融合为核心的深度理解机制。当前,面向具身智能机器人感知与理解能力的研究主要围绕两大路径展开:一是多模态模型用于环境感知与任务理解;二是多模态建模用于环境表征与语义增强,已形成较为系统的技术体系 [5]。 2. 1. 1 基于多模态大模型的环境感知与任务理解技术多模态大模型具备对图像、文本、图表、文档等多种信息形式的深度理解能力 [6],涵盖多语言与多模态语义解析,可为具身智能提供环境感知与语义理解支持,并通过提示机制生成结构化输出,如任务拆解、控制指令等,从而实现智能体对复杂环境的适应与操作。一种基于 GPT-4V 的增强具身任务规划框架表明 [7], 具身智能系统可通过结合图像帧与语言指令,实现高一致性的行为生成,展示了预训练多模态模型在“感知—认知—规划” 链条中的应用潜力。进一步,ViLA 系统 [8]实现了基于 GPT-4V 的闭环控制,通过动态视觉反馈引导行为调整,从而显著提升机器人在动态环境中的鲁棒性与适应性。另一种基于对象中心的具身大语言模型 [9],通过定义动作标记与状态标记,使语言模型在多模态反馈引导下完成动作生成与状态感知的循环,为自然语言驱动的具身交互提供了新范式。 ·17· ��E��0 �� 图 1 “人工智能+”赋能具身智能机器人的关键技术体系 2. 1. 2 基于多模态大模型的环境表征与语义增强技术在环境建模与空间理解层面,多模态模型被用于构建语义增强的场景表示。以图文多模态模型 (Contrastive Language-Image Pre-training, CLIP) 为代表的预训练“视觉-语言” 模型被广泛应用于开放词汇物体识别、图像语义嵌入与场景语义理解。例如, HomeRobot 系统引入 CLIP 进行弱监督 3D 语义建模 [10],使机器人具备开放环境下的识别与操控能力。一种基于体素化场景的算法可通过从“ 粗” 到“ 细” 的注意机制构建注意力放大路径 [11],提升感知与控制的区域聚焦能力;而一种 3D 特征场模型 [12] 则将多模态特征编码至 3D 网格与特征场中,进一步增强了机器人在视觉定位与语义检索中的泛化能力。值得关注的是,近年来基于 3D 高斯的场景建模方法在多模态感知中展现出极高的效率与精度。将 3D 高斯与语言特征相结合 [13],可构建响应自然语言查询的语义场,实现高效渲染与交互查询,并可进一步将高斯表示引入具身任务中,构建集语义理解、实时编辑与抓取生成为一体的具身交互系统 [14]。综上所述,现代具身智能机器人的多模态感知体系正在由“感知融合”向“语义建模—反馈调节—任务适应”的全面跃迁。以大模型为核心的“语言-视觉”嵌入结构、“体素化与高斯化” 场景建模、语义增强的行为闭环控制,构成了具身智能多模态感知的关键技术路径。这些进展显著提升了具身智能机器人的泛化能力、操作精度与环境适应性,也为未来多模态智能体的构建提供了坚实的技术基础。 2. 1. 3 环境建模与定位技术在具身智能机器人的技术体系中,环境建模与定位是构建其“空间认知”的核心模块,直接决定了机器人能否在动态环境中实现自主导航、任务执行与安全交互。该技术的本质是解决两大核心问题:“ 我在哪里”(定位)与“周围是什么”(环境建模),其输出的时空数据不仅是感知层的“ 终点”,更是决策层的“ 起点”,为运动规划、任务推理提供基础语义支撑。传统同步定位与地图构建 ( Simultaneous Localization and Mapping,SLAM) 技术通过传感器数据实时构建环境地图并确定自身坐标,是具身智能机器人在未知环境中自主探索的“ 眼睛”。在室内服务 ·18· �N��7� ��0 �� 场景中,激光 SLAM( 如 Cartographer 算法) 利用 360° 激光雷达构建厘米级精度的点云地图,为扫地机器人规划无碰撞路径;而视觉 SLAM(如 ORB-SLAM)则通过单目/ 双目摄像头提取环境特征,凭借轻量化优势在消费级机器人中广泛应用。随着具身智能向复杂场景延伸,语义 SLAM 成为关键突破方向,它不再局限于几何结构建模,而是通过深度学习(如 MaskR-CNN 语义分割)为地图赋予“门”“楼梯”“餐桌”等语义标签, 使机器人不仅能“ 看到” 障碍物,更能“ 理解” 物体功能。例如,当机器人接收到“去厨房倒垃圾” 指令时, 语义地图可直接定位“厨房门”的位置与开合状态,结合几何地图规划避障路径,大幅提升任务执行效率。环境建模与定位技术的进步,正推动具身智能从 “几何级导航” 向“认知级交互” 进化。当机器人的地图不仅包含坐标点与障碍物,更整合了物体功能(如冰箱用于存储食物、插座需要避免触碰)、空间关系(如杯子通常在餐桌上)等先验知识,其决策逻辑将从简单的“避障”升级为“理解环境意图”。例如,搭载语义动态 SLAM 的机器人进入陌生房间时,能通过识别“书桌→可能有电脑” “垃圾桶→应避免靠近” 等语义信息,自主规划符合人类习惯的行动路线,这种基于空间认知的智能,正是具身智能机器人实现复杂任务的核心前提。环境建模与定位技术如同机器人的“空间记忆系统”,其精度与智能程度直接决定了机器人在非结构化环境中的适应性。随着多传感器融合(如“激光-视觉- 惯性数据”的深度融合)、轻量化模型(如基于 NeRF 的实时三维重建)等技术的突破,这一核心模块正逐步赋予具身智能机器人接近人类的空间理解能力———不仅能“看到”物理世界,更能“ 读懂” 环境语义,为感知决策闭环奠定坚实基础。 2. 2 多模态规划与决策技术多模态规划与决策层作为具身智能机器人的“智能大脑”,负责根据感知信息推理未来动作序列,并输出符合任务约束的轨迹、姿态或协同方案。多模态大模型通过分层协同架构整合视觉、语言、深度、触觉等多源感知,在动态环境中推理未来动作序列并输出符合物理约束与任务目标的轨迹、姿态或协同方案 [15]。基于物理感知与语义解析的结果,“智能大脑”进行任务分解与长期规划:大语言模型对人类指令进行编码,例如将“给盆栽浇水”细化为定位“水壶” “抓取”“移动”“浇水”等子任务,并结合多模态 SLAM 构建兼具几何精度与语义信息的环境图,同时通过具身记忆持续积累交互经验以支持任务中断恢复与价值对齐。近期研究聚焦以下 3 类代表性方向:一是零样本操作规划 [16],通过语言模型调用“视觉-语言” 模型合成三维价值地图,再用“贪心搜索”生成无碰撞末端位姿,零样本完成上百种日常操作;二是 3D 世界模型驱动 [17],基于 3D 物理信息的视觉语言动作模型(Vision- Language-Action,VLA) 场景、物体与动作特征统一嵌入 3D Transformer 框架,给定初始与目标状态即可想象完成任务后的深度图与点云并输出动作序列,另一种交互式视频生成模型 [18] 则将视觉、动作和奖励标记为自回归序列,既可作条件视频预测也能为强化学习提供可扩展世界模型;三是多机器人协作规划,一种多机器人协作方法利用预训练的大语言模型进行高层次的通信和低层次的路径规划 [19],各智能体