pdf文档 基于大模型的具身智能系统综述 VIP文档

10.74 MB 19 页 0 下载 5 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
基于大模型的具身智能系统综述 王文晟 1 谭 宁 1 黄 凯 1 张雨浓 1 郑伟诗 1 孙富春 2 摘 要 得益于近期具有世界知识的大规模预训练模型的迅速发展, 基于大模型的具身智能在各类任务中取得了良好的 效果, 展现出强大的泛化能力与在各领域内广阔的应用前景. 鉴于此, 对基于大模型的具身智能的工作进行了综述, 首先, 介绍大模型在具身智能系统中起到的感知与理解作用; 其次, 对大模型在具身智能中参与的需求级、任务级、规划级和动作 级的控制进行了较为全面的总结; 然后, 对不同具身智能系统架构进行介绍, 并总结了目前具身智能模型的数据来源, 包括 模拟器、模仿学习以及视频学习; 最后, 对基于大语言模型 (Large language model, LLM) 的具身智能系统面临的挑战与发 展方向进行讨论与总结. 关键词 大语言模型, 大型视觉模型, 基础模型, 具身智能, 机器人 引用格式 王文晟, 谭宁, 黄凯, 张雨浓, 郑伟诗, 孙富春. 基于大模型的具身智能系统综述. 自动化学报, 2025, 51(1): 1−19 DOI 10.16383/j.aas.c240542 CSTR 32138.14.j.aas.c240542 Embodied Intelligence Systems Based on Large Models: A Survey WANG Wen-Sheng1 TAN Ning1 HUANG Kai1 ZHANG Yu-Nong1 ZHENG Wei-Shi1 SUN Fu-Chun2 Abstract Thanks to the rapid development of large-scale pre-training models possessing world knowledge in recent years, embodied intelligence based on large models has achieved good results in various tasks, demonstrating strong generalization capabilities and broad application prospects across various fields. This article reviews the work of em- bodied intelligence based on large models. First, it introduces the roles of large models in perception and under- standing within embodied intelligence systems. Second, it provides a relatively comprehensive summary of the four levels of control that large models participate in within embodied intelligence: Demand-level, task-level, planning- level, and action-level. Subsequently, it introduces different embodied intelligence system architectures and summar- izes the current data sources for embodied intelligence models, including simulators, imitation learning, and video learning. Finally, it discusses and summarizes the challenges and development directions faced by embodied intelli- gence systems based on large language models (LLMs). Key words Large language model (LLM), large visual model, foundation model, embodied intelligence, robot Citation Wang Wen-Sheng, Tan Ning, Huang Kai, Zhang Yu-Nong, Zheng Wei-Shi, Sun Fu-Chun. Embodied intelli- gence systems based on large models: A survey. Acta Automatica Sinica, 2025, 51(1): 1−19 具身智能的概念最早可以上溯至 1950 年图灵 在其著名论文“Computing machinery and intelli- gence”[1] 中对未来机器发展方向的设想: 一个方向 是让机器学会抽象技能, 如下棋; 另一个方向则是 为机器人提供足够好的传感器, 使之可以像人类一 样学习. 前者的思想出现在后来发展的各类神经网 络如多层感知机、卷积神经网络中, 即离身智能; 后 者则逐渐发展出了具身智能的概念. 现在, 具身智 能一般指拥有物理实体, 且可以与物理环境进行信 息、能量交换的智能系统[2]. 虽然在过去的几十年 间, 离身智能取得了令人瞩目的成就, 但对于解决 真实世界的问题来说, “具身”的实现仍然是必要的, 与强调从经验中学习并泛化的离身智能方法相比, 具身智能更强调与环境的交互, 只有拥有物理身体 才能与世界进行互动, 更好地解决现实问题[3]. 当 前, 随着机器人技术和计算机科学的发展, 具身智 能受到更多的关注, 逐渐从概念走向实际应用, 而如何利用目前飞速发展的计算能力与人工智能 (Artificial intelligence, AI) 技术提高具身智能的表 现则成为学界与产业界的关注重点. 最近的研究表 明, 通过扩大语言模型的规模, 可以显著提高其在 少样本学习任务上的表现, 以 GPT-3 (Generative pre-trained transformer 3)[4] 为代表的大语言模型 (Large language model, LLM) 在没有进行任何参 收稿日期 2024-08-01 录用日期 2024-09-09 Manuscript received August 1, 2024; accepted September 9, 2024 国家自然科学基金面上项目 (62173352), 广东省基础与应用基础 研究基金杰出青年基金 (2024B1515020104) 资助 Supported by National Natural Science Foundation of China (62173352) and Guangdong Basic and Applied Basic Research Foundation (2024B1515020104) 本文责任编委 黄华 Recommended by Associate Editor HUANG Hua 1. 中山大学计算机学院 广州 510006 2. 清华大学计算机科学 与技术系 北京 100084 1. School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou 510006 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084 第 51 卷 第 1 期 自 动 化 学 报 Vol. 51, No. 1 2025 年 1 月 ACTA AUTOMATICA SINICA January, 2025 数更新或微调的情况下, 仅通过文本交互来指定任 务和少样本示例就能很好地完成各类任务. 在此之 后, 具有优秀泛化能力与丰富常识的基础模型在计 算机视觉、自然语言处理等领域都展现出令人瞩目 的效果. GPT-4[5]、LLaMA[6]、LLaMA2[7]、Gemini[8]、 Gemini1.5[9] 等大语言模型能与人类进行流畅的对 话, 进行推理任务, 甚至进行诗歌和故事的创作; BLIP (Bootstrapping language-image pre-train- ing)[10]、BLIP2[11]、GPT4-V[12] 等视觉−语言大模型则 能对图片进行图像分割[13]、目标检测[14]、视觉问答 (Visual question answering, VQA)[15]; DINO (De- tection transformer with improved denoising an- chor boxes)[16]、CLIP (Contrastive language-im- age pre-training)[17]、SAM (Segment anything model)[18] 等视觉基础模型则以低于前两者的模型 量级提供跨越图像与文本鸿沟的能力, 为进行实时 的开放词汇的视觉检索提供了可能. 这一系列的进 展不仅展示了基础模型的强大潜力, 也为其与具身 智能的融合提供了新的视角和可能性. 文献 [19] 将 上述在大规模数据集上进行训练并能适应广泛任务 的模型统称为基础模型, 意即可作为大量下游任务 训练基础的模型 (目前一般认为基础模型即大模型, 后文将不对二者作区分). 由于涉及到物理环境, 机 器人深度学习模型往往面临数据获取难度大、训练 的模型泛化性差的困境, 传统机器人往往仅能处理 单一任务, 无法灵活面对复杂的真实环境. 而基础 模型用来自互联网的大量文本、图片数据进行预训 练, 往往包含各种主题与应用场景, 能学习到丰富 的表示与知识, 具有解决各类任务的潜能, 其作为 具身智能的“大脑”能显著弥补机器人领域训练数据 少且专门化的缺点, 为系统提供强大的感知、理解、 决策和行动的能力. 此外, 基础模型的零样本能力 使得系统无需调整即能适应各种未见过的任务, 基 础模型训练数据的丰富模态也可以满足具身智能对 各类传感器信息的处理需求. 无论是视觉信息、听 觉信息, 还是其他类型的感知数据, 基础模型都能 够为具身智能提供全面和准确的理解. 在实际应用 中, 这意味着具身智能能够更好地适应环境变化, 理解各种操作对象, 解决各种复杂问题. 大模型的强大理解能力也能为具身智能带来与 人类无障碍沟通的能力, 能更有效且准确地理解用 户需求, 而大模型的长对话能力也使其具有处理复 杂任务的能力, 并规划长期目标. 这些特点都使得 具身智能有别于传统的仅面向单一任务, 或同质任 务的传统机器人, 使其具有更强的自主性与适应性. 人形机器人的突出优势就是其通用性, 而大模型带 来的认知能力则是形成通用性的关键[20]. 近期, 各 大机器人企业制造的人形机器人, 如宇树机器人 Unitr- ee H1、特斯拉机器人 Optimus, 以及 Figure AI 的 Figure 01 均使用了基础模型进行赋能, 展现出令人 惊讶的理解、判断和行动能力. 随着大模型的发展, 近年基于大模型的具身智 能工作已经成为研究热点, 各类试图将二者结合的 工作层出不穷. 尽管目前有一些以具身智能为主题 的综述[21−23], 但并未聚焦于大模型. 目前也有综述研 究大模型在机器人上的应用[24−28], 但不同的是, 本文 的内容更倾向于从具身智能的角度介绍二者如何有 机结合, 并加入对模型规划层级的分类探讨. 此外, 由于该领域发展迅速, 在上述论文发布后又涌现出 了许多重要工作, 本文将补充这些最新进展, 为希 望了解该领域的研究人员提供更多的参考 (工作总 览见图 1[25, 29−100]). 本文内容安排如下: 第 1 节对大模型如何帮助 具身智能实现对环境的感知与理解进行介绍; 第 2 节分析大模型分别在需求级、任务级、规划级、动作 级这四个控制层级上为具身智能提供的规划; 第 3 节对各类实现大模型结合具身智能的系统架构进行 分类与介绍; 第 4 节从模拟器、模仿学习和视频学 习等方面介绍具身智能训练的数据来源, 探讨大模 型如何为机器人训练带来丰富的数据; 最后在第 5 节对全文进行总结并提出研究方向. 1 感知与理解 在与环境的交互中, 具身智能通过摄像头、麦 克风等传感器接受原始数据, 并解析数据信息, 形 成对环境的认知. 在处理此类信息时, 大模型有着 强大的优势, 能有效处理整合多模态的输入数据, 捕获各模态之间的关系, 提取为统一的高维特征, 形成对世界的理解. 如对大量无标签的互联网文本 和图像进行预训练的视觉模型, 能将图像与文本编 码到同样的向量空间中, 这种对齐不仅有利于对环 境的感知, 也有利于对用户自然语言指令的理解, 利于完成复杂的任务. 本节主要讨论各类将大模型 用于具身智能感知与理解的方法, 讨论范围是文本、 图像和音频等信息, 其中感知的信息来源于环境与 人类用户. 1.1 多模态模型理解 多模态模型, 尤其是多模态大模型 (Large multi- modal model, LMM) 具有理解图像、场景文本、图 表、文档, 以及多语言、多模态理解的强大能力[29], 可 以直接用于具身智能对环境的理解, 并通过提示词 使之输出结构化内容如控制代码、任务分解等指令. 2 自 动 化 学 报 51 卷 Wang 等[25] 探索了使用 GPT-4V 赋能的具身 智能任务规划的可能性, 作者提出一个基于 GPT- 4V 的框架, 用于通过结合自然语言指令和机器人 视觉感知来增强具身任务规划. 框架使用视频数据 的初始帧和对应的文本指令作为输入, 根据输入的 指令和环境图像, 生成一系列动作计划. 研究人员 在多个公开的机器人数据集上进行实验, 结果表明, GPT-4V 能够有效地利用自然语言指令和视觉感知 生成详细的动作计划, 且这些计划与真实世界的演 示视频具有高度的一致性, 展现出 GPT-4V 在具身 智能中的潜力. ViLA[30] 同样引入了 GPT-4V, 通过将视觉信 息直接融入推理和规划过程中来生成一系列可执行 步骤. 此外, ViLA 能够自然地整合视觉反馈, 使得 机器人能够在动态环境中进行鲁棒的闭环规划: 机 器人执行第一步行动, 并观察结果, 执行行动后, ViLA 会将新的视觉观察作为反馈, 与之前的视觉观察和 已执行的行动步骤一起输入到 GPT-4V 中. GPT- 4V 将根据这些信息更新其对环境的理解, 并调整 后续的行动步骤. 例如, 如果第一次行动没有完全 达到预期的效果, ViLA 可能会生成一个新的行动 步骤来纠正或完成未完成的任务. 通过这种以多模 态大模型提供实时反馈的设计, ViLA 能够自然地 利用视觉反馈来实现闭环规划, 使得机器人灵活地 适应环境变化, 并有效地执行长期任务. MultiPLY[100] 构造了基于 LLaVA[101] 的多模态、 以对象为中心的具身大语言模型. 研究人员预先定 义了一系列的动作标记 (如选择对象、导航、观察、 触摸、敲击、拿起、放下、环顾四周) 和状态标记 (如 编码获得的对象点云、冲击声、触觉信息和温度信 息) 与环境互动, 其中动作标记指导具身代理在环 境中执行特定动作, 而状态标记则将代理的多模态 状态观察反馈给大语言模型, 以便生成后续的文本 或动作标记, 使得 MultiPLY 能够灵活地在抽象表 示和详细的多模态信息之间切换, 以适应不同的交 互任务. 1.2 多模态环境建模 一些工作利用多模态大模型对环境进行建模, 实现具身智能对空间信息的多模态理解. 以 CLIP 为代表的多模态大模型由于包含跨模态的理解能 力, 可以用于编码摄像头输入的图片与包含用户任 务自然语言, 实现对环境的语义建模, 以增强具身 智能系统对环境的感知. 需要强调的是, 虽然本节 与第 1.1 节都提到了多模态大模型, 但第 1.1 节内 容倾向于直接利用模型进行 2D 图片与文本理解; 本节的工作则是提取多模态模型的知识对场景本身 进行建模, 并未直接使用模型的输出进行控制. 为了解决开放词汇移动操作 (Open-vocabu- lary mobile manipulation, OVMM) (即机器人能 够在未知环境中识别并操纵任意物体以完成日常 任务) 的挑战, HomeRobot[102] 提出了 HomeRobot 具 身 智 能 数据来源 视频学习 模仿学习 模拟器 系统架构 冻结模型 Transformer 控制层级 动作级 规划级 任务级 需求级 感知与理解 人类反馈 多模态环境建模 可供性与约束 多模态模型理解 3D-VLA[63], Wang 等[25], Yang 等[29], ViLA[30], MultiPLY[100], iVideoGPT[64] AffordanceLLM[94], Affordance Diffusion[95], CoPa[96], VoxPoser[52], KETO[97], Robo-ABC[98], KITE[99] C2F-ARM[86], PerAct[87], LangSplat[88], Splat-MOVER[89], LLM-Grounder[90], AVLMaps[91], Act3D[92], AdaptiGraph[93] OLAF[80], YAY Robot[81], Socratic Models[82], MUTEX[83], ORION[84], MOKA[85], ViLA[30] Text2Motion[72], PaLM-E[73], SayCan[74], EmbodiedGPT[75], ELLM[76], Voyager[77], LLM-Planner[78], KnowNo[79] ViLA[30], OK-Robot[69], CaP[70], LLM-GROP[71], Instruct2Act[51], VIMA[50] VoxPoser[52], 3D-VLA[63], iVideoGPT[64], NaVid[65], RoCo[66], Swarm-GPT[67], ReKep[68] Prompt2Walk[59], Gato[60], RoboFlamingo[61], ManipLLM[62], RT-1[53], RT-2[54], RT-X[55] RT-1[53], RT-2[54], RT-X[55], InteractiveAgent[56], VIHE[57], ALOHA[37], ALOHA2[58] TidyBot[49], VIMA[50],
下载文档到本地,方便使用
- 可预览页数已用完,剩余 18 页请下载阅读 -
文档评分
请文明评论,理性发言.