基于大模型的具身智能系统综述大模型赋能 传统控制 基元级 控制率 轨迹插值和调节增益 决定运动轨迹与控制策略 伺服级 生成控制信号 计算伺服误差 驱动伺服电机 需求级 理解需求 分解需求 代表工作: SayCan 动作级 生成末端执行器坐标/关节角 代表工作: RT-1 规划级 运动规划 路径规划 代表工作: VoxPoser 任务级 分解任务 完成任务 代表工作: ViLA 完成具体动作 抓取运动规划 导航路径规划 值区域提示机器人应当回避的障碍或其他不希望接 触的对象. 在运动规划阶段, VoxPoser 首先依据 Affordance map 和 Avoidance map 进行贪心搜索, 寻找一系列无碰撞的末端执行器位置, 并结合其他 类型的地图 (如旋转、速度和夹爪状态等) 进一步细 化每个位置上的参数设定. 与 SayCan[74] 类似, 3D-VLA (3D vision lan- guage action)[63] 类似地, Robo- Flamingo[61] 通过解耦视觉−语言理解和决策制定, 使用模仿学习在语言条件操控数据集上进行微调, 有效地将预训练的 VLM 用于理解视觉观察和语言 指令, 输出一系列包括末端执行器姿态、夹爪状态 在内的动作序列以指导机器人完成任务. Prompt2Walk[59] 探索了如何使用大语言模型 GPT-4, 通过设计良好的文本提示来输出机器人的 关节目标位置, 从而实现机器人的行走20 积分 | 19 页 | 10.74 MB | 1 天前3
共 1 条
- 1
