pdf文档 2025年空间智能研究报告

11.13 MB 27 页 0 下载 21 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
空间智能研究报告 2025.4 量子位智库 QbitAI Insights 分析师 Xuanhao xuanhao@qbitai.com 01 空间智能概览 目 录 02 自动驾驶 03 3D⽣成 04 具身智能 05 扩展现实(XR) 06 世界模型 07 空间智能玩家图谱 空间智能是主要基于3D视觉信息进⾏理解、推理、⽣成、交互的AI系统 4 信息来源:量⼦位智库 3D理解 数据 算法 3D⽣成 3D推理 交互 虚拟 世界 物理 世界 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 空间智能概览:3D⽣成、自动驾驶、具身智能是空间智能不同成熟度的 应用领域,XR是空间智能的原⽣交互⽅式 5 信息来源:量⼦位智库 3D⽣成 扩展现实(XR) 自动驾驶 具身智能 物理 世界 虚拟 世界 终局状态 发展成熟度 世界模型 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 • ⾼ • 软件服务可快速 普及应用,3D⽣ 成价格低 从智能三要素、普及便捷度、经济性出发,自动驾驶和3D⽣成是空间智 能最先成熟的领域,具身智能仍处早期,各要素尚未完备 数据成熟度(核⼼) 6 信息来源:量⼦位智库 自动 驾驶 3D ⽣成 • ⾼ • 汽车⾏驶数据(摄像头及 传感器)达到百亿英里级 • 仿真数据正在快速发展以 弥补真实数据的分布缺失 具身 智能 成熟度 XR 经济性 • ⾼ • 融合感知、规划、控制的 端到端⼤模型已经成为业 界共识 算法成熟度 • ⾼ • 头部玩家达到5万 卡H100 算⼒支撑 • 中 • 安全性和合规要 求⾼ 普及便捷度 • 中 • 有千万级规模的⾼精度3D 资产数据,但仍需要更⼤ 规模的数据提升⽣成效果 • 中 • 目前算法部分处于快速进 步阶段,但数据表征尚未 成熟,技术目前可支撑商 业化 • 低 • 头部玩家算⼒百 卡/千卡级,算⼒ 目前并非瓶颈 • ⾼ • 软件服务可快速 普及应用 • 中 • 自动驾驶软件成 本低,潜在受众 巨⼤,头部玩家 已投放市场 • 低 • ⾼质量的机器⼈真机操作 数据数量稀少,仿真数据 作用有限 • 低 • 目前算法部分处于摸索期, 感知、规划、控制等功能 都不成熟 • 低 • ⼤多数玩家在千 卡级,目前的主 要瓶颈是数据 • 低 • 物理操作需要满 ⾜安全性、合规 性和精确度需求 • 低 • 机器⼈本体目前 价格昂贵,商业 价值低 • 硬件设备承担3D交互功能 • 可以为具身智能训练采集数据,是目前真机数据的主要获取⽅式 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 ⽂字、图片、视频数据相比空间智能规模更⼤,支撑了以语⾔模型为核 ⼼的AI浪潮快速发展,3D和物理AI在数据成熟后空间智能也将迎来爆发 7 信息来源:量⼦位智库 ⽂本 15万亿 Token 图片 视频 自动驾驶 3D⽣成 具身智能 数亿视频 ⽂字片段 百亿级 图⽂对 百亿英里 ⾏驶数据 千万级⾼质 量3D模型 百万小时 真机数据 分析 • ⽂本、图片、视频 等数据由于互联⽹ 内容的长期积累, 数据规模上显著⼤ 于自动驾驶、3D和 具身智能 • 空间智能涉及3D视 觉类数据、物理世 界交互数据,互联 ⽹数据的作用有限, 需要等待数据体系 进⼀步成熟,数据 整体上比语⾔更复 杂,对数据处理的 要求也更⾼ 空间智能 数据规模 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 • ⾼ • 自动驾驶车队可形成 正反馈的数据闭环, 加速模型能⼒提升 • 数据⽣成:XR设备可以支持空间智能相关的数据⽣产,例如英伟达GR00T项目,通过XR设备为机器⼈进⾏操 作演示 数据体系成熟度是观察空间智能进展的关键,包括数据积累、数据构成、 数据分布、数据闭环四部分,成熟度上自动驾驶>3D⽣成>具身智能 数据积累规模 8 信息来源:量⼦位智库 自动 驾驶 3D⽣ 成 • ⾼ • 已有数量庞⼤的车队和成 熟的道路交通系统可以收 集⼤量数据 具身 智能 分析 XR • 中 • 以视觉信息为主,纯视觉 技术路线外会涉及激光雷 达和其他模态 数据构成精简度 • 中 • 以道路交通系统的⾏驶 为主,多数驾驶场景下 需要的数据可以充分收 集,但缺乏长尾数据 数据分布多样性 数据闭环成熟度 • 中 • ⾼精度的3D资产图形学数 据,主要由专业的3D模型 师制作,数量有限 • 中 • 3D⽣成需要的图形学数据 种类多样,如形状、体积、 纹理、材质,对数据表征 要求⾼ • 中 • 3D模型的数据集丰富度 较⾼,模型可以覆盖各 类物件和场景 • ⽆ • 低 • 缺少存量装机量,要从零 开始积累数据,同时仿真 数据精度有限 • 低 • 需要视觉数据、⼒学数据、 运动数据、激光雷达、甚 ⾄其他模态,异构数据多 • 低,数据主要来自⼀些 垂直的训练场景,数据 分布比较单⼀ • ⽆ • 目前数据是⼤部 分AI系统进步的 瓶颈,算法和算 ⼒的问题相对更 容易解决 • 自动驾驶能够快 速成熟的核⼼原 因在于数据采集 和数据闭环⽅面 的优势,⼤规模 的自动驾驶车队 ⾄关重要 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 自动驾驶是空间智能目前规模最⼤、最成熟的应用,已经接近⼈类⽔平, 技术前沿开始从模仿学习转向强化学习,以保持性能增长 10 信息来源:量⼦位智库 描述 L1 阶段 L2 L3 L4 L5 数据支撑 • 极少 • 以视觉为主的⼤量 车辆驾驶数据,附 加激光雷达等其他 传感器数据 • 在驾驶数据的基础 上增加针对尾部场 景的模拟仿真数据 算⼒支撑 • 端侧的低算⼒ECU/ 嵌⼊式芯片 • 云侧需要万卡集群 • 端侧需要⾼端推理 芯片,如特斯拉 HW3或者英伟达 Orin/DRIVEThor • 数⼗万卡、百万卡 集群 • 辅助驾驶,由AI来控制单个运 动控制,其他操作由⼈类驾驶 员完成,例如巡航和车道保持 • 部分自动化,⼈类驾驶员为主, 但⼤部分驾驶操作由自动驾驶 系统完成 • 有条件的自动化,由AI来完成 所有的驾驶操作,驾驶员仅在 系统提示介⼊时⼲预操作 • 在限定范围内⽆需⼈类任何⼲ 预,所有的驾驶操作由AI完成 • 不限地域范围 • 完全由AI完成驾驶操作 权责 划分 算法支撑 • 真实数据积累量(本质是模仿学习)对模型 能⼒的增益呈现边际递减的情况,优秀的模 型会增加长尾数据的收集难度,模型越好依 赖真实数据进⾏提升越困难 • 需要引⼊强化学习+合成数据的新算法来加速 模型迭代速度、提⾼智能上限 数据量 模型能⼒ 强化学习 增益 当前阶段 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 • 长期愿景 自动驾驶有最成熟的空间智能数据体系,核⼼在于⼤量车队的数据积累, 同时可以构建⼤模型的数据闭环,通过正反馈加速驱动模型迭代 11 信息来源:量⼦位智库,1)以特斯拉FSD为例 数据积累 规模 数据构成 精简度 • 数据规模⼤:特斯拉FSD在过去3年已经积累30亿英里的驾驶 里程,同时每日里程积累数量已经突破1千万英里,并随着 特斯拉车队规模扩⼤加速增长,Waymo的模拟⾏驶里程已 经达到了150亿英里,累计⾏驶里程超2千万英里 数据分布 多样性 数据闭环 成熟度 • 精简度中:视觉驾驶数据最关键,纯视觉之外的技术路线也 会采用激光雷达、毫米波雷达等传感器,但纯视觉的精简路 线已被证明有效 • 地图数据和定位数据相对简单,不构成瓶颈 • 多样性中:地域范围包括不同国家/地域,城市/乡村,频次 分布来看包括不同⾼频日常和长尾场景,时间范围包括白天 /夜晚,季节性,⾼峰/非⾼峰等 • 数据反馈循环强:有⼤规模车队搭载自动驾驶系统测试、收 集数据用于模型训练,再将新模型投放市场进⾏OTA升级, 重复数据收集、反馈的闭环 描述 构成 自动驾驶数据量级1 1 2022 2023 2024 ~2亿公里 ~13亿公里 ~50亿公里 自动驾驶数据来源 2 真实 数据 • 最主要的训练数据,涵盖⼤量复杂多样的 环境变化,保真度最⾼ 合成 数据 互联⽹ 数据 真实 数据 • 重要性正在增加,旨在解决模型能⼒到达 较⾼⽔平后长尾数据的缺失问题 • 效果最差,主要用于⽆法获取数据的情况, 在预训练后补充不同驾驶环境的知识 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 自动驾驶已经出现清晰的空间智能Scaling Law,接管里程随底层算⼒扩 展和强化学习新进展快速增加,在百万卡集群支撑下将超过⼈类⽔准 12 信息来源:量⼦位智库,Tesla,1)H100等效算⼒ V12 V13.5/V14 V13 V12.5 Robotaxi • 放弃模块式、基于规则的算法 • 开始⾛向端到端 2023 • 模型全面端到端 • 增加模型参数量 • 优化城市驾驶/智能召唤 • 模型参数和上下⽂窗⼝比V12增 加3倍,训练数据量提升4.2倍, 训练算⼒增加5倍 • 基本达到⼈类平均⽔平 • 超过⼈类平均⽔平 2024 2025 2026- MPI(Miles Per Intervention/强制接管里程) 400km 200km 以模仿学 习为核⼼ 以强化学 习为核⼼ 千卡H100 万卡H100 ⼗万卡H100 数⼗万卡/百万卡H1001 当前阶段 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 3D⽣成是数字世界的空间智能,由图形学和AI共同驱动,处于技术快速 进步阶段,当前最⼤瓶颈是寻找具有良好扩展性的3D数据表征 描述 14 信息来源:量⼦位智库 L1 • 基础的⽂⽣3D、图⽣3D功 能,纹理和边缘较为粗糙 阶段 L3 L2 L4 L5 数据支撑 • ⽣成的精度达到基础⼯业 级⽔准,可用于产品设计、 3D打印,可以实现动态化 • ⽣成的3D资产可实现可拆 卸、可组合,⽣成精度接 近实物 • 增加⽣成资产的物理性质, 例如材质、质量、摩擦等 等,同时实现动态化 • 各类物理性质⽆限接近真 实物件,可以⽣成动态可 交互的3D世界 • ⼗万级精品 3D模型 • 百万级精品 3D模型 • 数千万级精 品3D模型 算法支撑 算⼒支撑 • 数⼗张GPU • 百卡级 • 数百卡级 分析 • 3D⽣成目前有两种技术路线: 1)3D原⽣⽣成,2)2D升维 多视角重建,但技术路线尚 未收敛,⾏业处于快速探索 阶段 • 数据表征是目前3D⽣成技术 的核⼼。由于3D数据的复杂 性,寻找具有优良扩展性的 数据表征难度较⼤,目前⾏ 业常用表征⽅式包括Mesh、 点云、NeRF、Voxel等 • 目前3D⽣成算法进步很快, 各技术模块的创新空间充⾜ 当前阶段 • 千卡级 • 上亿的精品 3D模型 • 等待探索 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 • 目前静态3D资产 ⽣成⽅向已有多 个成熟产品,并 实现商业化落地, 是目前3D⽣成最 主要的应用形式 • 动态3D场景的⽣ 成相对静态3D资 产⽣成⽽⾔成熟 度更差,技术路 线差异也较⼤, 且没有商业化⽅ 向,目前处于技 术探索阶段 3D⽣成受益于游戏、CG制作等⾏业,有⼀定数据积累,数据体系较为成 熟,目前开源数据已耗尽,如何持续获得⾼质量3D模型数据成为关键 15 信息来源:量⼦位智库,1)开源的3D数据也在千万量级,但真正可用于训练的⾼质量数据在50万左右 数据积累 规模 数据构成 精简度 描述 • 积累规模中:由于游戏、CG等⾏业的迅速发展(如Unity、 EPIC等公司),积累了⼤量的⾼质量3D模型可以用于训练, 各类3D模型分享平台(如Sketchfab、TurboSquid、CGTrader 等)也加速了3D数据的获取和传播 数据分布 多样性 数据闭环 成熟度 • 精简度中:不同于⽂字、视频、音频数据,3D数据的构成 复杂,表示⽅式多样,例如Mesh、点云、Voxel等,需要考 虑uv展开、纹理、材质等多种要素 • 多样性中:包括各类场景、⼈物角⾊、⽣活用具、动物植物、 武器、建筑车辆、航空器等 • 尚未形成数据飞轮 • 数据迭代靠厂商内部的数据标注处理体系 构成 3D数据量级 1 头部3D公司 ImageNet 开源3D数据 数千万 1400万 50万1 3D数据来源 2 3D模型资产 • 精度和质量需要达 到3D模型师⼿⼯ ⽣产的⽔准 3D打印数据 • 目前难以满⾜模型 训练的精度需求 程序化数据 • 目前数据质量和精 度不⾜ 3D扫描数据 • 目前数据质量精 度不⾜,但可以 补充材质数据 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 具身智能是空间智能未来规模最⼤的应用,可以和物理世界深度交互, 但目前整体成熟度较低,头部玩家即将开始⽣产环境实验 17 信息来源:量⼦位智库 描述 L1 阶段 L2 L3 L4 L5 数据支撑 • 百万小时真机数据 或⼤量仿真数据 • 百万小时真机数据 加⼤量仿真数据 算⼒支撑 • 千卡集群 • 万卡集群 • 在给定场景范围内有基本的⾏ 动能⼒和操作能⼒,但很难产 ⽣真实的商业价值 • 对于垂直场景(如⼯厂)中的 部分任务可以规模化参与⽣产 ⼯作,提⾼效率和⽣产⼒ 算法支撑 分段式⼤模型 + + 感知 决策 执⾏ 逐 渐 探 索 成 熟 • ⼤部分厂商目前的数据积累、算法成熟 度、本体成熟度都不支持端到端机器⼈ ⼤模型,任务编排、感知模型、运动控 制以及操作抓取都处于模块化状态 • 但头部厂商如特斯拉已采用端到端路线 技术尚未成熟,探索领域 感知 + + 决策 执⾏ 传感器 Token 提示词 Token ⾏动 + 回复 Token 端到端⼤模型 当前阶段 • 特斯拉在2025年可能达到近5000台的量产规模,同 时部署到特斯拉⼯厂,主要进⾏搬运、巡检、安保、 服务四类任务,其中搬运是最重要的场景 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 • 尚未产⽣数据飞轮 具身智能目前最⼤的瓶颈在于数据,各层面均处于早期阶段,如何权衡 真实数据和模拟数据,已成为⾏业内发展路径差异的关键分歧 18 信息来源:量⼦位智库,1)Sim2Real(Simulation to Reality)是指将⼈⼯智能模型从模拟环境(simulation)训练中获得的知识和能⼒转移到现实世界(real world)中应用的过程 数据构成 精简度 • 数据规模小:具身智能的数 据积累需要从零做起,数据 稀少,尤其端到端的⾼质量 数据 数据分布 多样性 • 数据精简度差:包括视觉摄 像头、激光雷达、运动传感 器、触觉传感器数据,另外 数据跨本体融合、泛化困难 • 数据多样性低:在收集速度 和数据质量上存在局限,目 前数据分布上以简单抓取和 运动数据为主,泛化性不⾼ 描述 构成 机器⼈数据来源 真实 数据 描述 • 机器⼈遥控操作 收集动作、场景 及环境数据 • VR第⼀视角+动 作捕捉数据 效果 成本/速度 分析 • 优,可以直接端 到端采集数据, 且物理环境完全 真实精确,没有 误差积累 • 成本⾼速度慢, 需雇佣⼤量数采 ⼈员,搭建采集 环境,以⼈/天 为单位采集数据 • 基于虚拟场景模 拟现实中的物理 规则或特定任务 环境(如⼯厂、 家庭) • 中,Sim2Real1的 分布偏移问题难 以解决 • 低成本且更敏捷, 仿真数据的成本、 采集速度远低于 真实数据 • 通过训练其他⼈ 类或者本体的任 务操作类视频进 ⾏学习 • 低,数据质量参 差不齐,需要⼤ 量数据后处理 • 低成本更敏捷, 视频数据本身成 本低,但会引⼊ 处理数据的额外 成本 真实 数据 仿真 数据 视频 数据 • 真实数据是最佳 选择,仿真数据 主要是出于数采 成本过⾼的现实 选择,⼤部分具 身智能厂商都在 同时使用真实数 据和仿真数据, 但侧重不同 • 仿真路线的核⼼ 是解决Sim2Real 中间的差距,也 需要结合少量⾼ 质量的真实数据 做数据增强 数据积累 规模 数据闭环 成熟度 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 扩展现实(XR)的硬件基础正在成熟,可实现3D类内容的原⽣消费,未 来随着3D原⽣内容和相关应用⽣态的成熟将打开更⼤的市场 20 信息来源:量⼦位智库,1)单眼分辨率 语⾔ 对比维度 • 单维语义 信息 信息 密度 沉浸 感 交互 性 融合 度 XR硬件设备各项性能参数正在提升 图片 视频 XR • ⼆维视觉 信息 • ⼆维视觉+ 时间 • 三维视觉+ 时间 • ⽆ • 静态视觉 • 动态视听 沉浸感强 • 三维动态 视听,极 致沉浸 • 单向输⼊ • 单向输⼊ • 单向输⼊ • 三维空间 交互 • ⽆ • ⽆ • ⽆ • 以3D⽅式 与现实世 界融合 XR作为新的信息交互⽅式有多个维度的优势 分辨率1 视场角 交互性 刷新率 延迟 • 1K • 35度 • 6自由度交互, 初阶⼿势操 作 • 60Hz • 30ms • 2K • 97度 • 6自由度交互, ⼿柄控制 • 120Hz • 20ms • 4K • ~100度 • 6自由度交互, ⾼精度眼动 追踪,⼿势 操作 • 100Hz • 12ms HoloLens (2016) Quest 2 (2020) Vision Pro (2023) 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 扩展现实(XR)是目前训练具身智能的关键数据采集⽅式,可以加速真 机数据增长推动空间智能发展,业内已有众多相关实践 21 信息来源:量⼦位智库,1)单眼分辨率 • Optimus 机器⼈的关键训练数据来自穿戴 VR 头显的⼈类训练员。完整的系统集成 了 VR 头显、传感器、⼿套、动捕服和相关软件 • 基于VR 头显,Optimus 机器⼈可以 1: 1 地复刻映射⼈类操作员的动作,⽽软件可 以实现第⼀⼈称视频的实时传输和精确控制输出,同时保持极低延迟 领先机构 图示 • 使用XR设备接⼊模拟机器⼈的数字孪⽣系统,并通过远程操作模拟机器⼈来记录 运动演示,用于⽣成⼀组更⼤的、物理上精确的合成运动轨迹 • 可以⽣成⼀组指数级增长、逼真且多样化的训练数据集,之后可以使用这些数据 对机器⼈策略模型进⾏后训练 • Meta推出了HOT3D数据集,能够加速机器学习研究以分析⼿与物体的交互。该数 据集包含以第⼀⼈称视角的用户抓取和操纵各种物体的⾼质量 3D 视频,展示了19 名受试者与33种不同刚性物体的交互,以及多模态信号,如眼
下载文档到本地,方便使用
- 可预览页数已用完,剩余 25 页请下载阅读 -
文档评分
请文明评论,理性发言.