AI大模型将彻底改变智能汽车产业(26页 PPT)
2.77 MB
26 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
AI 大模型对智能汽车产业的影 响 3 AI 大模型对汽车产业链的影 响 2 AI 大模型在汽车业的应 用 1 ChatGPT 与 AI 大模 型 目录 2 13 26 39 42 2022 年 11 月 ,美国科技公司 Open AI 发布 ChatGPT , 因能很好地与人实现互动而迅速成为爆款产品:上线 5 天 用户过 100 万 , 2 个月后用户就突破 1 亿 ,成为历史上用户数增长最快的消费者应用。 ChatGPT ,突然出现的爆款 各明星应用程序注册用户达 1 亿时间 ChatGPT TikTok Instagram Snapchat Facebook ChatGPT 可回复自然语言输入的问题 资料来源: Open AI 公司,英伟达公 司 (单位:月) 2019 年 2 月 GPT-4 18,000 亿 参数量 2023 年 3 月 2018 年 6 月 据不完全统计, 目前已发布 的国内大模型中: 参数量超过 10 亿的有 79 个, 其中 ,参数量最高的达到 174 万亿。 ChatGPT ( Chat Generative Pre-trained Transformer ) ,是一种适用于自然语言交流的人工智能大模型, 它 成功的关键之一 ,是 Open AI 使用了海量数据进行预训练。 5 年间 , GPT 的参数量已从亿级飙升至万亿级。 GPT-3 1,750 亿 参数 量 2022 年 7 月 四代 GPT 参数量变化 ChatGPT 成功关键之一:大参数 GPT-1 GPT-2 1.17 亿 参数量 15 亿 参数量 资料来源: Open AI 公司,新汽车研究所制 图 三种常见模型的特点对比 卷积神经网络模型( CNN ) 循环神经网络模型( RNN ) Transformer 模型 ChatGPT 取得成功的另一个关键 ,是使用了 Transformer 模型。该模型采用自注意力( self-attention )机制 , 其 优点在于并行度高 ,可一次性处理所有输入数据 ,使 ChatGPT 能对词语序列的概率分布进行建模 ,利用上下 文 信息预测后续词语出现的概率分布。 ChatGPT 成功关键之二:新模型 CNN 模型只能对标注过的物体 进 行相似度的比对 RNN 模型无法进行并行计算, 效 率严重受限。 Tf 模型可找到更泛华的相似规律, 或者说, 它的联想能力更强。 资料来源:《动手学深度学习》(李沐) 2020 年 ,微软亚洲研究院首次将 Tf 模型应用于图像分类任务 ,在评测中实现 88.55% 的准确率。而且 Tf 模 型在 数据量越大的情况下表现越好 ,特别适用于自动驾驶这类大规模数据训练场景。 Tf 模型的另一个重要用处:计算机视觉 Transformer 模型可将 2D 图像融合成 3D 视角 Transformer 模型的工作原理 资料来源:《 Attention Is All You Need 》、《 Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer 》 2 AI 大模型在汽车业的应用 3 AI 大模型对汽车产业链的影响 1 ChatGPT 与 AI 大模型 目录 级别 名称 定义 驾驶操作 环境感知 支援 系统作用域 0 无自动化 • 由驾驶者完全操控汽车 驾驶者 驾驶者 驾驶者 无 1 驾驶支援 • 系统有时能够辅助驾驶者完成方向盘和加减速 等驾驶操作 驾驶者与 系统 部分 行驶任务 2 部分自动化 • 系统能够完成某项驾驶任务 • 驾驶者需要监控驾驶环境 • 其余驾驶操作由驾驶者完成 驾驶者与 系统 3 条件自动化 • 系统负责某些情况下环境感知 • 驾驶员需要时刻准备取回驾驶控制权 系统 系统 4 高度自动化 • 系统能够进行环境感知 • 驾驶员不需重新取得驾驶控制权 • 系统只能在特定环境条件下运行 系统 全部 行驶任务 5 完全自动化 • 系统能够完成所有环境条件下的所有驾驶任务 自动驾驶是过去 10 年最火热的赛道 ,但直到 2022 年才有部分企业推出具备 L3 级功能的车型。究其原因, 除法 规发展落后于产业发展外 ,很重要的一点在于自动驾驶系统积累的数据量还不够 ,存在安全隐患。 SAE 对自动驾驶的分级标准 自动驾驶近年来一直未能进入 L3 时 代 资料来源: SAE J3016- 2018 100 亿公里 马斯克曾在推特点赞了这样的观点: 实现超越人类的自动驾驶能力至少 需要 100 亿公里驾驶数据。 1000 亿公里 自动驾驶初创公司 MOMENTA 在其 公众号上提出: 要实现 L4 级驾驶,至少需要千亿公 里驾驶数据。 我国 2022 年公里旅客运输周转 量 道路交通具有场景复杂、参与者多、场景异质性强等特点 ,存在大量不可预见性。为避免长尾问题 ,厂商需 要对车辆自动驾驶系统进行大量测试 ,以确保尽可能多地覆盖场景 ,但也会带来成本的大幅增加。 业界对 L4 级别自动驾驶所需测试数据的预估 为解决长尾问题,测试数据需达 10 亿 ~1000 亿公 里 资料来源:广汽集团,案头研究 2400 亿 人工智能大模型在汽车业的应用 ,首推它对自动驾驶的赋能 ,主要体现为城市导航辅助驾驶系统(城市 NOA ) 的量产应用上。从 2022 年 Q3 起, 国内外智能汽车头部企业开始应用投放各自的城市 NOA 系统。 智能汽车头部公司 NOA 系统发展概况 AI 大模型将从根本上改变自动驾驶产业的发展 资料来源:中信证券 硬件配置方面 ,需要车辆使用满足 L3 级自动驾驶功能的智能化传感器 ,如摄像头、激光雷达、毫米波雷达等, 能实时感知各类路面情况;还需要车辆的自动驾驶芯片有足够高的算力 ,能在毫秒之内识别信息 ,并提出应 对策略。 应用智能传感器是实现 NOA 的基础 无论是多传感器融合派厂商,还是视觉派厂商,都大量使用智能化传感器,他们是实现 NOA 的必要条件。 要实现 NOA 对智能传感器硬件要求很 高 特斯拉 Model 3 小鹏 G9 厂商要搭建起高效的算法模型 ,开发的系统既要能精准识别并处理各传感器获得的数据 ,还要能有效应对模 型未考虑到的长尾问题。这大大增加了系统所需数据量 ,增加了开发难度。 软件在 NOA 系统中起决定性作用 特斯拉的 NOA 系统不仅能规划车辆行进路线等 ,还会 实 时提供预警信息 ,并能主动停止可能导致危险发生的 并线 等行为。 小鹏汽车开发的城市 NGP 的代码量 、 感知模型数量、 预 测 / 规划 / 控制相关代码量 ,分别是其高速 NGP 是 6 倍、 4 倍 和 88 倍。 要实现 NOA 还需要高水平算法的支 持 上图:摄像头获得的车 辆左、 中、右三方的感 知结果(即路况)。 下图: BEV+Tf 架构下, 特斯拉自动驾驶软件对 上图感知结果进行融合 后的效果。 资料来源:特斯拉 2021AI Day 2021 年 ,特斯拉在其 AI Day 上宣布将基于 BEV+Tf 架构开发其新版的完全自动驾驶系统( FSD ) ,并于当 年开 始重新编写底层代码 ,成为在汽车业第一个使用 AI 大模型的主流厂商。 新架构下特斯拉自动驾驶软件的融合效果 特斯拉率先在汽车业应用 AI 大模 型 传统算法将自动驾驶系统划分为感知、规划、控制等 3 大块 ,每个部分又可细分为不同的模块和子模块。每个 模块各司其职 ,有着独立且明确的目标。 传统的自动驾驶算法框架 传统的自动驾驶算法是基于规则开发的 规划模块的作用主要是根据车辆实 际行驶时面临的实时交通环境 ,生 成对应的行进规划 ,如跟车、 加速、 换道、制动等。 控制模块的作用是操纵车辆, 协 调 车辆的动力系统、 制动系统等 , 按 照规划模块输入行进规划, 实 施驾 驶行为。 感知模块的作用主要有 3 点: • 识别周边物体, • 检测交通信号, • 明确物体坐标, 控 制模块 规 划模块 感知 模块 类别 优点 缺点 模块化方案 • 由众多子模块组成 ,每个对应 特定的任务和功能; • 可解释性强 ,每个独立模块负 责单独的子任务 ,便于问题回溯, 易于调试等。 • 存在多个编解码环节, 会 产生计算的冗余浪费 ,对算力 要求高 ,需要使用激光雷达、 高清地图 ,成本高企; • 存在信息损失和误差问题。 • 长尾部分需一事一议, 会 耗费大量精力解决。 端到端方案 • 输入感知信息 ,直接生成控制 决策信号 ,更接近人的驾驶习惯; • 可借助数据的多样性获得不同 场景下的泛用性; • 减少感知、决策等中间模块的 训练过程 ,可集中模型训练资源。 • 黑盒模式, 解释性差, 当 系统出现错误时 ,难以判断是 哪个隐藏层或神经元的问题; • 闭环验证较难, 缺少真实 数据验证。 应用 AI 大模型后, 自动驾驶算法的底层逻辑将变成“场景→车辆控制 ”的端到端模型 ,将感知、规划和控制 环节一体化 ,传感器采集到的信息直接输入神经网络 ,经过处理后直接输出自动驾驶的驾驶命令 ,不存在各 子模块目标与总系统目标存在偏差的情况 ,保证效益最大化。当前 ,端到端模型暂时只被用于感知系统。 模块化与端到端方案对比 基于数据的 AI 大模型将彻底改变自动驾驶算法的底层逻 辑 端到端模型 资料来源:新汽车研究所绘制 感知 模块 规划 模块 控制 模块 鸟瞰图( BEV , Bird‘s Eye View ) ,是利用算法将各传感器 获取 的二维信号转换成类似直升机俯视视角的三维坐标 ,可在感知 算 法的层面实现端到端的架构开发。 优点 l 通过融合多个视角解决遮挡和物体重叠问题 ,解决多传感器融合问 题 ,方便下游任务共享图像特征; l 在 BEV 视角下没有物体变形问题 ,使得模型集中精力解决分类问题; l 能够把传统感知方案中 3D 目标检测、 障碍物实例分割、 车道线分 割、轨迹预测等多项任务在一个算法框架内实现 ,大幅减少人力需 求 ,提升算法开发效率。 缺点 l 鸟瞰图是基于 2D 信号合成的 ,缺少高度信息, 无法真实反映出物 体在 3D 空间实际的占用体积是多少。 为解决这一问题 ,算法通过 矩形框进行标记 ,这导致了细节损失。 l 对于未被预训练过的物体 ,系统无法识别。 图片来源 特斯拉 202 A 鸟瞰图, 一种新的融合算法 2022 年 ,特斯拉推出 Occupancy Networks (占用网络) 感知技术 ,通过算法对物理世界进行数据化和泛 化 建模 ,在 3D 空间上测出不同物体的高度 ,赋予鸟瞰图算法高度信息。 占用网络感知技术原理 占用网络感知技术,特斯拉给 BEV 算法打的补丁 基本的思想是将三维空间分成若干个网格 , 再去预测每个网格被占 用 的概率 , 无需考虑这个物体到底是什么 , 只考虑网格是否被占用。 摆脱了神经网络算法需先 “认识 ”才能 “识别”的特性 , 大大增强了对 不规则外形障碍物的感知能力 , 大幅提升了模型的泛化能力。 图片来源:特斯拉 2022 AI Day 自动驾驶感知模块有视觉派、融合派 2 种技术路线 ,前者以摄像头为主传感器 ,后者以激光雷达为主传感器。 应用 AI 大模型降低了硬件的要求 ,及软件开发的成本。 AI 大模型对自动驾驶成本的影响 l 车载感知硬件成本降低。 l 自动标注的效率提升, 带动成本大幅度下降。 l 大模型的开发成本。 l 厂商需要新增大量云端 算力。 毫末智行:单张图的标注 成本从 5 元下降到 0.5 元 , 成本下降 90% 。 小鹏汽车: 2000 人年的 标注量 ,可在 16.7 天完 成, 效率提升 4.5 万倍。 大多数厂商选择多传感器融合路线, 以激光雷达为主传感器 , 辅之以摄 像头、 毫米波雷达等。 图片来源:特斯拉、毫末智行 特斯拉 FSD V12 利用 了 1.4 万个 GPU 训练 集群 支持 AI 大模型运 算, 特斯拉预期其算力规模 会在 2024 年 2 月进入 全 球前五。 AI 大模型可以大大降低自动驾驶成 本 特斯拉坚持走视觉路线 , 其 Model 3 应用的是 8 个摄像头 + 1 个毫米波 雷达的配置方案。 自动驾驶能力的提 升需要大量算法训 练, 除真实场景外, 需模拟出大量仿真 场景做补充。如果 仅凭借工程师的理 解设计仿真场景, 能模拟的场景数量 有限。 而大模型的应用将 使自动泛化成为可 能 ,生成仿生场景 数据的效率提升, 进而加速模型迭代。 由于基于规则的算法泛化性不足、仍面临诸多长尾问题, 目前完善算法的方式是“打补丁 ” ,又会导致最终 代码量庞大且难以维护。 AI 大模型具备更强的泛化能力 ,可大幅度减少长尾效应 ,大大提升安全性。 传统自动驾驶方 案依靠贴标签的 方式挖掘长尾数 据, 通常仅能 识 别已知的图 像类 别。 而大模型可通过 文本将收集到的 图像进行相关性 分类, 并依照 文 本描述检索 图像, 因此有较 强的泛 化性。 AI 大模型可大幅减少长尾效应,提高自动驾驶安全 性 汽车的 图片来源:百度阿波罗,毫末智行 2021 年 ,特斯拉开始应用大模型重构自动驾驶软件, 当年 7 月推送的 FSD Beta V9 是大模型算法下的版本。 2022 年的实际测试显示 ,特斯拉 L3 级自动驾驶系统 FSD 的安全性能已高于人。 FSD 已具备高于人驾驶的安全性 100 亿公里 马斯克曾在推特点赞了这样的 观点: 实现超越人类的自动驾驶能力 至少需要 100 亿公里驾驶数据。 1000 亿公里 自动驾驶初创公司 MOMENTA 在其公众号上提出: 要实现 L4 级驾驶,至少需要千 亿公里驾驶数据。 2022 年 ,特斯拉的自动驾驶算法已全面切换到 AI 大 模 型。 新版 FSD 的事故率 ,每行驶百万英里(主要是非高 速 公路)发生事故的次数是 0.31 。 NHTSA 的数据, 美国所有车辆每行驶百万英里发 生 事故的次数是 1.53 ,是 FSD 的 4.9 倍。 AI 大模型驱动下, L3 级自动驾驶的安全性已高于 人 资料来源:特斯拉,案头研究 3 AI 大模型对汽车产业链的影响 1 ChatGPT 与 AI 大模型 2 AI 大模型在汽车业的应用 目录 软件定义汽车的概念近年来逐步被业界接受 ,但更多的还是从产品开发的角度 ,强调要重视软件的功能、作 用与价值。 随着大模型得到更多的应用 ,软件定义汽车的内涵有了新的变化 ,后续可能是“数据定义汽车 ”。 业界对软件定义汽车的常见理解 产品开发过程,要从此前的重视硬件转向重 视软件;整车由硬件主导转向软件主导。 资料来源:清华大学,麦肯锡 软件功能的不断增加将推动汽车软件的市场规模将不断扩大, 成为产业新的增长极。 软件定义汽车有了新的含义 自动驾驶功能的不断升级 ,对车用芯片算力的要求越来越高 ,用户需求倒逼上游企业开发出集合 AI 加速器的 系统级芯片( SoC ) ,提升车辆的算力。今后的算力将来到云端 ,对整车厂商提出更高要求。 Transformer 模型所需算力是指数级增长 2021 年 ,蔚来发布新车 ET7 ,该车使用的 超 算平台 NIO Adam ,配备由四颗英伟达 Drive Orin 芯片 ,平台总算力高达 1016 TOPS ,超 过特斯拉发布的 FSD 平台算力 的 7 倍 为更好地训练 FSD ,特斯拉 AI 计算中心 Dojo 总计使用 了 1.4 万个英伟达的 GPU 来训练 AI 模型,使用了 14 亿帧 画面 训练一个神经网络,对应的是 10 万个 GPU 工时。 数据驱动时代,对算力的要求更高 资料来源:蔚来汽车,新汽车研究所 4D 毫米波雷达可以提供高质量的点云数据, 前 向 4D 成像雷达角分辨率可达 1° 方位角和 2° 俯仰 角。这种特性使车、人的反射点将不再只 是一个 简单的点 ,而是成百上千的点组合的图 象 ,从而 显示出整个物体轮廓。 与激光雷达相比, 它成本更低, 探测 距 离 300~350m , 并支持全天候工作。 拥有更精确的分辨 率、高度感知信息 等优势,可有效识 别静态的障碍物与 静态物品。 激光雷达具有直接、稳定、精确测量的优点 ,可以直接感知夜间暗光场景、炫光场景、 以及一些视觉算法 无 法识别的情况 ,具有兜底的能力。但在新的算法下 ,它的这些特点可由 4D 毫米波雷达提供。 4D 毫米波雷达与其他雷达的性能差异 4D 毫米波雷达特性 激光雷达的重要性大幅度下降 高精地图包含道路形状、道路标记、交通标志和障碍物等更细致的地图元素 ,可帮助车辆其探查传感器未收 集到的道路信息。但 AI 大模型可以让车辆实施生成活地图 ,补足了自动驾驶后续决策所需要的道路拓扑信息, 因而可以实现去高精度地图化。 其主要的思路是在原有硬件基础上 ,推出新的视觉感知架构 XNet 。 其利用多相机多帧和雷达传感器数据的融合算法 ,直接输 出 BEV 视角下交通参与者的静态和动态信息(状态、速度、行 为预测等), 具备实时
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
24 页请下载阅读 -
文档评分


深桑达:发布政务大模型,落地AI+政务
公共安全引入DeepSeek AI大模型视频智能挖掘应用方案