国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代习和强化学习。 模仿学习也称为从示范中学习,是一种通过模仿专家行为来训练智能体学习策略的方法。模仿学习中,一种 广泛使用的方法是行为克隆(BC),将问题转化为监督学习问题。另一种方法是逆最优控制(IOC,也称为 逆强化学习),利用专家示范来学习奖励函数。 表1:模仿学习的两大算法类别 类别 简述 优势 挑战 行为克隆(BC) 在行为克隆中,通过最小化规划损失 来实现智能体策略与专家策略的匹配, 因果混淆。即模仿者会利用并依赖于输入组件与输 出信号之间的错误相关性(模型可能会将某些表面 上相关的因素,如天气、交通状况,错误地认为是 决定驾驶行为的关键因素,从而导致决策不准确)。 逆最优控制(IOC) 逆最优控制是一种从专家示范中学习 的算法,通过观察专家驾驶员的行为 来推测出一个“奖励函数”。这个奖 励函数可以理解为:专家做出的每一 个动作都有一个“奖励值”,这些奖 励值反映了每个行为的好坏。逆最优 Wu P, Chitta K,et al,End-to-end Autonomous Driving: Challenges and Frontiers,焉知汽车,国元证券研究所 图6:逆最优控制(IOC)方法 图7:强化学习方法 请务必阅读正文之后的免责条款部分 10 端到端的挑战:数据 由于端到端算法基于数据驱动,大模型依赖大量的高质量数据进行训练。以训练数据为核心,重点关注数据量、数 据10 积分 | 95 页 | 6.54 MB | 5 月前3
共 1 条
- 1
