ppt文档 北大:DeepSeek-R1及类强推理模型开发解读 VIP文档

6.72 MB 76 页 0 下载 36 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 RL 算法的创新: GRPO 及其技术细节 DeepSeek-R1 背后的 Insights & Takeaways : RL 加持下的长度泛化 \ 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline 2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 3 的惊人成绩,表现与 OpenAI-o1-1217 相当。 在编码相关的任务中表现出专家水平, 在 Codeforces 上获得了 2029 Elo 评级,在竞赛中表现 优于 96.3% 的人类参与者 DeepSeek-R1 在知识类问答上推动科学探索边界: MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 R1 展现出强推理模型在 AI-Driven Research 的潜 力 在长文本依赖任务如 FRAMEs 和 事实性推断 任务 Si l QA 上表现突出 得益于强大的推理能力与长文本思考能力 , DeepSeek R1 在复杂任务上表现卓越,成为开源领域的 又 一里程碑,标志着开源社区在与闭源大模型(如 OpenAIo1 系列)的竞争中迈出了关键性一步。 DeepSeek-R1 在数学代码任务上表现突出 Deepseek R1 在 AIME2024 上获得了 79.8% 的成绩,略高于 OpenAI-o1-1217 。 在 MATH-500 上, 获得 97.3% DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 4 Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training 阶段)和 Test-Time 计算量 (例如 Test-Time Search )的增长,模型性能(例如数学推理能力)也会随之提 升 Post-Training Scaling Laws 下 训练时计算量 多了一个新的变量: Self-Play 探索时 LLM Inference 的计算量 回顾: Post-Training Scaling Law 6 [1] https://openai.com/index/learning-to-reason-with-llms/ 随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提 升模 型推理能力和长程问题能力,基于 RL 的 Post-Training 将会成为下一个突破点。 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生 成 式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling 为什么我们需要后训练 Scaling-Law ? 回顾: Post-Training Scaling Law 7 [1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168 [2] Scaling LLM Test-Time Compute Optimallycan be More Effective than Scaling Model Parameters Laws [1] 。 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 8 大规模推理为中心的强化学习,提升模型数学代码能力 RL 驱动下自然涌现长文本推理能力 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale Reasoning-Oriented RL DeepSeek-R1-Zero DeepSeek-v3-Base (671B) 奖励建模: 基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励 准确率奖励 Accuracy Rewards: 判断答案是否是正确的 格式奖励 Format Rewards: 规劝模型生成答案的过程是 <think> 和 </think> 没有使用 Reward Model, 因为 ORM 和 PRM 等基于神经网络的都可能遭受 reward hacking 而 retraining reward model 需要大量的计算资源,可能会复杂化整个流程 训练模板: 选择最简单的 Thinking Process , 直接观察到最直接的 RL 过程下的表现 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 9 基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖 励 推理为中心大规模强化学习:组相对策略优化( GRPO ) + 瞄准 Reasoning 推理任务 自我迭代提升 Self-Evolution : 随着训练步数的增长,模型的 thinking response length 逐 渐增加(对应着 test-time computation increasing ) Aha moment: 自然学会增加更多的推理时间,反思评价先前步骤、 探索其他方法 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 10 “Aha”Moment RL 驱动下自然涌现 Long-CoT 能力 传统 RLHF 背景下, SFT 通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让 模型 初步掌握某种能力(如对话或者语言风格),然后再用 RL 来进一步优化性能 DeepSeek-R1 系列跳过对于大规模人工标注数据的依赖 无需构建和维护高质量的 SFT 数据集,而是让模型直接在 RL 环境中进行探索 类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。 这种自主学习的方式,不仅节省了大量的标注成本; 更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式 所束缚。 DeepSeek-R1 Zero 的关键启示 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 11 跳过 SFT 阶段,直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示: 需要足够强的基座模型: 基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 ( 671B 在 14.8T 高质量 Token 上训练)(基座模型知识帮助突破推理上界,也有 一些 工作利用小模型复现 Aha Moment 得益于大规模 RL 和高质量推理数据); 大规模强化学习加持: GRPO 对于强化学习训练的优化; 规则化奖励: 绕过奖励攻陷问题,但是得益于推理问题可以进行自动化标记和验证 ( Self-Automated Verification and Annotation) ,这是与一般聊天和写作请求任务不同的; DeepSeek-R1 Zero 的关键启示 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 12 示例输入 : 编写 python 代码,该代码采用数字列表,按排序顺序返回,在开始时添加 42 。 自动化验证方法: 利用软件检查代码补全判断是否为完整代码; 执行 Python 代码检查运行情况判断是否为可运行代码; 调用外部模块构建额外的检测单元; 甚至可以更进一步, 测量执行时间,使训练过程首选性能更高的解决方案; 以上均可以作为小批量训练 (Mini-Batch) 和连续训练过程中的奖励信号 DeepSeek-R1 Zero 的关键启示:举例 - 自动化标记和验证 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 13 示例输入 : 编写 python 代码,该代码采用数字列表,按排序顺序返回,在开始时添加 42 。 基于规则进行验证,并在 Mini-Batch 中提供奖励信号; DeepSeek-R1 Zero 的关键启示:举例 - 自动化标记和验证 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 14 [1] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1 DeepSeek-R1 Zero 的问题: 长推理过程可读性差、语言混合,帮助性低 Research Questions: 能否在 Zero 基础上兼顾推理性能的同时,提升模型的帮助性和安全性?例如产生 Clear & Coherent CoT 并且展现出通用能力的模型 R1 ; 能否利用一些高质量反思数据集做 Cold Start 从而加速 RL 的收敛或帮助提升推 理表现 DeepSeek-R1 技术 Pipeline 总览 15 Stage II: 通用能力 & 安全性 基于规则的奖励 Rule-Based Reward 格式奖励 ! 冷启动 Cold Start ↓ Stage I: 推理链可读性 拒绝采样和全领域 SFT 全领域 RL All-Scenarios RL 推理为中心的 RL 流畅性奖励 推理为中心的大规模强化学习 (GRPO) Large-Scale Reasoning-Oriented RL DeepSeek-R1-Zero DeepSeek-v3-Base (671B) DeepSeek-v3-Base (671B) DeepSeek-R1 Intermediate Model ( 推理链可读性更强 ) 推理任务 - 规则奖励 (Rule-based Reward) 600k 推理数据 (Rule-based+Generative 奖励 ) 通用任务 - 偏好建模 (Reward Model) DeepSeek-R1 技术 Pipeline 总览 200k 通用数据 ( Writing \ Role-Play etc. ) 数学代码推理任务 正确率奖励 正确率奖励 反思数据 双重验证 16 ↓ ↓ ! 冷启动 Cold Start 数据准备: few-shot long cot data, 详细带反思和验证的数据 集 双重验证: 由人类注释者和 R1-zero 生成的高质量链式思考 ( Chain-of-Thought, CoT )数据,部分样本长度达到 10,000 Token 成效: 提供一些 Human Prior \ 显著提升了语言的语义连贯性、 可 读性和基本推理能力。 推理为中心 RL Reasoning-Oriented RL 增加了大规模的 RL 训练过程: 和 DeepSeek-R1Zero 基本一致, 主 要是提升 Reasoning 的能力,包括 coding \ mathematics \ logic reasoning 等带有明确解答过程的问题 语言一致性奖励: 引入 language consistency reward 衡量长推理 链 可读性(通过计算 CoT 过程中目标语言的占比) 推理准确率奖励: 结合 accuracy of reasoning tasks and reward for language consistency 成效: 通过 GRPO ,模型在 AIME 2024 等数学基准上取得了 显著 提升, pass@1 从 15.6% 提高到 71.0% 。此外,模型能够 ! 冷启动 Cold Start ↓ Stage I: 推理链可读性 推理为中心的 RL DeepSeek-v3-Base (671B) Intermediate Model ( 推理链可读性更强 ) DeepSeek-R1 技术 Pipeline 总览 数学代码推理任务 流畅性奖励 正确率奖励 反思数据 双重验证 17 拒绝采样和全领域 SFT Rejection Sampling and SFT 当上一个阶段的 RL 收敛之后, 再进行 SFT 和之前 Cold-Start 的数据不同,这部分 SFT 主要是负责全领 域 任务 600k 推理任务: (1) 基于规则的奖励 (2) 利用批判模型 融 合生成式奖励 200k 通用任务 (writing \ role-playing \ general- purpose) 成效: 使模型在推理能力不减的前提下,语言表现更为自然, 适应性更为广泛。 全领域 RL RL for all Scenarios 进一步提升除了 reasoning 能力之外帮助性和安全性 对于 reasoning data, 可以用基于规则的奖励 对于 general data, 可以用奖励模型来建模人类偏 好意图 成效: 最终版本的 R1 不仅在推理和对话能力上达到了高水 平, 还具备更安全的交互性能。 Stage II: 通用能力 & 安全性 拒绝采样和全领域 SFT 全领域 RL All-Scenarios RL DeepSeek-R1 600k 推理数据 (Rule-based+Generative 奖 励 ) 推理任务 - 规则奖励 (Rule-based Reward) 通用任务 - 偏好建模 (Reward Model) DeepSeek-R1 技术 Pipeline 总览 200k 通用数据 ( Writing \ Role-Play etc. ) 18 Pure RL to Develop Reasoning Capabilities: 社区的复现都涉及蒸馏和搜索,而 DS-R1 Zero 跳过监督微调 SFT 阶段,展现出大规模强 化学 习的潜力,这也得益于以下几点: 需要足够强的基座模型:基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 ( 671B 在 14.8T 高质量 Token 上训练
下载文档到本地,方便使用
共 76 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.