2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告
8.39 MB
76 页
0 下载
29 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新:GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \ 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展:Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment ➢ 补充拓展:DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; ➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强大的推理能力与长文本思考能力,DeepSeek R1在复杂任务上表现卓越,成为开源领域的又 一里程碑,标志着开源社区在与闭源大模型(如 OpenAI o1 系列)的竞争中迈出了关键性一步。 ➢ DeepSeek-R1 在数学代码任务上表现突出 ➢ Deepseek R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97.3% 的惊人成绩,表现与OpenAI-o1-1217相当。 ➢ 在编码相关的任务中表现出专家水平,在 Codeforces上获得了2029 Elo评级,在竞赛中表现 优于96.3%的人类参与者 ➢ DeepSeek-R1 在知识类问答上推动科学探索边界: ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 的潜力 ➢ 在长文本依赖任务如 FRAMEs 和 事实性推断任务 Simple-QA上表现突出 5 回顾:Pre-Training Scaling Law ➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量C、模 型参数量N和数据大小D之间的关系 6 回顾:Post-Training Scaling Law ➢ Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量 (例如Test-Time Search)的增长,模型性能(例如数学推理能力)也会随之提升 ➢ Post-Training Scaling Laws 下 训练时计算量 多了一个新的变量:Self-Play 探索时 LLM Inference 的计算量 [1] https://openai.com/index/learning-to-reason-with-llms/ 7 回顾:Post-Training Scaling Law 为什么我们需要后训练 Scaling-Law ? ➢ 随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提升模 型推理能力和长程问题能力,基于RL的 Post-Training 将会成为下一个突破点。 ➢ 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成 式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws [1]。 [1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168 [2] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 8 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale Reasoning-Oriented RL 大规模推理为中心的强化学习,提升模型数学代码能力 RL驱动下自然涌现长文本推理能力 9 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 ➢ 奖励建模:基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励 ➢ 准确率奖励 Accuracy Rewards: 判断答案是否是正确的 ➢ 格式奖励Format Rewards: 规劝模型生成答案的过程是 <think> 和 </think> ➢ 没有使用Reward Model, 因为ORM和PRM等基于神经网络的都可能遭受reward hacking 而retraining reward model 需要大量的计算资源,可能会复杂化整个流程 ➢ 训练模板:选择最简单的 Thinking Process,直接观察到最直接的RL过程下的表现 基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励 10 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 ➢ 推理为中心大规模强化学习:组相对策略优化(GRPO)+ 瞄准 Reasoning 推理任务 ➢ 自我迭代提升Self-Evolution:随着训练步数的增长,模型的thinking response length 逐 渐增加(对应着 test-time computation increasing) ➢ Aha moment: 自然学会增加更多的推理时间,反思评价先前步骤、探索其他方法 RL驱动下自然涌现 Long-CoT 能力 “Aha”Moment 11 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 传统RLHF背景下,SFT通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让模型 初步掌握某种能力(如对话或者语言风格),然后再用RL来进一步优化性能 ➢ DeepSeek-R1 系列跳过对于大规模人工标注数据的依赖 ➢ 无需构建和维护高质量的SFT数据集,而是让模型直接在RL环境中进行探索 ➢ 类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。 ➢ 这种自主学习的方式,不仅节省了大量的标注成本; ➢ 更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式所束缚。 12 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 跳过SFT阶段,直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示: ➢ 需要足够强的基座模型:基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 (671B 在14.8T 高质量Token上训练)(基座模型知识帮助突破推理上界,也有一些 工作利用小模型复现 Aha Moment 得益于大规模RL和高质量推理数据); ➢ 大规模强化学习加持:GRPO 对于强化学习训练的优化; ➢ 规则化奖励:绕过奖励攻陷问题,但是得益于推理问题可以进行自动化标记和验证 (Self-Automated Verification and Annotation),这是与一般聊天和写作请求任务不同的; 13 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示:举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码,该代码采用数字列表,按排序顺序返回,在开始时添加 42。 ➢ 自动化验证方法: ➢ 利用软件检查代码补全判断是否为完整代码; ➢ 执行Python代码检查运行情况判断是否为可运行代码; ➢ 调用外部模块构建额外的检测单元; ➢ 甚至可以更进一步,测量执行时间,使训练过程首选性能更高的解决方案; ➢ 以上均可以作为小批量训练 (Mini-Batch) 和连续训练过程中的奖励信号 14 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示:举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码,该代码采用数字列表,按排序顺序返回,在开始时添加 42。 ➢ 基于规则进行验证,并在Mini-Batch中提供奖励信号; [1] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1 15 DeepSeek-R1 技术 Pipeline 总览 ➢ DeepSeek-R1 Zero 的问题:长推理过程可读性差、语言混合,帮助性低 ➢ Research Questions: ➢ 能否在Zero基础上兼顾推理性能的同时,提升模型的帮助性和安全性?例如产生 Clear & Coherent CoT 并且展现出通用能力的模型 R1; ➢ 能否利用一些高质量反思数据集做 Cold Start 从而加速RL的收敛或帮助提升推理表现 16 DeepSeek-R1 技术 Pipeline 总览 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 推理为中心的大规模强化学习 (GRPO) Large-Scale Reasoning-Oriented RL 基于规则的奖励 Rule-Based Reward 正确率奖励 格式奖励 反思数据 冷启动 Cold Start DeepSeek-v3-Base (671B) 双重验证 推理为中心的 RL 数学代码推理任务 流畅性奖励 正确率奖励 Intermediate Model (推理链可读性更强) Stage I: 推理链可读性 拒绝采样和全领域SFT 600k 推理数据 (Rule-based+Generative 奖励) 200k 通用数据 (Writing \ Role-Play etc.) Stage II: 通用能力&安全性 DeepSeek-R1 全领域RL All-Scenarios RL 推理任务 – 规则奖励 (Rule-based Reward) 通用任务 – 偏好建模 (Reward Model) 17 DeepSeek-R1 技术 Pipeline 总览 ➢ 冷启动 Cold Start ➢ 数据准备:few-shot long cot data, 详细带反思和验证的数据集 ➢ 双重验证:由人类注释者和 R1-zero 生成的高质量链式思考 (Chain-of-Thought, CoT)数据,部分样本长度达到 10,000 Token ➢ 成效:提供一些 Human Prior \ 显著提升了语言的语义连贯性、可 读性和基本推理能力。 ➢ 推理为中心RL Reasoning-Oriented RL ➢ 增加了大规模的RL训练过程:和DeepSeek-R1 Zero 基本一致,主 要是提升Reasoning的能力,包括coding \ mathematics \ logic reasoning 等带有明确解答过程的问题 ➢ 语言一致性奖励:引入 language consistency reward 衡量长推理链 可读性(通过计算CoT过程中目标语言的占比) ➢ 推理准确率奖励:结合 accuracy of reasoning tasks and reward for language consistency ➢ 成效:通过 GRPO ,模型在 AIME 2024 等数学基准上取得了显著 提升,pass@1 从 15.6% 提高到 71.0%。此外,模型能够自发延长 推理链条,展现出更强的逻辑连贯性。 反思数据 冷启动 Cold Start DeepSeek-v3-Base (671B) 双重验证 推理为中心的 RL 数学代码推理任务 流畅性奖励 正确率奖励 Intermediate Model (推理链可读性更强) Stage I: 推理链可读性 18 DeepSeek-R1 技术 Pipeline 总览 ➢ 拒绝采样和全领域SFT Rejection Sampling and SFT ➢ 当上一个阶段的RL收敛之后,再进行SFT ➢ 和之前Cold-Start 的数据不同,这部分SFT主要是负责全领域 任务 ➢ 600k 推理任务:(1) 基于规则的奖励 (2) 利用批判模型融 合生成式奖励 ➢ 200k 通用任务 (writing \ role-playing \ general-purpose) ➢ 成效:使模型在推理能力不减的前提下,语言表现更为自然, 适应性更为广泛。 ➢ 全领域RL RL for all Scenarios ➢ 进一步提升除了reasoning 能力之外帮助性和安全性 ➢ 对于reasoning data, 可以用基于规则的奖励 ➢ 对于general data, 可以用奖励模型来建模人类偏好意图 ➢ 成效:最终版本的 R1 不仅在推理和对话能力上达到了高水平, 还具备更安全的交互性能。 拒绝采样和全领域SFT 600k 推理数据 (Rule-based+Generative 奖励) 200k 通用数据 (Writing \ Role-Play etc.) Stage II: 通用能力&安全性 DeepSeek-R1 全领域RL All-Scenarios RL 推理任务 – 规则奖励 (Rule-based Reward) 通用任务 – 偏好建模 (Reward Model) 19 DeepSeek-R1 Takeaways 技术亮点总结:Part I ➢ Pure RL to Develop Reasoning Capabilities: ➢ 社区的复现都涉及蒸馏和搜索,而DS-R1 Zero 跳过监督微调SFT阶段,展现出大规模强化学 习的潜力,这也得益于以下几点: ➢ 需要足够强的基座模型:基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 (671B 在14.8T 高质量Token上训练); ➢ 大规模强化学习加持:GRPO 对于强化学习训练的优化; ➢ 规则化奖励:绕过奖励攻陷问题,但是得益于推理问题可以进行自动化标记和验证 (Self-Automated Verification and Annotation),这是与一般聊天和写作请求任务不同的 ➢ 训练步数的增长,模型的thinking response length 逐渐增加 (test-time computation increasing) ➢ DeepSeek-R1-Zero 自主涌现学会重新评测原来的方法、反思和主动探索其他的路径 ➢ 多阶段训练下的冷启动让RL训练更加稳定,避免初期不稳定、加速收敛、提升思维链可读性 ➢ 未来后训练的重心会逐步倾向于RL,但是少量训练用于SFT可能还是必须的 ➢ 强化学习技术不只局限在基于规则的数学、算法代码等容易提供奖励的领域,它还可以创造性 地把强化学习所带来的强推理能力,泛化到其他领域 20 DeepSeek-R1 技术剖析:背后的教师模型 DeepSeek-V3 ➢ 基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值(671B 在14.8T 高质量Token上训练) ➢ 提供了类似于 System I 的足够好的 Prior Distribution 直觉,后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本(5,576,000美元 )带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 技术剖析:RL 加持下的 Length 泛化&推理范式涌现 ➢ 大规模RL的加持下,DeepSeek-R1 Zero 表现出在推理任务上思维链长度的自然增长和涌现 ➢ 反思深度逐层加深,出现标记不明确的步骤、保持中间结论、验证、混合语言推理等现象 ➢ 模型在准确率奖励和格式奖励下自然探索到 验证、回溯、总结、反思 的行为范式 ➢ 如何控制来保证最后的response 长度能够稳定上升,可能会出现反复重复验证、或者验 证时间过晚的情况; (REINFORCE 系列更快;PPO训练稳定但是慢) ➢ 多语言可能是因为预训练数据是
| ||
下载文档到本地,方便使用
共 76 页, 还有
1 页可预览,
继续阅读
文档评分


华为质量管理体系解读
DeepSeek智能体开发通用方案