启示 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

其他方法 RL驱动下自然涌现 Long-CoT 能力 “Aha”Moment 11 DeepSeek-R1 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 传统RLHF背景下，SFT通常被认为是不可或缺的一步，其逻辑先用大量人工标注的数据来让模型初步掌握某种能力（如对话或者语言风格），然后再用RL来进一步优化性能 ➢ DeepSeek-R1 径，而不是被预先设定的模式所束缚。 12 DeepSeek-R1 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 跳过SFT阶段，直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示： ➢ 需要足够强的基座模型：基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值（671B 在14.8T 高质量Token上训 Verification and Annotation)，这是与一般聊天和写作请求任务不同的； 13 DeepSeek-R1 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示：举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码，该代码采用数字列表，按排序顺序返回，在开始时添加 42。 ➢ 自动化验证方法： ➢ 利用软件检查代码补全判断是否为完整代码；

10 积分 | 76 页 | 8.39 MB | 10 月前
3
华为昇腾DeepSeek解决方案

MindSpeed 训练加速框架以及昇腾硬件特性，针对性地设计高效率流水并行技术，提升整体训练性能 Huawei Proprietary - Restricted Distribution 关键启示 8 模型结构优化计算通信优化后训练优化降低计算，极致的掩盖，同时保证训练精度

0 积分 | 32 页 | 2.52 MB | 10 月前
3

共 2 条前往

页

2025 DeepSeek R1Kimi 1.5 及类推理模型推理模型开发解读报告华为解决方案解决方案

分类

语言

格式

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

华为昇腾DeepSeek解决方案