2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展:Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative 技术对比讨论:从文本模态到多模态 ➢ DeepSeek R1 Zero 和 R1 在纯文本模态上取得的优异表现十分惊艳,这也不经让人期待:多模态 场景加持下 Deepseek R1 深度推理模型将会是怎样的表现? ➢ 模态穿透和模态联动将有望进一步提升强推理能力。人类在日常生活中接收到的信息往往是 全模态的,不同的感官渠道能够互相补充,帮助我们更全面地理解和表达复杂的概念。 ➢ 全模态扩展将成为Deepseek R1 [1] Visual Instruction Tuning: https://arxiv.org/pdf/2304.08485 47 未来技术方向展望 ➢长思维链可解释性 ➢模态扩展 + 模态穿透进一步拓展强推理边界 ➢强推理能力赋能 Agentic 发展 ➢强推理模型的监管和安全保证 ➢形式化验证 ➢审计对齐 ➢对齐欺骗现象 48 未来技术方向展望: 长思维链可解释性 ➢ 新10 积分 | 76 页 | 8.39 MB | 9 月前3
共 1 条
- 1
