华为昇腾DeepSeek解决方案AI 框架: PY 、 TF 异构计算架构: CUDA 互联技术: NV Link AI 芯片: NV 、 AMD • DS 对强化学习的创新使用, 可以让大模型便捷的获 得 通用性 + 专用性, 可以满足各应用场景需求 • DS 对通过从模型结构到训推全流程的极致工程优化, 大幅提升 AI 的计算效率, 提升模型落地经济性 • 中国 AI 公司首次以关键创新贡献者的身份加入到全 已上线 联通云 已上线 移动云 已上线 南京、福建、浙江移动 已上线 上海、江苏电信 已上线 国计民生行业 龙岗区政府 已上线 北京银行 已上线 广大证券 已上线 北京、南京、西安、武 汉、苏州、无锡等公共 服务平台 已上线 招行 测试中 工行 测试中 太保 测试中 模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek0 积分 | 32 页 | 2.52 MB | 5 月前3
 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告长文本能力是关键:核心洞察是长文本能力是强化学习训练LLM的关键,而不是更复杂的训练技巧。 ➢ 长文本到短文本:通过长文本 CoT 模型来指导短文本 CoT 模型的训练,从而在有限的计算资源下获 得更好的性能。 29 技术对比讨论:Kimi K1.5 Moonshot ➢ 四个阶段 Pretraining -- SFT -- Long-CoT SFT – RL ➢ RL Prompt Set search, 在大规模RL实 验下,提升算力更直接 ➢ PRM的潜力: ➢ PRM总归是一种比较稠密的监督信号,对reward进行shaping可以使训练更稳定或 收敛得更快 ➢ PRM还有探索空间,可以让模型收敛得更快速或更稳定 (Scaling曲线的斜率更大) ➢ 和自动形式化验证的结合,提供Rule-Based 之外辅助的Reward Signal, 指导更密集 的奖励优化,赋能长思维链安全的验证10 积分 | 76 页 | 8.39 MB | 6 月前3
共 2 条
- 1
 
