汉得 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

华为昇腾DeepSeek解决方案

AI 框架： PY 、 TF 异构计算架构： CUDA 互联技术： NV Link AI 芯片： NV 、 AMD • DS 对强化学习的创新使用，可以让大模型便捷的获得通用性 + 专用性，可以满足各应用场景需求 • DS 对通过从模型结构到训推全流程的极致工程优化，大幅提升 AI 的计算效率，提升模型落地经济性 • 中国 AI 公司首次以关键创新贡献者的身份加入到全已上线联通云已上线移动云已上线南京、福建、浙江移动已上线上海、江苏电信已上线国计民生行业龙岗区政府已上线北京银行已上线广大证券已上线北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek

0 积分 | 32 页 | 2.52 MB | 5 月前
3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

长文本能力是关键：核心洞察是长文本能力是强化学习训练LLM的关键，而不是更复杂的训练技巧。 ➢ 长文本到短文本：通过长文本 CoT 模型来指导短文本 CoT 模型的训练，从而在有限的计算资源下获得更好的性能。 29 技术对比讨论：Kimi K1.5 Moonshot ➢ 四个阶段 Pretraining -- SFT -- Long-CoT SFT – RL ➢ RL Prompt Set search, 在大规模RL实验下，提升算力更直接 ➢ PRM的潜力： ➢ PRM总归是一种比较稠密的监督信号，对reward进行shaping可以使训练更稳定或收敛得更快 ➢ PRM还有探索空间，可以让模型收敛得更快速或更稳定 (Scaling曲线的斜率更大) ➢ 和自动形式化验证的结合，提供Rule-Based 之外辅助的Reward Signal, 指导更密集的奖励优化，赋能长思维链安全的验证

10 积分 | 76 页 | 8.39 MB | 6 月前
3

共 2 条前往

页

华为 DeepSeek 解决方案解决方案 2025 R1Kimi 1.5 及类推理模型推理模型开发解读报告

分类

语言

格式

华为昇腾DeepSeek解决方案

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告