积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(2)技术工具(2)

语言

全部中文(简体)(2)

格式

全部PDF文档 PDF(1)PPT文档 PPT(1)
 
本次搜索耗时 0.006 秒,为您找到相关结果约 2 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 华为昇腾DeepSeek解决方案

    AI 框架: PY 、 TF 异构计算架构: CUDA 互联技术: NV Link AI 芯片: NV 、 AMD • DS 对强化学习的创新使用, 可以让大模型便捷的获 得 通用性 + 专用性, 可以满足各应用场景需求 • DS 对通过从模型结构到训推全流程的极致工程优化, 大幅提升 AI 的计算效率, 提升模型落地经济性 • 中国 AI 公司首次以关键创新贡献者的身份加入到全 已上线 联通云 已上线 移动云 已上线 南京、福建、浙江移动 已上线 上海、江苏电信 已上线 国计民生行业 龙岗区政府 已上线 北京银行 已上线 广大证券 已上线 北京、南京、西安、武 汉、苏州、无锡等公共 服务平台 已上线 招行 测试中 工行 测试中 太保 测试中 模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek
    0 积分 | 32 页 | 2.52 MB | 5 月前
    3
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    长文本能力是关键:核心洞察是长文本能力是强化学习训练LLM的关键,而不是更复杂的训练技巧。 ➢ 长文本到短文本:通过长文本 CoT 模型来指导短文本 CoT 模型的训练,从而在有限的计算资源下获 得更好的性能。 29 技术对比讨论:Kimi K1.5 Moonshot ➢ 四个阶段 Pretraining -- SFT -- Long-CoT SFT – RL ➢ RL Prompt Set search, 在大规模RL实 验下,提升算力更直接 ➢ PRM的潜力: ➢ PRM总归是一种比较稠密的监督信号,对reward进行shaping可以使训练更稳定或 收敛得更快 ➢ PRM还有探索空间,可以让模型收敛得更快速或更稳定 (Scaling曲线的斜率更大) ➢ 和自动形式化验证的结合,提供Rule-Based 之外辅助的Reward Signal, 指导更密集 的奖励优化,赋能长思维链安全的验证
    10 积分 | 76 页 | 8.39 MB | 6 月前
    3
共 2 条
  • 1
前往
页
相关搜索词
华为DeepSeek解决方案解决方案2025R1Kimi1.5及类推理模型推理模型开发解读报告
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩