积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(2)技术工具(2)

语言

全部中文(简体)(2)

格式

全部PDF文档 PDF(1)PPT文档 PPT(1)
 
本次搜索耗时 0.007 秒,为您找到相关结果约 2 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    其他方法 RL驱动下自然涌现 Long-CoT 能力 “Aha”Moment 11 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 传统RLHF背景下,SFT通常被认为是不可或缺的一步,其逻辑先用大量人工标注的数据来让模型 初步掌握某种能力(如对话或者语言风格),然后再用RL来进一步优化性能 ➢ DeepSeek-R1 径,而不是被预先设定的模式所束缚。 12 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 跳过SFT阶段,直接运用纯强化学习拓展推理能力边界实际上也带来了几个很重要的启示: ➢ 需要足够强的基座模型:基座模型 (DeepSeek-V3 Base) 超过了某个质量和能力阈值 (671B 在14.8T 高质量Token上训 Verification and Annotation),这是与一般聊天和写作请求任务不同的; 13 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示:举例 - 自动化标记和验证 ➢ 示例输入: 编写 python 代码,该代码采用数字列表,按排序顺序返回,在开始时添加 42。 ➢ 自动化验证方法: ➢ 利用软件检查代码补全判断是否为完整代码;
    10 积分 | 76 页 | 8.39 MB | 7 月前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    MindSpeed 训练加速框架以及昇腾硬件特性,针 对 性地设计高效率流水并行技术,提升整体训练性能 Huawei Proprietary - Restricted Distribution 关键 启示 8 模型结构优化 计算通信优化 后训练优化 降低计算,极致的掩盖,同时保证训练精度
    0 积分 | 32 页 | 2.52 MB | 7 月前
    3
共 2 条
  • 1
前往
页
相关搜索词
2025DeepSeekR1Kimi1.5及类推理模型推理模型开发解读报告华为解决方案解决方案
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩