积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(4)技术工具(4)

语言

全部中文(简体)(4)

格式

全部PDF文档 PDF(2)PPT文档 PPT(2)
 
本次搜索耗时 0.011 秒,为您找到相关结果约 4 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    直觉,后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本(5,576,000美元 )带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 技术剖析:RL 加持下的 Length reward, 额外加上RL Data的设计,激活模型的内部本身的 推理能力 ➢ Reward Model 的一些尝试如PRM,会遇到reward hacking, value 不准,难以泛 化等问题 37 技术对比讨论:蒸馏 vs 强化学习 ➢ 大型模型虽然性能强大,但是也存在着一些局限性,例如计算资源消耗过高,部署和使用门槛较高等。 ➢ 模型蒸馏:将一位经验丰富的老师的知识传递给一个年轻的学生,让其在较短的时间内掌握复杂的技能。 多模态潜力进一步发掘 全模态场景下模态穿透与统一 ①③ ③④⑤ ②③⑤ 69 拓展分析: DeepSeek-V3 ➢ DeepSeek-V3 主要模型参数 ➢ 671B 每个Token 激活 37B参数, ~5.5% ➢ 61层 Transformer, Hidden Dimension: 7168 ➢ MoE: 1 个共享专家 (Shared Expert) + 256 路由专家(Routed
    10 积分 | 76 页 | 8.39 MB | 6 月前
    3
  • ppt文档 浙江大学-DeepSeek模型优势:算力、成本角度解读2025

    2024 年 6 月 2024 年 12 月 2024 年 7 月 训练 Token 2 T 8.1 T 14.8 T 15T 模型规模 7B 、 67B 236B/ 激活 21B 671B/ 激活 37B 405B MoE 模 型 稠密 MoE 2+160 MoE 1+256 稠密 注意力技术 GQA MLA MLA N.A 上下文长度 4K 128K 128K 128K 训练成本
    10 积分 | 23 页 | 7.53 MB | 5 月前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    算力 x 数据 x 思 考 模 型 效 果 低成本完美对标 OpenAI O1 ,突破精确语义理解及复杂推理任务 DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58
    0 积分 | 32 页 | 2.52 MB | 5 月前
    3
  • pdf文档 英特尔-工业人工智能白皮书2025年版

    以及将精度快速转换为 BF16和 FP16 的能力为英特尔® 至强® 6 能效核处理器提 供了更好的 AI 兼容性。 内存 • 与标准 DDR5 DIMM 相比,MCR DIMM 能够提供超过 37% 的额外内存带宽,可支持 AI 和科学计算中的带宽受 限用例。 • 多达 12 条内存通道,进一步支持更高的内存带宽。 • 当使用低成本内存(如支持 CXL 2.0 的 DDR4)时, “Flat” 工具包来优化模型,并通过在英特尔® 硬件上一次编写、随处部署 的方法来提高它们的性能。您还可以随时使用新参数重新训练每个模型版本。 6. 导出 — 您可以导出模型并将其集成到您的应用程序中或与他人共享。 37 02 英特尔 ® 技术方案 图:英特尔® CVOI 架构图 典型的机器视觉 Pipeline 包括若干子任务,如图像摄取、图像预处理、图像分析(传统的计算机视觉分析和/或深度学习推
    0 积分 | 82 页 | 5.13 MB | 5 月前
    3
共 4 条
  • 1
前往
页
相关搜索词
2025DeepSeekR1Kimi1.5及类推理模型推理模型开发解读报告浙江大学浙江大学优势算力成本角度华为解决方案解决方案英特特尔英特尔工业人工智能人工智能白皮皮书白皮书年版
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩