ppt文档 华为昇腾DeepSeek解决方案 VIP文档

2.52 MB 32 页 1 下载 59 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
把握 DeepSeek 时刻,携手同 行 华为昇腾 AI 解决方案汇报 2025 年 2 月 DeepSeek 洞察及昇腾适配进展 华为昇腾 AI 基础软硬件介绍 CO NT E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 AI 技术 DeepSeek 是 AI 发展史上的一个关键里程碑,但远未达到 AI 终点 AI 模型算法: GPT 、 LLaMA AI 框架: PY 、 TF 异构计算架构: CUDA 互联技术: NV Link AI 芯片: NV 、 AMD • DS 对强化学习的创新使用, 可以让大模型便捷的获 得 通用性 + 专用性, 可以满足各应用场景需求 • DS 对通过从模型结构到训推全流程的极致工程优化, 大幅提升 AI 的计算效率, 提升模型落地经济性 • 中国 AI 公司首次以关键创新贡献者的身份加入到全 球 AI 竞争中,冲击美国 AI 霸权 • 打破 NV+OpenAI 的资金、技术、人才的垄断,全球 重新思考中美技术路线的选择 泛化性和经济性大幅提升 LLM 进入“ CV Resnet 时刻” 补齐最后一块自主创新的版图 真正形成中美两条 AI 技术路 线 AI 框架:昇思、飞桨 … 异构计算架构: CANN … 互联技术:灵衢 AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 2017 谷歌发布首个 Transformer 架 构 模 型 2023 ChatGPT 模型能力突破 开启 NLP 时代 2012 AlexNet 模型能力突破 开启 CV 时代 1998 LeNet 首个 CNN 架构模型 2025 DeepSeek 效率与成本双突破 NLP 全面普及 2015 Resnet 效率与成本双突破 CV 全面普及 AI 模型算法: DeepSeek 国家战略清晰 技术创新依赖资本投入 NLP 自然语言处理 双轮驱动互锁 战略坚定 + 技术创新 CV 计算机视觉 3 Huawei Proprietary - Restricted Distribution 下一代 AI 技术 Mamba 、空间智能 等 算力 x 数据 x 思 考 模 型 效 果 低成本完美对标 OpenAI O1 ,突破精确语义理解及复杂推理任务 DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 绕过 GUDA 进行 PTX 编程 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏 MOE 提质 降本 技术创新 硬件级、算法级、架构级、工程级、开 源生态 5 大技术创新,轰动全球 低成本 绕过 CUDA 挖掘 FP8 硬件潜力, MOE 和 MLA 技术实现不到 10% 的 成本方案 ~150M$ 5.57M$ DeepSeek–V3 训 练成本 Llama3.1-405B 训练 成本 DeepSeek-R1 推理成本仅为 OpenAI o1 的 3% 算法革命 架构创新 工程奇迹 开源生态 4 Huawei Proprietary - Restricted Distribution DeepSeek R1: 在 Reasoning 任务达到了世界水平( OpenAI- o1 ) 以 2 阶段 SFT+2 阶段 RL 完成,从而解决 R1-Zero 可读性差、 多种 语言混合问题 本次开源同时发布了 6 个基于 DeepSeek-R1 蒸馏的更小稠密模 型 ( Qwen/LLaMa 1.5B 7B 14B 32B 70B ) DeepSeek-R1 以 DeepSeek-V3 Base ( 671B )为基础模型, 使 用 GRPO 算法作为 RL 框架来提升 Reasoning 性能 Huawei Proprietary - Restricted Distribution 5 张量低秩压缩以降低 KV Cache 资源开销:相比于传统 MHA , MLA 通过降 维 操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存 储) (bs, ℎ) (bs, ℎ) 2bsℎ (bs, ℎ) (bs, ℎ) bsℎ′ 压缩后宽度ℎ′ ≪ 隐藏层宽度ℎ MLA 架构: 1 )分别对 Query 、 Key-Value pair 进行低秩压缩; 2 )使 用 RoPE 获得位置信息; 3 )使用 MHA 计算得到输出。 对 6DeepSH wkevi r而 opr言 iet ryn- s ri t d, DM istriLb ti可 o n 以 将 K V C a c h e 降 低 为 = 1 . 7 % 只需存储图中的 c v, K 即可; 考虑到矩阵乘法结合律,具体实现过程中 W UK可以与 WUQ 融合、 WUV可 以与 Wo融合,从而无需为每个 query 计算 key-value 值。 t R t K 相比于 MHA , MLA 每 token 的 KV Cache 量大幅减少,且精度更高。 DeepSeekV3 模型架构: Multi-Head Latent Attention ( MLA ) 1. 推理阶段,理论上可以将 KV Cache 降低 1~2 个数量级,大幅减少 HBM 存取和通信的开销。 2. 对昇腾更亲和,大幅降低对 HBM 依赖,提升推理 Decode 性能。 MLA 架构 昇腾 影响 具体实现 实验结果 ① 模型结构 • 每个 MTP 模块共享嵌入层和输出头 • 每个 MTP 模块独占一个 Transformer Block 和一个投影矩阵 • 多个 MTP 模块串联保持完整的因果关系链 ② 训练策略 • 每个 MTP 模块输出预测 token 的概率分布 • 每个 MTP 模块计算对应的交叉熵损失函数 • 多个 MTP 模块的损失函数加权平均得到最终训练目标 ③ 关键作用 • 提升每批训练数据的使用效率 ,强化训练信号 • 优化模型表达能力 ,提升 next-token 的预测效果 • 可参考投机采样改造 MTP 模块 ,加速推理效率 MTP : Multi-Token Prediction 多 token 预测提升模 型效果 • MTP 模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用 MTP 模块,基础模型能够独立完成正常推 理 • 参考投机采样, MTP 模块也可以被重新配置用于 speculative decoding ,加速解码过程,降低整体时延 7 Huawei Proprietary - Restricted Distribution 关键 发现 ① 细粒度的计算通信并行 • 将 PP stage 拆分为更细的模块 ,提升模块交替编排的灵活度 • 参考 ZeroBubble ,反向传递中的权重更新和梯度传递独立操作 • 经过细粒度的拆分和编排之后 ,计算流和通信流的 barrier 刚好可以重叠 ② 双向管道调度减少 PP 中的气泡 • 1F1B 中每个 batch 拆分为 1 个 forward 和 1 个 backward • ZeroBubble 中把 backward 拆分为 input 和 weight 两个部分 • DualPipe 中使用对称处理 ,不同 batch 从不同的 device 上开始流水 ③ 每卡显存占用略微增大 DualPipe :双流并行优化计算和通信, All-to-All 通信开销接近 0 • 双向管道训练 ,需要存两份参数来进行训练( Parameter 2x ) • 模型总参数量 671B ,每个卡上 4 个 routed expert 对应 26.8B , 同时 考虑到 PP-16 和 FP8 量化 ,每个卡上显存占用为 1.675GB 参考 DualPipe 技术,基于 MindSpeed 训练加速框架以及昇腾硬件特性,针 对 性地设计高效率流水并行技术,提升整体训练性能 Huawei Proprietary - Restricted Distribution 关键 启示 8 模型结构优化 计算通信优化 后训练优化 降低计算,极致的掩盖,同时保证训练精度 计算量减少 35% 平衡训练效率与 数值精度 计算与通信极致掩盖 减少 50%PP 气泡 以计算换内存、降通信,空间时间双优化 压缩 KVCache 降低内存 90% 支持更高并发 模型容量提升 3 倍 计算量减少 70% DeepSeek 通过从模型结构到训推全流程的优化,带来大模型新 范式 DeepSeekV3/R1 ,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛 降低学习复杂度 简化强化学习流程 降低后训练复杂度 推理优化 单次推理效率倍级提升 一次预测多个 token 推理倍级提升 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 MHA/GQA 分组共享减少缓存 GPT4 16 专家选 2 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法 强化学习 Attention MOE Token 预测 业界 LLM 大模 型 核心 收益效果 Huawei Proprietary - Restricted Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 长 ① 技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐 Scaling Law ,加速探索 AGI ② 工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升, 出现平权现象,引发新一波的“百模千态” 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 训练的算力需求将持续增长,算力结构从“预训练为主” 走向 “预训练 + 后训练 / 二次训练” 关注高效、稳定、开放的底座 • 极致性能、稳定可靠的 AI 集群 • 深度开放的平台和生态 • 极致的端到端性能效率优化 关注便捷、易用、性价比的平台 • 开箱即用的强化学习套件 • 兼顾成本与性能的蒸馏 / 微调方 案 • 便捷的部署、敏捷业务上线 DeepSeek-V3-671B DeepSeek-R1-671B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-1.5B (蒸馏后较原模型能力提升 10%+ ) BERT-Large Transformer ● 2 工程创新 新一轮百模千态 1 技术摸高 新一轮技术竞争 GPT-4/4o GPT-3/3.5 175B . Huawei Proprietary - Restricted Distribution PalM(540B) . Groq4 Hunyuan Claude 2 Llama3-70B Baichuan2-13B 训练算力需求 ( PFLOPS ) Megatron-Tuning NLG 530B Doubao 2.0 Gemini 2.0 GLM-130B AlexNet Gemini Llama4 GPT-5 Ultra 10 金融 交通 教育 医疗 电力 油气 制造 硬件 + 社区 一体机 钉钉一体机 电信息壤一体机 昇腾社区 新致金融一体机 同花顺一体机 …… …… 诸多厂家推出一体化方案对 外提供服务 / 自用 硬件 + 开源模型 +RL 套件 +ISV/ 云,商业模式逐渐成熟 DeepSeek 能力提升成为各行业生产力工具,加速推理落地千行 百业 DeepSeek 催熟大模型落地技术, 降低推理部署门 槛 行业大模型 大量行业数据 监督微调 SFT 基础模型 Llama 、 Qwen 、 … 开箱即用的一体机,加速大模型应用落地 华为云 移动云 电信天翼云 联通云 京东云 基础模型 (DeepSeek/ Llama/Qwen/…) 少量行业数据 腾讯云 阿里云 亚马逊 AWS 微软 Azure 部署更高效 月级调优 周 / 天级优 化 数据依赖降低 高质量数据 生成数据 算法依赖降低 高端人才 开源 + 蒸 馏 监督微调 SFT NVIDIA Hugging Face GitHub 更多行业 高质量数据生成 强化学习 主流云服务商已支持 DS 覆盖公 / 私有云部署 模型蒸馏 - 模型小型化 主流算力、主流社区 均已支持 DeepSeek 行业大模型 Huawei Proprietary - Restricted Distribution TO BE 云服务 AS IS 魔乐社区 昇腾 11 …… 模型服务商 潞晨科技 已上线 硅基流动 已上线 清昴 已上线 讯飞 测试中 运营商 电信天翼云 已上线 联通云 已上线 移动云 已上线 南京、福建、浙江移动 已上线 上海、江苏电信 已上线 国计民生行业 龙岗区政府 已上线 北京银行 已上线 广大证券 已上线 北京、南京、西安、武 汉、苏州、无锡等公共 服务平台 已上线 招行 测试中 工行 测试中 太保 测试中 模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek R1 - √ DeepSeek Janus-Pro-1B/7B √ √ DeepSeek R1-Distill-Llama-70B - √ DeepSeek R1-Distill-Qwen-32B - √ DeepSeek R1-Distill-Llama-8B DeepSeek R1-Distill-Qwen-1.5B/7B/14B √ √ 配套版本上线昇腾社区: https://www.hiascend.com/software/modelzo o/models/detail/678bdeb4e1a64c9dae51d35 3d84ddd15 配套版本上线魔乐社区: https://modelers.cn/models/MindIE/deeps eekv3 DeepSeek 模型发布即支持昇腾推理,各行业已基于昇腾快速 上线 最新 DeepSeekV3/R1/Janus-Pro 及 6 个蒸馏模 型 基于昇腾开箱即用,配套版本已上线各大开源 社区 DeepSeek 发布两周, 3 大社区全系列模型上线 40+ 客户 / 伙伴基于昇腾已上线, 15+ 测试中(预计两周内全部上 线) 12 Huawei Proprietary - Restricted Distribution 编程辅助 智能客服 … 个性化学习辅导 创意写作 … 个人知识管理 个人文档分析 编程辅助 … 开发板 边端设备 … Atlas 800I A2 (512GB) Atlas 800I A2 (256GB) Atlas 300V Atlas 300I Duo 系统吞吐 432 Token/s 系统吞吐 并发路数 系统吞吐 3300 Token/s 系统吞吐 4940 Token/s@32B 7500 Token/s@14B 730 Token/s@14B 956 Token/s@8B 956 Token/s@7B 80 路 @14B 115 路 @8B 115 路 @7B 昇腾 DeepSeek 一体机: 大吞吐 + 高并发, 加速行业模型落地 模型参数: 14B/32B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B 模型参数: 1.5B DeepSeek-R1-Distill-Qwen-1.5B 模型参数: 7B/8B/14B DeepSeek-R1-Distill-Qwen-14B De
下载文档到本地,方便使用
- 可预览页数已用完,剩余 30 页请下载阅读 -
文档评分
请文明评论,理性发言.