2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告https://arxiv.org/pdf/2412.19437v1 FP8 混合精度的整体训练思路 细粒度量化策略 71 拓展分析: DeepSeek-V3 ➢ 通信优化:DulePipe 算法: 精细化编排计算和通信 ➢ 控制前向和反向过程中 计算和通信的GPU SM 数量,保证计算和通信 完全重叠 ➢ 双向流水线并行 ➢ 降低流水线的Bubble ➢ 需要存两份模型参数 ➢ 64路的专家并行10 积分 | 76 页 | 8.39 MB | 7 月前3
共 1 条
- 1
