2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告https://arxiv.org/pdf/2412.19437v1 FP8 混合精度的整体训练思路 细粒度量化策略 71 拓展分析: DeepSeek-V3 ➢ 通信优化:DulePipe 算法: 精细化编排计算和通信 ➢ 控制前向和反向过程中 计算和通信的GPU SM 数量,保证计算和通信 完全重叠 ➢ 双向流水线并行 ➢ 降低流水线的Bubble ➢ 需要存两份模型参数 ➢ 64路的专家并行10 积分 | 76 页 | 8.39 MB | 7 月前3
英特尔-工业人工智能白皮书2025年版AVX2。同时,为了充分利用英特尔® 12 代酷睿 CPU 的多核性能,利珀还针对不同的底层算法进行 了最优的多线程并行化设计优化。目前,通过充分利用 AVX2 指令集提供的 256 位宽指令以及针对特定英特尔® CPU 实施 的精细多线程优化策略,利珀显著提升了隐裂检测产品中各类图像处理算法的执行效率,实现了对英特尔® CPU 计算潜能的 深度挖掘与高效利用。 面对隐裂检测面临对比度低及外观形态高度多样化的技术挑战,利珀公0 积分 | 82 页 | 5.13 MB | 7 月前3
共 2 条
- 1
