面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库
5.24 MB
52 页
0 下载
6 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
面向大规模智算集群场景光互连技术白皮书 (2025) I 面向大规模智算集群场景 光互连技术白皮书 (2025年) 发布单位:中国移动 编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 在开辟全新的技术路径和产业赛道。它通过先进封装将光引擎与电芯 片合封在一起,把电信号的传输距离从米级大幅压缩至毫米级,从而 改写了物理层互连架构,实现50%以上的系统能效提升。由此构建的 “芯片—设备—集群”一贯式全光互连架构,已被业界广泛认定为下 一代智算基础设施的关键技术。 本白皮书系统性剖析芯片级光互连技术的核心原理和架构设计, 深入探讨光源、调制器等关键器件的技术发展路径。同时,全面梳理 芯片级光互连在国内外的产业现状,客观研判未来演进趋势和技术挑 战。期望通过产学研用多方协作,加速芯片级光互连技术从实验室原 型走向规模化商用落地,推动我国智算基础设施在硬件架构层面实现 跨越式升级,为数字经济的高质量发展筑牢坚实的算力基石。 面向大规模智算集群场景光互连技术白皮书 (2025) III 编写说明 牵头编写单位: 中国移动通信集团有限公司 联合编写单位(排名不分先后,按汉语拼音排序): 北京凌云光通信技术有限责任公司 烽火通信科技股份有限公司 飞腾信息技术有限公司 光本位智能科技(上海)有限公司 华为技术有限公司 昆仑芯(北京)科技有限公司 沐曦集成电路(上海)股份有限公司 摩尔线程智能科技(北京)有限责任公司 锐捷网络股份有限公司 上海曦智科技有限公司 上海图灵智算量子科技有限公司 苏州盛科通信股份有限公司 苏州奇点光子智能科技有限公司 无锡芯光互连技术研究院有限公司 新华三技术有限公司 中兴通讯股份有限公司 面向大规模智算集群场景光互连技术白皮书 (2025) IV 目 录 前 言......................................................................................................................II 1. 下一代智算集群提出近乎严苛的互连需求.......................................................1 1.1. 大模型的巨量迭代引发智算集群架构变革................................................................... 1 1.2. 大规模智算集群呼唤“光进电退”技术.......................................................................2 2. 极致化需求驱动光互连技术革新.....................................................................8 2.1. 业界存在两大类光互连技术.........................................................................................8 2.1.1. 设备级光互连:光交换机的演进与应用............................................................... 9 2.1.2. 设备级光互连:可插拔光模块的演进与应用...................................................... 10 2.1.3. 芯片级光互连:从近封装到光学I/O...................................................................11 2.1.4. 新型光互连技术具备巨大潜力............................................................................15 2.2. 芯片级光互连三大技术路线场景互补........................................................................ 16 2.2.1. 芯片级光互连技术的组成原理............................................................................16 2.2.2. 三大技术路线并驾齐驱,硅光或成未来主流...................................................... 19 3. 前瞻性芯片级光互连生态迎来关键窗口期....................................................23 3.1. 国际产业由巨头牵引率先打通产业链........................................................................ 23 3.2. 国内处于从研究向应用转化的起步阶段.....................................................................28 4. 规模化应用需跨越技术和产业的双重挑战....................................................35 5. 呼吁产学研擘画一贯式全光互连产业蓝图.................................................... 41 缩略语列表..........................................................................................................43 参考文献............................................................................................................. 47 面向大规模智算集群场景光互连技术白皮书 (2025) 1 1. 下一代智算集群提出近乎严苛的互连需求 1.1. 大模型的巨量迭代引发智算集群架构变革 实现通用人工智能(AGI, Artificial General Intelligent)已成 为大模型未来发展方向的广泛共识。大模型技术总体仍遵循扩展法则 (Scaling Law),参数已迈向万亿甚至十万亿规模,对智能算力的需 求呈现爆炸式增长。如下图所示,模型参数规模的增长速度约每两年 400倍,其算法结构在原有Transformer的基础上,引入扩散模型、专 家系统(MoE, Mixture of Expert)等,使模型泛化能力增强,并具备 处理10M+超长序列能力,推动芯片算力(FLOPS)约每两年3倍的提升, 需要至少百倍规模的集群演进速度来支撑大模型的发展,但芯片间的 互连能力提升缓慢,只有约每两年1.4倍,远落后于模型规模和算力的 演进速度。 图 1-1 智算场景中各技术领域扩展趋势[1] 超大模型的训练过程尤其是张量并行(TP, Tensor Parallelism)、 专家并行(EP, Expert Parallelism)等模式依赖集群内GPU芯片之间频 繁的数据交互。然而,互连速率的提升已严重滞后于算力的快速演进, 导致显著的通信开销,这直接限制了集群有效算力随GPU数量的线性增 面向大规模智算集群场景光互连技术白皮书 (2025) 2 长,已成为制约集群规模扩展和性能提升的关键瓶颈,如下图所示。 在此背景下,仅仅依靠IB(InfiniBand)或RoCE(RDMA over Converged Ethernet)等传统网络技术来满足模型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 图 1-2 算力随着卡数规模扩大难以线性扩展 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片集成于单个或多个机柜的集群系统,突破传统设备算力瓶颈, 显著降低多芯片并行计算的通信损耗,实现大模型训练与推理效率的 飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配合柜级集中电源供电,在提供更高供电效率的同时大幅降低数 据中心PUE。 面向大规模智算集群场景光互连技术白皮书 (2025) 3 为了实现更高的集群算效水平,互连技术方案的演进迫在眉睫。 在超节点设备的互连选择上,当前主要存在两种路径:基于铜缆和基 于光纤的传输方式。尽管铜缆作为目前的主流方案,相较于传统的可 插拔光模块与光纤组合,拥有技术成熟度、成本、可靠性以及部署维 护便捷性等多方面优势。通常在小于2米短距离和低于800Gbps的非超 高速组网场景中,铜缆凭借这些优势依然能满足绝大多数应用需求。 特别是无源直连铜缆(DAC, Direct Attach Cable),凭借其极低的成 本和超高的平均无故障时间(MTBF, Mean Time Between Failures), 成为当前主流选择。 然而,在高速传输场景下,铜缆面临着距离受限、功耗激增、速 率瓶颈和布线困难等严峻挑战,已然逼近其性能极限。随着超节点集 群规模继续扩展至256节点乃至千卡级别,且单通道传输速率迈向 800Gb/s,铜缆的固有物理局限性正日益凸显,已成为制约智算集群互 连性能与扩展潜力的严峻挑战。 图 1-3 不同速率的电信号在服务器内不同位置的损耗情况[2] 首先,铜缆的局限性体现在其距离限制。受限于信号衰减,铜缆 的有效传输距离极其有限。例如,在极短的10厘米PCB走线中,100Gbps 的速率就足以造成超过15dB的插入损耗,导致信号失真率突破5%。当 GPU跨越多机柜时,距离超过10米的情况下,信号衰减与功耗问题更为 面向大规模智算集群场景光互连技术白皮书 (2025) 4 突出。其次,功耗激增是另一核心痛点。在800Gbps及以上的高速传输 场景下,电流通过铜线产生的巨大热量不仅大幅推高了数据中心的运 营成本,也显著增加了系统的散热复杂性。再者,铜缆面临着传输速 率瓶颈。受限于“趋肤效应”和PCB走线的寄生电容、电感,其中长距 离传输的单通道速率难以突破200Gbps,且多通道并行会导致严重的串 扰,进一步限制了电互连的带宽密度。最后,布线困难成为规模化部 署的巨大障碍。随着智算集群规模呈指数级扩张,所需的铜缆数量几 何级增长,使得布线难度与成本显著提高,严重制约集群快速扩展和 高效运维。这四大固有物理局限,使得铜缆已无法满足未来高算力密 度和大规模扩展的智算集群的严苛需求。 为跨越基于电信号铜缆传输的固有物理极限,新一代光互连技术 正快速登上历史舞台。以近封装光学(NPO, Near Package Optics)、 共封装光学(CPO, Co-Packaged Optics)、以及光输入/输出(OIO, Optical Input Output)为代表的创新方案成为替代铜缆方案的优秀选择。这 些技术的核心在于最大程度地缩短电信号与光引擎(OE, Optical Engine)之间的距离,实现在芯片层面即完成光电转换,从根本上规 避了传统可插拔光模块的高成本与易故障问题,同时继承了光纤传输 的技术优势。 功耗显著降低。NPO、CPO等技术将光引擎与GPU封装在同一基板甚 至同一芯片上,将电信号路径缩短至厘米甚至毫米级别,大幅减少了 传输过程中的中继损耗,并降低了SerDes接口的性能要求,从而系统 性地降低了整体功耗。 面向大规模智算集群场景光互连技术白皮书 (2025) 5 图 1-4 不同接口设计的SerDes功耗[3] 带宽密度显著提升。通过缩短电信号传输路径,这些技术能支持 更高的单端口传输速率,同时在同一封装体内集成多个光通道,使得 带宽密度达到百Gbps/mm²至Tbps/mm²,远超铜缆互连方案。此外,连 接距离得到极大扩展。光信号的低损耗特性使其能够轻松覆盖数据中 心内数百米甚至10公里以上的距离,彻底打破了铜缆在远距离传输上 的桎梏。 更为重要的是,光互连在信号完整性上展现出压倒性优势。多根 铜缆并行传输时固有的串扰和反射问题,需依赖复杂的均衡算法进行 补偿,而光信号在传输过程中几乎不受电磁干扰,其传输损耗比电信 号低4至5个数量级,且与传输频率无关,从根本上保障了信号纯净度。 图 1-5 不同速率下光和电信号分别在芯片内和芯片外的损耗情况[4] 面向大规模智算集群场景光互连技术白皮书 (2025) 6 在空间利用方面,光互连在空间占用和重量上也展现出较大优势。 一束直径仅6mm的光纤即可容纳12根光纤,提供超过19.2Tbps的总传输 带宽,而提供同等带宽的铜缆束直径将超过50mm,重量更是光缆的8 倍。这种极致的轻量化与小型化设计,极大地简化了大规模集群的布 线难度,降低了数据中心的运营成本,并为未来更高密度的集成提供 了宝贵的物理空间。 图 1-6 铜缆和光纤的部署对比[5] 尽管面临初期成本高和技术门槛高等挑战,但光互连技术所带来 的低损耗、长距离、高带宽密度、高信号完整性以及低空间占用等核 心优势,使其成为突破超节点规模和算力极限的关键支撑。通过将光 电转换技术集成到芯片级别,光互连不仅拓展了传输距离,降低了系 统功耗,更通过光信号的长距离传输解决了单节点规模扩大的空间限 制问题。“光进铜退”已成为智算集群的必然趋势,是实现未来算力 跨越式发展的核心驱动力。 此外,光技术的引入已拓展到交换层,即光交换技术(OCS,Optical Circuit Switching)。为解决传统电交换机多次光电转换导致的高能 耗和微妙级延迟瓶颈,OCS直接在光域完成信号路由,最高可达纳秒级 切换速度,较电交换快2-3个数量级。纯光交换中微镜反射型(MEMS, 面向大规模智算集群场景光互连技术白皮书 (2025) 7 Micro-Electro-Mechanical Systems)做为其中一种比较成熟的技术, 已经实现了商业化应用。 面向大规模智算集群场景光互连技术白皮书 (2025) 8 2. 极致化需求驱动光互连技术革新 根据不同应用场景,光互连技术主要分为数据中心间(Data Center Interconnect,DCI)与数据中心内两大类。数据中心内聚焦短 距传输场景(数米至数百米),核心诉求是高带宽密度、低延迟及低 功耗,常用多模光纤,精准适配机柜内/跨机柜互连需求。本白皮书重 点探讨数据中心内光互连技术的分类、器件与技术趋势。 2.1. 业界存在两大类光互连技术 光互连技术是通过应用光电转换与融合技术,取代电信号在传统 数据传输场景中的主导角色,甚至直接替代芯片上的电IO功能,最终 实现信号在传输过程中远距离、低功耗、高密度的目标。其中,实现 光电转换的光引擎(Optical Engine,OE)是光互连技术的核心。根 据应用场景、光引擎与xPU芯片的距离以及封装集成程度的差异,业界 衍生出许多技术范畴,我们将其主要分为两大类:设备级光互连和芯 片级光互联。 如下图所示,在未来十万卡级以上的智算中心集群设计中,设备 级光互连主要有两大技术,一是以光交换技术为主,主要应用于交换 设备间网络连接中,提供超高端口密度、极高速率(无带宽瓶颈)、 连接距离从米级到百公里级;二是以可插拔光模块技术为主,主要应 用于超节点设备间网络连接中,提供较高速率、千卡及以上规模、公 里级别长距离连接;芯片级光互连主要以共封装光学为主,主要应用 于超节点内并进一步下探到芯片内场景,提供超高带宽密度(可达 Tbps/mm²级)、超低时延、千卡以下互连规模、公里距离之内的连接, 要求高可靠性。 面向大规模智算集群场景光互连技术白皮书 (2025) 9 图 2-1 十万卡级智算中心集群光互连架构设计 2.1.1. 设备级光互连:光交换机的演进与应用 随着智算集群规模持续扩展,电交换芯片逐渐显现瓶颈。单芯片 容量受制于集成电路工艺的发展,使得电交换芯片在制程工艺、转发 架构与缓存设计等方面面临诸多挑战,交换芯片更新迭代速度明显放 缓,网络规模难以快速扩展;高速SerDes和复杂转发架构导致功耗和 延迟不断上升,信号完整性问题也需要依赖复杂DSP补偿。 光交换为突破电交换的限制提供了新的路径: 一是,其在光层面直接完成端口间的切换,无需O-E-O转换,彻 底绕开了制程、缓存和SerDes衰减等物理瓶颈,可支持极高传输速率 与超大规模集群部署。光交换天然具备速率和协议无关的特性,从 400G到800G乃至1.6T均可平滑支持,在速率升级时无需更换交换设备, 极大降低了系统演进的复杂度和成本。 二是,光交换通过端到端光路直通,避免了复杂的包解析与缓存 转发,延迟大幅降低,功耗显著优于电交换。其大规模端口集成能力, 使得数百乃至数千端口的互联成为可能,从而支撑大规模GPU集群的灵 面向大规模智算集群场景光互连技术白皮书 (2025) 10 活组网需求。 三是,通过集中化的控制与软件编排,光交换还能够支持拓扑重 构、故障绕行和网络切片,提升算力利用率与网络鲁棒性。在运维方 面,自动化光路配置减少了人工布线带来的潜在错误,进一步增强了 网络的可用性和可靠性。 图 2-2 光交换机内部架构示例 2.1.2. 设备级光互连:可插拔光模块的演进与应用 可插拔光模块已广泛应用在传统数据中心、电信网络以及智算中 心大规模连接中,具备灵活性高与兼容性强等特征。其将光引擎(OE, Optical Engine)集成
| ||
下载文档到本地,方便使用
共 52 页, 还有
2 页可预览,
继续阅读
文档评分

