pdf文档 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)

2.92 MB 24 页 0 下载 26 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
面向新型智算中心的以太 网弹性通道(FlexLane) 技术白皮书 (2025 年) 发布单位:中国移动通信有限公司研究院 前 言 随着以 ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长, 全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 有固定组合,引入灵活多通道架构,通过降速运行实时有效的规避任何通道发生 的故障,将链路可靠性提升万倍以上(助力 AI 网络互联可靠性超越 5 个 9),保 障 AI 训练和推理业务不受影响。FlexLane 技术支持在现有设备上通过软件升级快 速部署,或升级硬件实现更优的性能,同时可支持主动降速,在链路轻载和空闲 期间动态节能,为智算中心提供灵活、经济、高效的可靠性保障。 本白皮书旨在提出中国移动及产业合作伙伴对以太网链路高可靠 FlexLane 技术的愿景、架构设计和能力要求。希望能够为产业在规划设计智算中心网络、 网络互联高可靠相关技术、产品和解决方案时提供参考和指引。 本白皮书由中国移动通信有限公司研究院主编,中国信息通信研究院、清华 大学、北京邮电大学、华为技术有限公司、中兴通讯有限公司、上海橙科微电 子科技有限公司、新华三技术有限公司、锐捷网络股份有限公司、苏州盛科通 信股份有限公司、朗美通通讯技术(深圳)有限公司、武汉光迅科技股份有限 公司、思博伦通信科技(北京有限公司)、集益威半导体(上海)有限公司、成 都新易盛通信技术股份有限公司、索尔思光电、武汉华工正源光子技术有限公 司、上海云脉芯联科技有限公司联合编撰。 本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含 涉密项目的背景、研制目标、路线和过程,敏感领域资源、数据,关键技术诀窍、 参数和工艺信息。本白皮书的版权归中国移动所有,未经授权,任何单位或个人 不得复制或拷贝本建议之部分或全部内容。 目 录 1 背景与需求 ....................................................... 1 2 FlexLane 技术架构 ................................................6 2.1 技术目标 ..................................................... 6 2.2 设计原则 ..................................................... 6 2.2.1 兼容性原则 ............................................ 6 2.2.2 一致性原则 ............................................ 6 2.3 技术架构 ..................................................... 6 3 FlexLane 关键技术 ................................................8 3.1 故障隔离 ..................................................... 8 3.1.1 软件升级 .............................................. 9 3.1.2 硬件演进 ............................................. 10 3.1.3 技术效果 ............................................. 13 3.2 故障预防 .................................................... 14 3.3 动态节能 .................................................... 15 4 应用场景 ........................................................ 16 4.1 智算中心 .................................................... 16 4.2 智算中心互联 ................................................ 17 5 总结与展望 ...................................................... 19 缩略语列表 ........................................................ 20 参考文献 .......................................................... 21 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 1 1 背景与需求 近年来,人工智能(AI)技术取得了突破性进展,特别是以 ChatGPT、Deepseek 为代表的大语言模型(LLM)的兴起,标志着 AI 进入了一个全新的发展阶段。大 模型通常拥有数千亿甚至万亿的参数,中小模型通常也有十亿参数以上,需要海 量的算力进行训练和推理。为满足庞大的算力需求,智算中心作为 AI 发展的新 型基础设施底座,正加速在全球范围内建设和部署。 图 1-1 传统数据中心与新型智算中心流量模型对比 传统数据中心主要承载企业级应用,提供云服务,如 Web 应用、数据库、 存储等。如图 1-1 所示,这些应用的流量模式以南北向通讯为主,网络的主要任 务是保证客户能够及时可靠访问服务器,以及服务器能够快速可靠响应客户请求。 用户通过���跳入云,每跳链路的可靠性为���,则业务端到端可靠性为��� = ���=1 ��� ∁��� ��� × ������ × 1 − ��� ���−��� � ≈ ��� × ���(��� = 200���������1,��� = 3 时,��� × ��� ≈ 6 × 102���������),单个服务器或链路的故障通常只会影响到部分客户端,影响范围相 对有限。 新型智算中心主要承载 AI 训练与推理业务,部署大量服务器协同工作,流量 模式与传统数据中心不同,东西向流量特征明显。在这种流量模式下,大量服务 器共同承载 AI 任务并行计算,对网络的可靠性提出了前所未有的挑战。服务器 之间逻辑连接的任何一条物理链路发生故障,都会导致数据同步失败,任务中断, 造成大量时间和资源的浪费。如果承载 AI 任务的服务器之间共有���条物理链路, 每条链路的可靠性为���,则 AI 训练任务的可靠性为��� = ���=1 ��� ∁��� ��� × ������ × 1 − � 1 FIT:Failure in Time of 109 hours,在 109 小时中发生故障的次数[1]。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 2 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� × ��� ≈ 3 × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 GPU、网络互联和主机等故障占比靠前, 其中因网络设备和线缆问题造成网络互联故障共 35 次。 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-2 所示2。 图 1-2 智算中心互联光链路类型 主流高速接口 400G/200G 光模块年失效率超 0.2%,千卡以上集群平均每年 发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会 引发链路闪断[4],如图 1-3 所示。 2 常见多模或单模光模块常为多通道架构,每通道含 CDR(时钟数据恢复,Clock and Data Recovery),DSP(数据信号 处理器,Digital Signal Processor)以及激光器等元器件。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 3 图 1-3 光模块脏污遮挡 链路发生中断或闪断故障会对 AI 训练和推理业务产生诸多影响[5-8],主要体 现在 AI 训练的效率、稳定性和结果准确性,同时也威胁到 AI 推理的可用性、实 时性和可靠性。根据业界当前情况,链路故障可能会导致小时级的业务中断。 IEEE802.3 标准以太网[9]面向接口性能最优设计,单一物理通道故障则整条 高速链路失效。一个含���个物理通道的标准高速接口故障的概率为: ��������������� = ���=1 ��� ∁��� ��� × 1 − ��������������� ���−��� × � ��������������� ��� ≈ ��� × ���������������。 典型的单通道光模块可靠性���������������约为 100~500���������[1],则双通道光模块的 标准接口(��� = 2,��������������� = 100���������)可靠性(1 小时内发生故障的概率) 为: ��������������� ≈ ��� × ��������������� = 2 × 100× 1 × 10−9 = 2× 10−7 标准接口下的双通道光模块链路在一小时中发生故障的概率为: ��������������� = ���=1 2 ∁2 ��� × 1 − ��������������� 2−��� × � ��������������� ��� ≈ 2 × ��������������� = 2 × 2 × 10−7 = 4 × 10−7, 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 4 图 1-4 万卡集群示例(10240GPU+15360 链路) 如图 1-4 所示,一个典型的万卡集群无收敛组网,(GPU 总数为 10240,高速 互联链路总数 M 为 15360 条),组网中任一链路发生故障会导致网络故障,每小 时全网发生故障的概率为: ������������������������ = ���=1 ��� ∁��� ��� × 1 − ��������������� ���−��� × � ��������������� ��� ≈ ��� × ��������������� = 15360 × 4 × 10−7 = 6.14 × 10−3 根据当前常见大模型披露的训练时间3,如表 1-1 所示,在一个万卡集群内, 使用标准接口进行大模型训练,过程中发生链路故障的次数约为 2~22 次,无法 满足新型智算中心 AI 业务零中断新需求。 表 1-1 使用标准接口进行 AI 大模型训练期间发生链路故障次数 接口类型 ��� ������������ ���������_���������������������4 ������������������������������5(hour) ���������������_������������6 标准接口 15360 10240 约80% (典型值) 334.48(Deepseek-R1) 2.10 839.80(LLama3.3 70B) 5.16 3700.00(LLama3.1 405B) 22.71 有多种路径可以实现 AI 业务零中断。就提升光链路可靠性而言,可以在服务 器与交换机、交换机与交换机之间广泛部署 LAG 冗余技术,链路可靠性可提升 千倍(光模块年失效率 0.4%,光链路年失效率 0.8%,LAG 链路年失效率 0.0016%)。 3 DeepSeekAI 官方披露是 278.8 万个 H800 小时,LLama3.3 70B 的训练时间是 700 万个 H100 小时,LLama 3.1 405B 是 训练了 3084 万个 H100 小时[10]。 4 ���������_���������������������:AI 集群网络并行计算线性度。 5 ������������������������������:万卡 AI 集群网络完成一次大模型训练的时间,������������������������������ = ������������ ������������×���������_���������������������。 6 ���������������_������������:万卡 AI 集群完成一次大模型训练过程中发生链路故障的次数,���������������_������������ = ���_��������������������������� × ������������������������ 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 5 就高速光链路自身而言,单通道失效(器件失效、脏污)占比大,单通道失效阻 塞整条链路,资源严重浪费。业界亟需探索新的可靠机制,支持抗单通道或少数 通道故障,保障 AI 任务继续运行。 针对上述新型智算中心高可靠承载 AI 业务的诉求,中国移动联合业界合作伙 伴提出弹性容错 FlexLane 技术方案,在物理层引入灵活多通道架构,打破原有高 速接口与物理通道的固定组合,在单通道或少数通道故障情况下,通过隔离任何 故障通道降速工作,可有效提升链路可靠性百万倍以上,确保 AI 任务不因网络 互联故障而中断。本白皮书的发布有望推动 FlexLane 技术的产业共识、技术成熟 与商用落地,支撑智算中心的 AI 训练和推理业务稳定运行与发展。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 6 2 FlexLane 技术架构 2.1 技术目标 FlexLane 物理层方案更便于实现高可靠、低时延、低开销的保障能力,预期 可避免网络互联故障,保障 AI 任务零中断,满足智算中心场景对网络的要求。 2.2 设计原则 2.2.1 兼容性原则 FlexLane 技术可以在网络的不同层级位置实现。在物理层 PHY 单元实现时, 要求兼容已有标准(例如 IEEE802.3),不影响标准已规范的功能与协议。在上层 软件实现时,要求兼容通用的网络协议栈,并保持与现有应用的兼容性。FlexLane 技术与上层可靠性方案,例如 RDMA 重传、LAG 等可同时部署。 2.2.2 一致性原则 面 向 标 准 规 范 , 例 如 IEEE802.3 规 范 的 高 速 以 太 网 100GE/200GE/400GE/800GE/1.6TE 接口,提供一套 FlexLane 技术架构和协议。同 一层次方案,要求协议一致,满足互联互通要求。 2.3 技术架构 本 白 皮 书 提 出 的 高 可 靠 方 案 部 署 层 级 架 构 如 图 2-1(a) 所 示 , 以 200GE/400GE/800GE 为例说明,技术架构主要包括三个关键子系统:检测功能、 切换机制和交互协议,如图 2-1(b)所示: 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 7 图 2-1 FlexLane 技术架构与部署层级  交互协议:链路两端通过协议报文向对端通告故障隔离、故障恢复等操作。  切换机制:管理物理通道的状态(开启/关闭)。当检测到故障时,支持隔离 故障通道;当检测到故障通道恢复正常后,支持将故障通道恢复为正常工作 通道。支持主动开启或关闭部分通道实施故障预防策略(例如上层应用提前 诊断出某通道即将发生故障),或动态节能。  检测功能:实时检测各通道状态。支持被动查询或主动上报物理通道的状态, 含发光功率、收光功率、温度、电流、电压等信息。 FlexLane 的协商协议、切换机制以及检测功能都可以与更上层的管控系统进 行交互,从而对通道的状态进行监控,如查询通道当前信号质量、通道当前状态 (正常工作/故障/恢复中)以及当前流量特征等通道管控操作。应用接与控制平 台也可以主动对通道进行管理与控制,如下发指令关闭/开启某通道。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 8 3 FlexLane 关键技术 FlexLane 的整体流程包含故障通道的检测、故障通道隔离、故障通道恢复以 及主动开启或关闭通道,如图 3-1 所示。 图 3-1 FlexLane 整体技术流程  故障检测:本端支持通道粒度的告警检测。高速接口的任一通道发生故障时, 立即触发故障隔离流程。  故障隔离:本端向远端发送故障信息协议信令,通知远端隔离发送侧对应故 障通道。同时启动本地故障通道隔离流程,停止从故障通道接收信息。远端 收到故障信息协议信令,停止往故障通道发送信息。故障隔离完成,接口降 速运行。  故障恢复:通道故障消失后,接收侧向远端发送故障消失的协议信令。本地 和远端启动恢复流程,被隔离通道重新加入链路工作。 此外,还需支持主动降速/升速模式,由管理或控制平面触发 FlexLane 降速, 主要用于如下场景:  应用层检测到某通道的信号正在劣化,提前下发降速指令规避故障发生;  应用层预测到未来高速链路流量将会轻载甚至空闲,手工下发降速指令,关 闭部分通道耗能元器件动态节能。 3.1 故障隔离 针对现网情况,可考虑 FlexLane 的灵活部署策略,如图 3-2 所示:近期通过 软件升级支持 FlexLane,可快速部署;面向未来,选择在高速接口硬件实现,可 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 9 获得最佳性能。 图 3-2 FlexLane 灵活部署策略 3.1.1 软件升级 FlexLane 软件方案升级网络设备和光模块软件,支持通道状态查询和上报, 在不更换硬件的情况下实现故障通道隔离。故障检测和通道隔离由上层软件发起, 如图 3-3(a)所示,以四通道 400GE 高速接口为例,  T1 时刻,Z 端发送侧光模块发生闪断或中断故障;  T2 时刻,A 端
下载文档到本地,方便使用
- 可预览页数已用完,剩余 22 页请下载阅读 -
文档评分
请文明评论,理性发言.