中兴-面向智算场景的高性能网络白皮书2025
1.89 MB
41 页
0 下载
25 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
面向智算场景的 高性能网络白皮书 中兴通讯版权所有 编制说明 本白皮书在编制过程中得到了多家单位的大力支持,联合编制单位如下(排名不 分先后): 中国联通研究院 中国信息通信研究院 V1.0 发布时间 2025 年 2 月 ©2025 ZTE Corporation. All rights reserved. 2025 版权所有 中兴通讯股份有限公司 保留所有权利 版权声明: 本文档著作权由中兴通讯股份有限公司享有。文中涉及中兴通讯股份有限公司的专有信息,未经中兴通讯 股份有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据 及其他信息。 本文档中的信息随着中兴通讯股份有限公司产品和技术的进步将不断更新,中兴通讯股份有限公司不再通 中兴通讯版权所有未经许可不得扩散 目录 1 前言.................................................................................................................................................1 2 术语和缩略语................................................................................................................................ 1 3 高性能网络关键需求和挑战........................................................................................................ 3 3.1 高性能数据中心网络(HP-DCN).......................................................................................3 3.1.1 支持超大规模组网是基础....................................................................................3 3.1.2 超高稳定性是前提................................................................................................ 4 3.1.3 极致高性能是核心................................................................................................ 5 3.1.4 多维自动化运维体系是必需................................................................................6 3.1.5 可规模扩展的安全机制是保障............................................................................7 3.2 高性能广域网(HP-WAN).............................................................................................8 3.2.1 有效高吞吐量是焦点............................................................................................8 3.2.2 公平共享高带宽是关键........................................................................................8 4 高性能网络技术架构.................................................................................................................... 9 4.1 高性能网络技术现状和趋势............................................................................................9 4.2 中兴高性能网络技术架构.............................................................................................. 10 5 高性能数据中心网络关键技术.................................................................................................. 12 5.1 超大规模组网关键技术.................................................................................................. 12 5.1.1 大规模组网交换机:硬件基础,容量速率双升..............................................12 5.1.2 大规模组网路由协议:可扩展快速部署,组播能力提供..............................13 5.2 超高稳定性关键技术...................................................................................................... 19 5.2.1 故障无感恢复:硬件检测,多级保障..............................................................19 中兴通讯版权所有未经许可不得扩散 5.2.2 链路级可靠:轻量级 FEC,链路层重传......................................................... 21 5.2.3 端网协同的路径控制:端侧传递需求 网络精准控制....................................22 5.2.4 网络隔离与资源保障:网络拓扑隔离,资源合理分配..................................23 5.3 极致高性能关键技术...................................................................................................... 24 5.3.1 层次化负载均衡:整网规划,局部调优,多粒度负载均衡......................... 24 5.3.2 拥塞控制:算法无关,迅捷智能......................................................................25 5.3.3 集合通信卸载:统一编排,轻量传输..............................................................27 5.4 多维自动化运维关键技术:层次化可观测体系,高精度感知..................................29 5.5 可规模扩展安全机制关键技术:零信任模型,轻量级加密,安全会话无关......... 32 5.5.1 零信任安全架构.................................................................................................. 32 5.5.2 可扩展安全协议.................................................................................................. 33 6 高性能广域网关键技术.............................................................................................................. 34 6.1 主动拥塞避免.................................................................................................................. 34 6.2 近源端反馈机制.............................................................................................................. 34 6.3 端网协同速率协商.......................................................................................................... 34 6.4 任务式传输及配额调度.................................................................................................. 34 6.5 基于流的网络监控.......................................................................................................... 35 7 展望...............................................................................................................................................35 8 参考文献.......................................................................................................................................37 中兴通讯版权所有未经许可不得扩散 1 1 前言 智算场景的普惠化正带来新一轮网络技术的革新浪潮。 随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万 亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执 行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效 率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互 联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得 网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流 量呈现出完全不同的特征,突发的稀疏大流成为网络常态,聚合流量具备波峰波谷效应明显、 周期性等特征,也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能 需求,特别是在可扩展性以及分布式资源的高效利用方面,HPC与AI的需求趋同。一般来说 HPC对于时延更加敏感,但部分采用并行通信的计算模型,同样也关注长尾时延。 AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求,包含数据协同和数 据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同,例如在跨DC的AI训练 过程中的是训前模型和数据上载,以及训练期间数据和状态同步过程;数据快递场景包括数 据灾备、大规模科学数据传递等。以上都需要广域网具备高性能海量数据传输的能力。 综上,面对大规模AI/HPC的计算、存储和通信需求,不仅数据中心内部的大规模密集 数据交换需要高性能网络的支撑,还需要网络能够高效地连接多个数据中心或站点,实现跨 地域的AI/HPC业务的高效协同。 本白皮书从面向智算业务的高性能网络需求和技术挑战出发,分析高性能网络技术发展 现状和趋势,并探索更适合行业协同发展的高性能网络技术架构和关键技术。 2 术语和缩略语 以下缩略语适用于本白皮书。 缩略语 英文全称 中文含义 AEAD Authenticated Encryption with Additional Data 带有身份认证的加密算 法 AES Advanced Encryption Standard 高级加密标准 AI Artificial Intelligence 人工智能 中兴通讯版权所有未经许可不得扩散 2 AIGC Artificial Intelligence Generated Content 生成式人工智能 ARN Adaptive Routing Notification 自适应路由通知 BBR Bottleneck Bandwidth and Round-trip propagation time 瓶颈带宽和往返传播时 间 BGP Border Gateway Protocol 边界网关协议 BIER Bit Indexed Explicit Replication 位索引显式复制 CCO Collective Communication Offloading 集合通信卸载 CCOM Collective Communication Offloading Manager 集合通信卸载管理 CNP Congestion Notification Packet 拥塞通告报文 CPU Central Processing Unit 中央处理器 CSIG Congestion Signaling 拥塞信令 DSF Distributed Scheduled Fabric 分布式全调度网络 DOM Digital Optical Monitoring 数字光学监控 ECMP Equal-Cost MultiPath routing 等价多路径路由 ECN Explicit Congestion Notification 显式拥塞通知 ENCC End-Network Cooperation Congestion Control 端网协同的拥塞控制 FEC Forward Error Correction 前向纠错 GCM Galois/Counter Mode 伽罗瓦/计数器模式 GPU Graphics Processing Unit 图形处理器 HPC High Performance Computing 高性能计算 HPCC++ Enhanced High Precision Congestion Control 增强的高精度拥塞控制 HP-WAN High Performance Wide Area Network 高性能广域网 IFA Inband Flow Analyzer 带内流分析器 IGLB Intelligence Global Load Balance 全局负载均衡 IGP Internal Gateway Protocol 内部网关协议 INT Inband Network Telemetry 带内网络遥测 IOAM In situ Operations, Administration, and Maintenance 带内 OAM JCT job completion time 任务完成时间 KDF Key Derivation Function 密钥派生函数 MOD Mirror On Drop 丢包镜像 中兴通讯版权所有未经许可不得扩散 3 MTU Maximum Transmission Unit 最大传输单元 NCPC Network-coordinated Path control 网络协同的路径控制 PIM Protocol Independent Multicast 协议无关组播 RIFT Routing In Fat Trees 胖树路由协议 RTT Round-Trip Time 往返时延 ZTP Zero Touch Provisioning 零接触配置 3 高性能网络关键需求和挑战 3.1 高性能数据中心网络(HP-DCN) 3.1.1 支持超大规模组网是基础 在Scaling Law(扩展定律)的驱动下,万卡GPU训练集群已成为AIGC核心玩家的及 格线,智算中心正迅速朝着超万卡级别的规模迅速发展,国内云商如阿里巴巴、百度等陆续 宣布具备10万卡集群的支持能力,而Grok-3的训练集群已达到20万卡级别,预计会有更多 10万卡+智算集群出现。 如此大的组网规模势必引发网络技术的质变,高性能网络架构的主要功能设计以及性能 要求,都需要放到支持超大规模网络的框架下重新考量。 支持超大规模组网的主要挑战包括: 1)交换机接入容量的限制 服务器GPU网卡数量和接口速率在逐渐增加,呈现每两年翻倍的趋势,当前规模商用 的GPU服务器网卡接口达到8*400G,支持800G的GPU服务器也已推出,为了满足接入需 求,减少设备数量,对单交换机容量提出了越来越高的需求,而单交换芯片的容量提升节奏, 明显落后于IO总线的发展,并且存在物理上限。 2)组网拓扑的限制 为了满足数十万卡乃至更大规模的组网需求,在交换机支持端口数短期无法跃升的情况 下,传统的CLOS架构需要采用更多的网络层次,更多的网络层次意味着转发跳数增加,在 带来更大时延的同时,更多跳数的路径也增大了故障发生的概率和定位难度,使得网络难以 中兴通讯版权所有未经许可不得扩散 4 运维;同时,各层级之间用于互联的端口数量剧增,若采用光纤连接,光模块部分的成本增 加也不容忽视。 3)异构网络的互通挑战 大规模网络的构建可能会涉及多厂商设备,当前大模型训练网络仍处于技术方案耦合度 较高、标准不完备的状态,未来设备间互通可能面临挑战。 3.1.2 超高稳定性是前提 AI和HPC均是典型的分布式系统,网络作为分布式系统的连接底座,网络的故障或者性 能波动会影响集群计算效率,因此网络自身的稳定性是整个系统稳定运行的基础。此外大规 模训练或计算任务可能持续数周或数月时间,因此要求网络需具备长期持续的稳定性。 高性能网络的稳定性可采用如下两方面的指标衡量: 1)网络可用性:即网络无故障运行的时间,该指标主要与故障间隔
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
39 页请下载阅读 -
文档评分


新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)