B400G以太网助力智算中心光互联(20页PPT-移动)
1.87 MB
20 页
0 下载
20 浏览
0 评论
0 收藏
| 上传 | 格式 | 评分 |
|---|---|---|
itfangan | .pptx | 3 |
| 概览 | ||
B400G以太网助力智算中心光互联 程伟强 中国移动研究院-基础网络技术研究所 算力成为数字经济时代的核心竞争力 AI 大模型带动算力成为数字经济时代的核心竞争力。到 2025 年,我国算力规模将超过 300 EFLOPS , 智 能算力占比达到 35% ;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量 2022 年 12 月 2022 年中国移动全球合作伙伴大会发 布《新一代智算中心网络技术白皮书》 2023 年 8 月 2023 年中国算力(基础设施)大会发布《中 国 移动 NICC 新型智算中心技术体系白皮 书 2023 年 5 月 2023 云网智联大会发布《面向 AI 大 模型的智算中心网络演进白皮 书》 智算中心将成为支撑和引领数字经济发展的关键信息基础设施,将有效促进 AI 产业化、产业 AI 化的进 程 国家发改委:《全国一体化大数据中心 协同创新体系算力枢纽实施方案》 2021 年 5 月 2022 年 7 月 工信部:加速推进高端芯片、新型数据 中心等领域研发突破 2022 年 1 月 国家发改委:我国将布局八大算力网 络国家枢纽节点 加快数字经济发展 2023 年 5 月 中央网信办:以算力、赋能、产业发展 互动 走出数字经济特色化发展道路 2023 年 10 月 工信部等六部门联合印发《算力基础 设施高质量发展行动计划》 • 单个流量:数量多、带宽小、异步 • 累积流量:抖动幅度较小,具有随机性 • 单个流量:数量少、带宽大、同步 • 累积流量:波峰、波谷效应明显,具有周期性 单个流量 累积流量 单个流量 累积流量 传统 DC 流量模 型 智算中心大模型( All-to-all )流量模 型 GPU 停工等待 其 他 GPU 完成 工作 传统 DC 与智算中心流量模型区 别 面向大模型训练,网络成为 AI 算力瓶 颈 AI 大模型以 GPU 集群分布式训练为基础,带来大量节点间通信消耗,网络成为 AI 算力“瓶颈” 当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国 AI 发展的“新卡点” 集群有效算力∝{ GPU 单卡算力 * 总卡数 * 线性加速比 * 有效运行时} 网络设备能力决定 GPU 集群组网规模 网络性能决定 GPU 集群算力加速比 网络可用性决定 GPU 集群稳定性 芯片容量提升 2 倍,组网规模提高 4 倍 GPU 集群性能 ≠ 单 GPU 性能 *N 2% 的丢包就会使 RDMA 吞吐率下降为 0 随着 GPU 单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速 率 和新安全方案,提升智算中心网络性能和整体算力水平 目录 以太网新调度机制— GSE 以太网新接口速率— B400GE 以太网新安全方案 — PHYSec 6 GSE 技术体系 --- 核心理 念 中国移动提出全调度以太网( GSE )技术架构,最大限度兼容以太网生态,创新基于报文容器( PKTC )的转发及调度机制, 构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力 AI 产业发展 创新以太网转发机制,实现三大核心机制转变 从“局部”决策到“全局”调度 从“流”分发到“报文”分发 从盲发 + 被动控制到感知 + 主动控制 将业务流拆分到不同“报文容器”转发,提供逐 “报文容器”负载均衡机制,提升带宽利用率 从被动拥塞控制,到基于“授权请求和响应机 制”的主动流控,最大限度避免网络拥塞产生 全局视野的转发调度机制,实现集中式管 理 运维、分布式控制转发,提高网络可用 性 当前:逐流负载,链路利用率低、发生拥塞被动降速 未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞 Spine Spine Spine 目的 leaf 3 2 1 3 2 1 3 2 1 源 leaf 3 2 1 3 2 1 3 2 1 拥塞 3 2 1 3 2 1 2 1 丢包 报文容器 以太 报文 以太 报文 报文 1 长度 报文 2 长度 报文 2 GSE Header 报文 1 GSE Header 源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应 的容器 ID ,并记录其归属的报文容器编号及在该容器占用的字节数 Packet 报文容器是区别于 CELL 转发的一种核心转发机制,该机制下以太网报文根据最终设备或者设备出端口被逻辑分 配 并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输 基于确定长度的容器转发 提升多链路均衡性 报 文 容 器 1 早期 链路速率低 长短包转发差异性大 切 Cell Cell1 Cell2 Cell3 报文容器 将来链路速率高 总转发带宽增 大 Cell 相应增大 组容器 Packet1 Packet2 DGSQ+ 调度 • 在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决 HOL • 从 Send-based 到 Receive-based ,避免网络入向流量大于网络容量,从源头避免网络拥塞 GSE 报文 信令请求获取信道资源 IN OUT 无阻塞 低时延 无损 高带宽 vs • 逐流负载均衡 → 高时延 甚至 丢包 • 容器负载均衡 → 长尾时延低,网络利用率高 低时延 100 0 流量负载 ( % ) 报文 时延 非均匀到达模型下 时延 vs 负载 负载均衡和重排序 负载均衡方式 轮询 随机 基于拥塞感知 • 每个转发节点根据自身负载情况对 PKTC 进行负载均衡,且同 PKTC 内的报文转发路径相同,高精度负载均衡 方 式,消除网络微突发,获得转发低延迟 • 目的节点依照 PKTC 为单位进行容器间解乱序,同 PKTC 内报文严格保序 容器间排序 大大降低排序压力 ... GSF GSF GSP GSP GSP ... 容器 1 容 器 2 目录 以太网新调度机制— GSE 以太网新接口速率— B400GE 以太网新安全方案— PHYSec IEEE802.3 B400GE 标准目标演进 IEEE P802.3df&dj 800GE 和 1.6TE 规范目标 电通道 以太速率 信号速率 50m MMF 100m MMF 500m SMF 2km SMF 10km SMF 40km SMF AUI BP Cu 800Gb/s 100Gb/s 800GAUI-8 800GBASE- KR8 800GBASE- CR8 8 pairs 800GE-VR8 8 pairs 800GE-SR8 8 pairs 800GE-DR8 8 pairs 800GE-DR8-2 200Gb/s 800GAUI-4 800GBASE- KR4 800GBASE- CR4 4 pairs 800GE-DR4 • 4 pairs 800GE- DR4-2 • 4 λ 800GE-FR4 4 λ 800GBASE-LR4 800Gb/s 1 pair 800GE-LR1 1 pair 800GE-ER1 1.6Tb/s 100Gb/s 1.6TAUI-16 200Gb/s 1.6TAUI-8 1.6TBASE- KR8 1.6TBASE- CR8 1.6TBASE-DR8 1.6TBASE-DR8-2 802.3df 802.3dj 802.3dj 智算中心内光互联 智算中心间光互联 潜在继续分化出子项目 200G/lane 光 + 电 Baseline D1.0 D2.0 D3.0 802.3dj 2022 2024 2023 2026+ 800GE(4×200G) 1.6TbE(8x200G) 2025 2021 D1.0 D2.0 D3.0 100G/lane 光 + 电 800GE(8x100G) 802.3df 200G/lane 电 800G 单波相干 D1.0?/D2.0? 800GE(1×800G) 1.6TE(2×800G)? 800GE(4×200G) 1.6TbE(8x200G) B400GE 标准演进时间线 B400G 以太网技术标准化进展 800Gbps 以太网标准 802.3df :单通道 100Gb/s 的 800G 以太网标准,目前已完成 Task Force Review 形成 D3.1 版本草案 “IEEEP802.3df™/D3.1,14Nov.2023” ,正在进行标准协会 (SA) 范围审查 802.3dj :单通道 200Gb/s FEC 采用低复杂度 Hamming(128,120) 内码级联 RS(544,514) 外码; PMA 逻辑层方案已确定,光层 Baseline 目前还未确定,仍处于技术讨论阶段,需要更长的时间完成 方案收敛 802.3dj :面向 10km 和 40km 场景的单波 800Gbps 相干标准进展缓慢, 800GE LR1 已确定采用 KP4+BCH 的 FEC 方案,但 O 波动和 C 波段之争逐渐白热化; 800G ER1 采用相干已获得业界共 识, FEC 和 光层 PMD 方案尚未明确 1.6Tbps 以太网标准 802.3dj : 1.6TE PCS/FEC 方案已确定,电接口形态包括 16 通道 100Gbps(16AUI-16) 和 8 通道 200Gbps(1.6TAUI-8) ; 1.6T 500m/2km PMD 子层方案尚未明确, 2km 采用相干技术可行性更高 1.6Tbps LPO 和 CPO 等技术已出现商用产品形态,在智算中心场景也将具有广泛的应用潜力 推动 800G 10km 目标立项,确立相干技术路 线 中国移动积极参与并推动 IEEE802.3df&dj 工作组完成 800G 10km 目标立项,完成 800G 10km 相干技术路线确立,提交 10 余篇标准文稿 需求文稿 Application Requirement for Beyond 400GE from Telecom Operators’ Perspective 分析文稿 提出 B400GE 需求,引领技术方 向 Towards consensus on a coherent based 800G 10 / 40 km specification 800G 10km 方案对比分析,凸显相干方案优势 Consideration on 800Gb/s coherent solutions for 10km 800G-LR1/ER1 的 GMP bypass 方案分析 标准文稿 提出 800G 10/40km 发射和接收标准规范建 议 提出基于 oFEC 的 800G 10km/40km 规范建 议 提出 800G-LR1/ER1 与 800ZR 一致性规范建 议 标准文稿 分析文稿 Considerations on GMP bypass for 800G-LR1/ER1 Update to oFEC-based single lambda baseline for 10km and 40km objectives 标准文稿 Alignment of 800GBASE-LR1 and 800GBASE-ER1with OIF800ZR Implementations- a baseline proposal 14 800GE(8×100G) 500m/2km 高速接口测试 本次测试 800GE 短距光模块性能整体较为稳定,模块功耗在 15w 左右和工作温度在 50~60℃ 范围仍有待优化空间; 800GE 光模块与路由器设备和测试仪适配性能良好,业界支持 800GE 设备厂家还较为单一 • 测试拓扑:可插拔光模块插入测试仪表进行环回测试 • 测试内容:非成帧误码率、 FEC 功能、发射机频率偏移、收发传输时延、 通道时延偏差、固件功能等光模块性能测试 800GE 光模块 性能测试 800GE 光模块 与路由器设备 适配测试 模块类型 A 厂商 B 厂商 500m 500m 2km 500m 500m 非成帧误码 率 通道 1 1.0e-09 6.5e-10 3.3e-09 1.1e-07 3.3e-06 通道 2 3.9e-10 1.6e-10 3.8e-08 2.3e-07 4.9e-06 通道 3 1.4e-10 9.6e-10 1.7e-08 4.3e-08 1.6e-06 通道 4 6.9e-11 8.4e-11 2.5e-08 4.9e-08 3.8e-06 通道 5 2.7e-09 2.4e-09 2.3e-08 4.8e-08 2.3e-06 通道 6 6.5e-10 6.0e-10 3.4e-08 6.1e-08 1.7e-06 通道 7 2.0e-08 4.5e-09 3.6e-08 4.6e-09 3.0e-07 通道 8 1.1e-10 1.0e-09 3.4e-08 6.9e-08 1.8e-06 模块时延 传输时延 51ns 52ns 43ns 92ns 90ns 时延抖动 3ns 3ns 4ns 4ns 3ns • 测试拓扑:路由器设备 800G 接口对接测试仪表进行互通测试 • 测试内容:包括流量转发功能、业务功能等设备能力测试 注: 802.3df 规定的非成帧误码率 BER≤2.4e–4 目录 以太网新调度机制— GSE 以太网新接口速率— B400GE 以太网新安全方案— PHYSec PHYSec :物理层加密,更低时延、更低开销、协议透 明 1995 1994 2006 Now L5 L4 L3 L2 物理层 Time MACSec PHYSec Software + hardware Hardware Hardware TLS/DTLS MAC IP TCP software MAC IP MAC MAC Cipher text Cipher text Cipher text Cipher text RDMASec Hardware 2022 UDP Cipher text MAC IP IPSec ? 智算中心基础设施承载大量数据传输处理,安全诉求极高; RDMASec 、 MACSec 等安全方案在加解密带宽开销、 时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞 Packet MAC PCS PMA PMA PMD xAUI PHYSec 光模块加密 接口芯片加密 Packet MAC PCS PMA PMA PMD xAUI PHYSec or 探索新层次:将传统密码学思想应用到以太网物理层— PHYSec ,解决现有技术方案的安全漏洞与性能瓶颈,具 有 极低开销、时延以及低功耗和成本等优势 L1.5 层 PHYSec :基于“ 64B/66B 码块”的 PHY 芯片实现 MAC (Preamble+Padding+FCS) RS AM Deskew AM Lock RS-FEC Symbol distribution Reorder PMA En/Decode (64B/66B) 256B/257B (De)Scramble Distribution/Interleave MAC (Preamble+Padding+FCS) RS AM Deskew AM Lock RS-FEC Symbol distribution Reorder PMA En/Decode (64B/66B) 256B/257B (De)Scramble Distribution/Interleave PMD PMA PMD PMA Dencryption Encryption • 技术优势: 安全功能硬化,高吞量 安全加密能力不占用设备 CPU 资源,安全能力卸 载 实现底层光通道不感知 (OTN/SPN) 的端到端数据加密 加密后的 64B/66B 400GE 400GE 400GE 400G OTN 64B/66BGMPOTU OTUGMP64B/66B L1.5-PHYSec PHY 芯 片 Serdes 光模块 光模块 PHY 芯 片 Serdes 400GE L1.5-PHYSec L1 层 PHYSec :基于“比特流”的光模块实现 MAC (Preamble+Padding+FCS) RS Deskew AM Lock RS-FEC Symbol distribution Reorder PMA En/Decode (64B/66B) 256B/257B (De)Scramble AM Distribution/Interleave MAC (Preamble+Padding+FCS) RS AM Deskew AM Lock RS-FEC Symbol distribution Reorder PMA En/Decode (64B/66B) 256B/257B (De)Scramble Distribution/Interleave PMD PMA Encryption AM Lock PMD PMA AM Lock Dencryption • 技术优势: 安全功能可插拔、硬化,高吞量 无需升级设备硬件,即可具备安全加密能力 安全加密能力不占用主设备资源,安全能力卸载 实现端口 - 端口的链路级数据加解 密 AM AM AM AM VLane1 VLane2 VLane3 VLane4 400GE L1-PHYSec PHY 芯 片 Serdes 光模块 光模块 PHY 芯 片 Serdes L1-PHYSec 400GE 总结与展望 • AI/ML 带来海量算力需求持续增长,新型智算中心网络涉及技术领域多, 国 内外尚处在技术研究阶段,创新机遇大,不确定性也大 • GSE 最大限度兼容以太网生态,凝聚产业力量,形成自主可控、标准开放 的 技术体系,成为产业共识 • B400G 高速接口标准和商用化进程相对稳定,须重点关注 B400G 相干技术 实 现复杂度,谨慎评估功耗成本等因素 • 以太网物理层高安全能力有待进一步增强, PHYSec 将成为新的安全解决方 案 • 业界共同推动 B400G 以太网技术成熟和商用,助力智算中心快速发展 谢谢聆听 ! 中国移动研究院公众号二维码 中移智库公众号二维码
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
19 页请下载阅读 -
文档评分


2025年云智算光互连发展报告-中国移动