面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库面向大规模智算集群场景光互连技术白皮书 (2025) I 面向大规模智算集群场景 光互连技术白皮书 (2025年) 发布单位:中国移动 编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 在开辟全新的技术路径和产业赛道。它通过先进封装将光引擎与电芯 片合封在一起,把电信号的传输距离从米级大幅压缩至毫米级,从而 改写了物理层互连架构,实现50%以上的系统能效提升。由此构建的 “芯片—设备—集群”一贯式全光互连架构,已被业界广泛认定为下 一代智算基础设施的关键技术。 本白皮书系统性剖析芯片级光互连技术的核心原理和架构设计, 深入探讨光源、调制器等关键器件的技术发展路径。同时,全面梳理10 积分 | 52 页 | 5.24 MB | 3 月前3
全球计算联盟GCC:2025年异构算力协同白皮书...........................................................................................25 5.3 集群级:跨域异构算力协同......................................................................................... 国内算力芯片起步晚但发展迅速,逐渐呈现“一超多强”的国产芯片产业格局,以下列 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 全互联架构,搭建“芯片—XPU-Lite 框架— 千卡 1.2 TB/s XPU-Link 集群—百度文心大模型”四级闭环,已在百度内部提供 90%以上文 心系列训练算力,日均稳态负载 85%+。 (3)壁仞科技采用 Chiplet 架构设计大算力芯片,其首款 GPGPU(General-Purpose Computing10 积分 | 31 页 | 1.21 MB | 3 月前3
2025年算力运维体系技术白皮书-中国信通服务设备到软件系统、从单一架构到多云环境、从被动响应到主动预防的全方位变革挑战, 亟需构建一套适配算力时代特征的系统化运维体系。 当前,算力基础设施正经历着通算、智算、边缘计算多态融合的发展阶段,高密 度计算集群、异构芯片架构、分布式存储网络以及云边协同部署等技术趋势,使得运 维对象从传统服务器扩展至 GPU/TPU 加速器、液冷系统、智能能效管理平台等多元组 件。同时,“双碳”战略推动下的绿色运维要求、数据安全法规强化带来的合规压力, 计算领域,处理自然语言、图像识别、语音识别等任务,以 GPU 为代表。 超算算力场景:面向科学研究、工程仿真等高性能计算场景的集群化计算能力, 应用于需极高计算能力的科研及工程领域,处理大量数据和复杂的科学计算任务,如 气象、医疗、生物、仿真等领域,以 HPC 为代表的计算集群。 1.1.3 算力运维与传统运维的区别 传统运维核心是“保稳定”,注重基础设施可靠性;算力运维核心是“提效率”, 个国家数据中心集群,“东数 西算”工程稳步推进,将东部海量数据传输至西部数据中心集群处理,充分利用西部 能源优势,降低运营成本。同时,大型互联网企业、科技巨头纷纷加大在算力领域的 投入,建设超大规模算力中心。 1.2.2 算力芯片结构多样化 算力中心和传统数据中心在服务器芯片结构上存在本质的差异。传统数据中心芯 片架构相对单一,主要以 CPU 为算力核心,基于 CPU 和云存储集群提供的相关云服务,10 积分 | 74 页 | 1.36 MB | 2 月前3
2025年中国算力中心行业白皮书存储设备、网络设备及管理运维系统四大核心要素构成。 • 算力资源的部署与利用离不开算力中心的支撑。核心使命是提供强 大的算力支持,以应对各类复杂的计算挑战,如数据处理、AI模型 训练等。 • 算力中心通过高速网络连接形成计算集群,提供高性能、高可靠性 和高可扩展性的计算能力,支持数据分析、模拟计算和人工智能等 复杂任务。 类型 设备种类 设备名称 IT设备 连接器 光纤 光模块 网络设备 交换机 路由器 算力设备 限。相较于传统云资源池以CPU为通用计算主体,当下以GPU为代表的芯片成为提供智能 算力的主力军。借助云计算实现零散智算资源集中与纳管的优势,各大云厂商纷纷在智算领域进行布局,形成千卡、万卡智能云集群,以云服务的方式提供可便捷 获取的智能算力。云计算与智算资源融合形成的智能云能够为大模型训练和推理提供充足的算力资源,已经成为促进人工智能领域发展的坚实底座。 年均复合增长率 2015-2021 2021-2023 大模型训练对算力中心提出更高要求 AI大模型的训练对算力中心提出了更高要求,涵盖集群化部署、高效网络通信、大规模电力供应及专业运维管理 等多个维度,促使算力中心的定制批发模式成为承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率,大模型厂商对算力中心提出更高要求 算力中心 ✓ 网络通信:集群内部节点之间更高的网 络带宽与更低的网络延迟 ✓ 能源供应:稳定的大规模电力供应10 积分 | 55 页 | 7.12 MB | 1 月前3
面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� × ��� ≈ 3 × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-2 所示2。 图 1-2 智算中心互联光链路类型 主流高速接口 400G/200G 光模块年失效率超 0.2%,千卡以上集群平均每年 发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会 引发链路闪断[4],如图 1-3 所示。 2 常见多模或单模光模块常为多通道架构,每通道含 CDR(时钟数据恢复,Clock0 积分 | 24 页 | 2.92 MB | 8 月前3
2025年云智算光互连发展报告-中国移动..................... 13 3.2 CPO 交换机在智算场景下的应用................................... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.......................... 率、抗干扰等物理 特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具 有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 致整个封装体的更换,因此对光引擎的良率、可靠性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片20 积分 | 32 页 | 2.80 MB | 3 月前3
华为:2025践行主机现代化:主机上云技术白皮书传统的主机硬件通常由专用处理器、内存、存储系统和 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全: (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 有限:一方面,传统主机的编程语言(如 CO 数据模型、存储引擎、SQL 语法、数据类 型以及事务机制上都存在显著差异 ,需提供具备广泛兼容性和较高自动化能力的数据库迁移工具,以高效 地完成数据类型、表结构、索引、约束等内容的映射和转换工作。 ③ 支持高吞吐与集群化的分布式缓存,灵活应对高并发访问对业务系统的冲击。 ④ 提供高可用的分布式事务调度能力,支持大规模任务并行调度,增强业务批处理能力。 ⑤ 提供高性能云内及云外接入中间件,以满足复杂云网络高效连接的需求。20 积分 | 63 页 | 32.07 MB | 3 月前3
中移智库:2025年任务驱动式智能互联技术白皮书任务驱动式智能互联技术白皮书 05 智能互联需求场景 在数智化转型的浪潮中,具身智能正在将人工智能从虚拟世界带入现实生活,成为推动产业智能化 升级的关键力量。从工业机器人的精密协作到人形机器人的灵活交互,从无人机集群的协同作业到 AGV 小车的群体协同,具身智能体正在重新定义智能系统与物理环境的交互模式。相较于传统的固 定业务模式,具身智能交互的通信需求呈现出高动态性、强突发性和强临时性三大特征。 第一, 其他机器人位置、工艺流程进度等多维信息,实时调整自身的作业策略和运动轨迹。 生产现场的动态变化对传统的预编程控制模式带来了巨大挑战。当某台机器人检测到零部件缺陷需 要更换,或者工件传输出现延迟时,整个机器人集群必须立即重新规划任务分配和协作时序。这种 动态重构需要机器人之间进行高频度、低延迟的状态信息交换,需要新型网络支撑密集的确定性通 信需求。 更为复杂的是,机器人的通信意图往往具有强烈的上下文相关性。同样是发送“位置信息”,在避 具身智能互联场景:通信意图感知难 任务驱动式智能互联技术白皮书 06 智能互联需求场景 第三,无人机集群场景——大规模协同与动态时变重组 在智慧物流的“最后一公里”配送中,50 架无人机需要在城市上空协同完成包裹派送任务。每架无 人机都是独立的智能体,具备路径规划、避障、降落等自主能力,但同时需要与其他无人机保持密 切协作。 集群飞行的复杂性在于其通信意图的高度动态性。在正常飞行状态下,无人机之间主要交换位置、10 积分 | 25 页 | 4.54 MB | 2 月前3
全国数智产业发展研究报告(2024-2025)纽节点,发展数据中心集群,引导数据中心集约化、规模化、 绿色化发展。 2022 年 2 月,国家发展改革委等四部委联合印发通知, 同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵 州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并启动 了张家口、芜湖、长三角生态绿色一体化发展示范区、韶关、 成都天府、重庆、和林格尔、贵阳、庆阳、中卫等 10 个国家 数据中心集群建设。 (3)工业和信息化部相关政策 目名单,加快培育大数据产业应用能力。 (4)科技部相关政策 科技部在数据领域相关技术研发方面长期部署国家重大 项目。前期,科技部通过 973 计划、863 计划、核高基重大 专项等国家科技计划,长期在大规模集群计算、服务器、处 理器芯片、基础软件等方面部署科研任务,部署内存计算、 网络大数据、媒体大数据等大数据研发任务,取得了阶段性 成效。“十三五”期间,科技部部署了区块链、网络空间安 全治理、高 日,北京市第十五届人民代表大会常务 委员会正式发布《北京市数字经济促进条例》,提出“支持 数字产业基础研究和关键核心技术攻关,支持企业发展数字 产业,培育多层次的企业梯队,推动数字产业向园区聚集, 培育数字产业集群”。 2023 年 6 月 20 日,北京市委、市政府发布《关于更好 发挥数据要素作用进一步加快发展数字经济的实施意见》 (北京“数据二十条”),提出“大力发展数据服务产业”, 包括数据生20 积分 | 236 页 | 8.61 MB | 3 月前3
迈向智能世界白皮书2025-韧性DC白皮书-华为面面,是一个复杂的系统工程,其复杂性不仅源自其超大规模、多组件、多层级的物理与数字结构,更来自 于要支撑动态多变的业务需求、适应外部环境不确定性与抵御多样化风险的要求。随着大模型参数规模越来 越大,对数据中心集群的大规模协作要求越来越高,在此背景下,任何单一故障都可能引发连锁反应,业务 可用面临前所未有的挑战。数据中心的可靠性和韧性已经成为制约AI发展的关键要素。因此,《韧性DC白皮 书》的发布恰逢其时 DC2 应用层双活 城市A DC1 应 用 层 数 据 层 基 础 设 施 层 复制 容器/虚机 DC1 容器/虚机 ELB 服务器 小时级故障快速拉起恢复 系统级双中心集群部署,无单点故障 存储级同步复制,数据零丢失 前期投入成本低 容灾能力可升级为全栈双活 主中心损坏后业务中断,需长时间恢复 资源利用率低,冷备无法供业务系统使用 优 点 缺 点 心级的负载均衡,当某个数据中心故障时(如断 电、网络中断),GSLB会自动切换流量到另一个 正常运行的同城中心,确保用户访问不中断。 应用平台层,采用灵活的无状态架构实现应用双 活。应用采用无状态集群,应用服务器不保存用户 会话数据(如登录状态),所有数据实时存储在数 据库中。SLB实现负载分担,将用户请求分发给任 意 一 台 可 用 的 应 用 服 务 器 , 即 使 部 分 服 务 器10 积分 | 53 页 | 7.03 MB | 22 天前3
共 55 条
- 1
- 2
- 3
- 4
- 5
- 6
