2025年华为园区网络星闪SLE物联数采技术白皮书-华为版权所有 © 华为技术有限公司 4 星闪无线通信系统 星闪接入层根据实现功能的不同分为管理节点(G 节点)和终端节点(T 节点),其中 G 节点为其覆 盖下的 T 节点提供连接管理、资源分配、信息安全等接入层服务。星闪接入层实现了 G 节点和 T 节点的 上层业务数据在空口的传输交互。考虑到业务场景对于无线短距离通信存在着差异化的传输需求,目前 星闪接入层为星闪上层提供 于星闪无线通信节点的注册感知、QoS 策略管理以及通信状态监控,实现 5G 核心网对其覆盖下的星闪 无线通信网络的统一管理和维护。 1.2.2 星闪通信场景与系统架构 1.2.2.1 通信场景 星闪无线通信系统可支持的短距离通信场景见下图。根据通信双方的星闪底层节点类型不同,可以 分为: a)节点和 T 节点之间的通信; b)不同 G 节点之间的通信; c)不同 T 节点之间通过 节点之间通过 G 节点进行中继通信。 星闪无线通信系统支持的短距离通信场景 注 1:对于 G 节点之间进行多域协调与管理的通信场景,在连接建立过程中,需要其中一个 G 节点 退回到 T 节点的身份模式并发起向另一个 G 节点的连接; 注 2:G 节点和 T 节点之间通信可以采用 SLB 和/或 SLE。 华为园区网络星闪 SLE 物联数采技术白皮书 版权所有 © 华为技术有限公司10 积分 | 29 页 | 1.93 MB | 1 月前3
全球计算联盟GCC:2025年异构算力协同白皮书......................................................................................25 5.2 主机级:超节点算力异构...............................................................................................25 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 细化调度。针对异构 算力计算能力差距,面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分 等能力,实现跨厂商算力的弹性按需调度;面向大模型推理场景,支持单机多卡异构分布式 推理和跨节点分布式异构推理等多种形式,适配模型推理不同阶段算力需求特性,精细化调 度实现异构算力降本增效;构建大模型训练和推理混合部署的调度底座,实现训推任务的动 态、实时切换,化解算力潮汐矛盾,完成从集群到设备级的异构算力精细化调度,实现异构10 积分 | 31 页 | 1.21 MB | 3 月前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多 GPU 连接。典型 技术包括 PCIe 与 NVLink,其中最新一代 NVLink[4] 5.0 点对点带宽 高达 1800 GB/s,并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 图 1-1 智算中心网络与网络协议栈 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做 网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带 宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的 控制能力,基于以太网(如 RoCEv2、InfiniBand)传输协议,支持复 其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器 需与 Top-of-Rack(ToR)交换机建立至少 2 条 400G 上行链路,并在 Leaf 层与 Spine 层交换节点之间形成全互联结构,则光是 Leaf 层汇 聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向 上扩展 Leaf 层与 Spine 层的连接关系时,每增加一层交换所需的端口 数将指数20 积分 | 53 页 | 1.71 MB | 3 月前3
2025年云智算光互连发展报告-中国移动........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设 计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同 优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应 间使用 OCS 进行互连,如图 8 所示。在该组网下,通 过 OCS 灵活调整拓扑的能力,隔离故障节点提升可用性,集群可减 少 50 倍停机时间,并通过按需定制拓扑,提升 30%的吞吐量。除此 之外,OCS 在网络成本和网络功耗都有明显收益。 云智算光互连发展报告 图 8 谷歌 TPU 的超节点架构 国内主要由华为主导,目前推出了 DC-OXC 解决方案,其通过上 层的算网协同模块,对底层链路进行流量调度。通过在智算集群等20 积分 | 32 页 | 2.80 MB | 3 月前3
2025年中国算力中心行业白皮书码等基础处理需求,致使单平台日均算力消耗超250PFlops;二是用户对高清画质与低延迟播放的要求,让带宽成本在算力中心运营支出中的占比升至43%。用户 对实时渲染、内容分发网络的算力需求迫使企业加速部署边缘计算节点,直接驱动数据中心建设进入快车道,服务于移动互联网业务的智能算力设施占比显著提升。 移动互联网接入流量 33.9% 26.0% 6.8% 5.8% 5.5% 22.0% 移动视频 移动社交 承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率,大模型厂商对算力中心提出更高要求 算力中心 ✓ 网络通信:集群内部节点之间更高的网 络带宽与更低的网络延迟 ✓ 能源供应:稳定的大规模电力供应 • 算力中心定制批发模式有效满足大模型训练需求 ✓ 运维管理:专业的、7*24小时的运维服务 • 训练时间是大模型厂商的关键竞争要素 这吸引力更多企业加入到AI应用的开发,促进了AI应用的创新性与多样化发展,同时加速了AI 应用的市场商业化进程。 • 针对时延敏感型AI应用(如自动驾驶、实时金融交 易),企业需优先选择城市群内部及周边算力节点 部署推理服务,以满足毫秒级响应需求。 • AI应用推理需求的爆发将驱动算力中心零售业务的 下游需求持续增长。 智能客服 ✓ 头部流量应用接入DeepSeek, 显著推动了AI大模型技术向日10 积分 | 55 页 | 7.12 MB | 1 月前3
迈向智能世界白皮书2025-韧性DC白皮书-华为制要严格”的场景,那么多地多活是目前唯一 能同时满足三者的架构选择,即:在双活基础 上升级到多地多中心多活架构。其核心价值在 于打破数据中心扩容天花板、激活闲置资源、 解决区域性灾难(如地震、城市电网崩溃)时 所有节点同时失效问题。相比双活来说,多活 容灾要解决远距离(数百公里甚至上千公里) 数据同步一致性和多中心间互访网络时延稳定 的技术难题。 双活容灾系统聚焦解决两地服务零中断、 数据零丢失的问题 制,实现数据的最终一致性 (RPO≈0)。 数据存储层,采用存算分离架构。对于落盘的数据 库事务日志(Xlog),存储设备在同城两个数据 中心之间采用存储层双向同步复制技术,确保所有 存储节点的Xlog数据一致性,具备互为备份能 力 。 对 于 异 地 中 心 , 采 用 存 储 单 向 异 步 复 制 技 术,将同城数据库Xlog日志复制到异地存储,实 现Xlog冗余备份。 首先,云计算、分布式计算的成熟发展为多地多中 心 多 活 容 灾 提 供 了 技 术 基 础 。 云 计 算 通 过 微 服 务、容器化和集群扩展实现弹性负载均衡,而分布 式计算的容错机制依赖多地节点协同,共同保障系 统高可用性。 2、企业规划多地多活容灾系统的驱动力 算、存储、网络等硬件资源,以及虚拟化、容器 化等软件资源,构建成“逻辑上统一、物理上可 分布”的资源集群,使所有资源始终处于“可调10 积分 | 53 页 | 7.03 MB | 22 天前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战: 型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 图 1-2 算力随着卡数规模扩大难以线性扩展 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片 飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配10 积分 | 52 页 | 5.24 MB | 3 月前3
中国电信全光网3.0技术白皮书方向转型。这一切的融合与变革,均依赖光网络作为核心纽带。 国家相继出台相关政策,强化光网络的核心作用。《深入实施“东 数西算”工程加快构建全国一体化算力网的实施意见》指出,要“加 快推动国家枢纽节点内部、国家枢纽节点之间、国家枢纽节点与非国 家枢纽节点间确定性、高通量网络建设,打造高速泛在、安全可靠的 算力传输网络”。《关于开展万兆光网试点工作的通知》强调,“在 有条件、有基础的城市和地区,聚焦小区、工厂、园区等重点场景, 、泛在协同、 智能感知的光网络,为算力、存力与运力等所有在网资源构建高效集 约的全光联接底座。同时融合网络自智技术,覆盖光网络“规划、建 设、维护、优化、运营”全生命周期,满足所有用户、终端、节点和 数据中心之间的海量数据快速交换与智能调度需求。 2)光感业融合:通过将光通信与光感知深度耦合,实现从“连 接通道”向“感知中枢”跃迁,推动光网络从单一传输向融合主动感 知与差异化业务的 际通信。同时,积极探索并获取中东、中亚、南亚及东南亚大湄公河 区域等方向陆缆穿境资源,拓宽陆地光缆通道,推动多个陆海光缆联 运通道建设,为海洋光缆网提供强有力的业务分担与安全备份。 国内骨干光缆网围绕国家算力枢纽节点,构建高效直达(低时延) 和战略底座(广覆盖)协同的立体化布局,高效连接超大型/大型数据 中心,覆盖枢纽、核心机楼,衔接亚美欧的国际通信出入口局和海缆 登陆站。构建干线光缆城区终接新型结构,优化局房基础设施布局,10 积分 | 42 页 | 2.25 MB | 22 天前3
广西区块链产业发展白皮书(2025年)ZK-Rollups 技术(零知识证明技术)、模块化架构及行业标准的 广西壮族自治区信息中心(广西壮族自治区大数据研究院) 广西区块链发展白皮书(2025 年) — 4 — 推进,不同链之间有效实现轻节点验证和跨链状态同步,将跨链 结算时间压缩至毫秒级,大幅提升互操作性。在安全可靠方面, 抗量子技术通过升级加密算法、优化密钥管理及增强异构链兼容 性,抗量子签名算法,通过桥接器生成目标链密钥对,为跨链生 张态势,但监管协调、网络安全等挑战仍存在。在工业互联网建 设方面,星火·链网作为新型数字基础设施的产业生态价值正在 不断增强,截至 2025 年 6 月,“星火·链网”超级节点基础设施建 设已形成规模化应用,集聚效应不断释放,已在全国 11 个城市完 成超级节点布局,骨干节点覆盖超过 60 个城市,探索形成了数字 资产、产业金融、司法存证等一批典型应用场景。在可信数据空 间建设方面,运用区块链技术解决互信互认问题,进一步释放数 础设施,建设“主链-子链”多级架构,提供公共存证、数据溯源、 跨链协同服务等公共服务,支撑数字政府、智慧农业、供应链金 融、电子证照等应用创新。该平台目前已完成信创适配,开发数 据要素服务、隐私计算等平台,可实现多节点间的协同计算和数 据隐私保护,提升安全可控性,聚焦可信数据空间构建,开展可 信管控技术攻关,推动数据要素畅通流动和数据要素价值释放, 逐步形成支撑广西数字经济和数字社会发展的可信新型数字基础10 积分 | 35 页 | 594.04 KB | 3 月前3
2025年算力运维体系技术白皮书-中国信通服务握芯片级知识、能耗建模、分布式系统调度等技能,甚至需与算法工程师协作 优化算力使用效率。 算力运维体系技术白皮书 - 4 - (3). 传统运维故障多表现为单节点或单业务中断,影响范围较小,应对策略以 快速替换硬件、切换冗余节点为主;算力运维故障可能导致“算力雪崩”,影 响大规模任务行(如分布式训练失败);应对策略侧重预判性维护,通过传感 器实时监控硬件状态,利用 AI 算法预测老化趋势,并设计容错机制以保障任 训练时,各训练步骤需强同步,硬件故 障会致同步及训练失败,且受芯片架构、内存和 I/O 访问瓶颈等因素限制,模型算力 利用率较低。 从集群层面看,集群线性加速比表明,随集群规模扩大,其计算能力和支持的参 数规模增大,但受节点间通信能力、并行训练框架、算法调优等因素影响,无法使集 群有效算力线性提升。 因此,需系统性制定优化措施和运维服务,提升模型算力利用率和集群算力可用 度,保障集群稳定高效运行。 (2). 故障管理难度大 分彼此交织、协同工作,形成—个高度复杂的生态系统。在这种复杂环境下,传统的 观测工具和手段往往无法全面覆盖系统中的所有组件和数据流,从而导致全局可观测 性缺失,对问题的定位和修复变得异常困难。例如,数据在多个节点间流动,若某— 节点性能下降,由于缺乏足够的全局可观测性,很难快速判断是硬件故障、软件冲突 还是网络延迟导致的,从而造成故障修复延迟,影响整个智算集群的高效运行。 2 算力运维服务 2.1 基础设施运维10 积分 | 74 页 | 1.36 MB | 2 月前3
共 61 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
