2025年华为园区网络星闪SLE物联数采技术白皮书-华为版权所有 © 华为技术有限公司 4 星闪无线通信系统 星闪接入层根据实现功能的不同分为管理节点(G 节点)和终端节点(T 节点),其中 G 节点为其覆 盖下的 T 节点提供连接管理、资源分配、信息安全等接入层服务。星闪接入层实现了 G 节点和 T 节点的 上层业务数据在空口的传输交互。考虑到业务场景对于无线短距离通信存在着差异化的传输需求,目前 星闪接入层为星闪上层提供 于星闪无线通信节点的注册感知、QoS 策略管理以及通信状态监控,实现 5G 核心网对其覆盖下的星闪 无线通信网络的统一管理和维护。 1.2.2 星闪通信场景与系统架构 1.2.2.1 通信场景 星闪无线通信系统可支持的短距离通信场景见下图。根据通信双方的星闪底层节点类型不同,可以 分为: a)节点和 T 节点之间的通信; b)不同 G 节点之间的通信; c)不同 T 节点之间通过 节点之间通过 G 节点进行中继通信。 星闪无线通信系统支持的短距离通信场景 注 1:对于 G 节点之间进行多域协调与管理的通信场景,在连接建立过程中,需要其中一个 G 节点 退回到 T 节点的身份模式并发起向另一个 G 节点的连接; 注 2:G 节点和 T 节点之间通信可以采用 SLB 和/或 SLE。 华为园区网络星闪 SLE 物联数采技术白皮书 版权所有 © 华为技术有限公司10 积分 | 29 页 | 1.93 MB | 1 月前3
全球计算联盟GCC:2025年异构算力协同白皮书......................................................................................25 5.2 主机级:超节点算力异构...............................................................................................25 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 细化调度。针对异构 算力计算能力差距,面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分 等能力,实现跨厂商算力的弹性按需调度;面向大模型推理场景,支持单机多卡异构分布式 推理和跨节点分布式异构推理等多种形式,适配模型推理不同阶段算力需求特性,精细化调 度实现异构算力降本增效;构建大模型训练和推理混合部署的调度底座,实现训推任务的动 态、实时切换,化解算力潮汐矛盾,完成从集群到设备级的异构算力精细化调度,实现异构10 积分 | 31 页 | 1.21 MB | 3 月前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多 GPU 连接。典型 技术包括 PCIe 与 NVLink,其中最新一代 NVLink[4] 5.0 点对点带宽 高达 1800 GB/s,并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 图 1-1 智算中心网络与网络协议栈 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做 网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带 宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的 控制能力,基于以太网(如 RoCEv2、InfiniBand)传输协议,支持复 其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器 需与 Top-of-Rack(ToR)交换机建立至少 2 条 400G 上行链路,并在 Leaf 层与 Spine 层交换节点之间形成全互联结构,则光是 Leaf 层汇 聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向 上扩展 Leaf 层与 Spine 层的连接关系时,每增加一层交换所需的端口 数将指数20 积分 | 53 页 | 1.71 MB | 3 月前3
2025年云智算光互连发展报告-中国移动........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设 计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同 优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应 间使用 OCS 进行互连,如图 8 所示。在该组网下,通 过 OCS 灵活调整拓扑的能力,隔离故障节点提升可用性,集群可减 少 50 倍停机时间,并通过按需定制拓扑,提升 30%的吞吐量。除此 之外,OCS 在网络成本和网络功耗都有明显收益。 云智算光互连发展报告 图 8 谷歌 TPU 的超节点架构 国内主要由华为主导,目前推出了 DC-OXC 解决方案,其通过上 层的算网协同模块,对底层链路进行流量调度。通过在智算集群等20 积分 | 32 页 | 2.80 MB | 3 月前3
中国联通数字化监控平台稳定性保障工具落地实践故障处于被动防御,救火,运维大数据未被合理价值挖掘 工具重复:工具按烟囱式建设,能力分散 能力割裂:运维工具能力割裂不成体系 数据孤岛:应用、数据库、中间件、云平台、 基础设施各管自身 维护对象:系统节点、微服务数量几何级数增加 调用关系:从简单对应到极其复杂,人力维护无法胜任 数据分片、异地存储,传统维护模式难以为继 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已 云平台维护方自定义 Promethues exporter 网络拓扑同步上报 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用trace 方法调用明细 云平台健康度、集群节点、pod容 器指标 网关:KONG、LB、Nginx等 中间件:Kafka、MQ、Zookeeper 等 数据库:MySQL、Clickhouse、 Elasticsearch等 agent 系统C agent Flink kafka 告警计算 指标聚合 明细分析 Nacos Clickhouse 存储集群 跨数据中心链路自动串连 业务报文查询 调度转发节点 存储集群 查询 业务配置打标 应用根因定位 应用性能分析 链路调用清单明细,方法级分析 链路自动拓扑 全层级告警墙 应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站10 积分 | 24 页 | 9.74 MB | 8 月前3
中国联通数字化监控平台稳定性保障工具落地实践端到端稳定性保障体系缺失, 自动化、智能化故障处理能力不足 n 故障处理过多依赖专家经验,故障没有沉淀为有效的资产 n 故障处于被动防御,救火,运维大数据未被合理价值挖掘 分布式架构挑战 n 维护对象: 系统节点、微服务数量几何级数增加 n 调用关系:从简单对应到极其复杂,人力维护无法胜任 n 数据分片、异地存储,传统维护模式难以为继 运维生态挑战 n 工具重复: 工具按烟囱式建设,能力分散 n 能力割裂:运维工具能力割裂不成体系 核心业务场景、核心业务环节、核 心业务链路拓扑 白屏、慢响应、弹窗日志等 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用 trace 方法调用明细 云平台健康度、集群节点、 pod 容 器指标 网 关 : KONG 、 LB 、 Nginx 等 中 间 件 : Kafka 、 MQ 、 Zookeeper 等 数 据 库 : MySQL 、 Clickhouse 跨数据中心链路自动串连 业务配 置 打标 存储集群 实例 id 、容 器 id 网络设备 主机 ip 、机 房 云平台 链路调用清单明细,方法级分析 告警收敛 根因定位 存储集群 调度转发节点 链路自动拓扑 告警配 置 告警计算 应用性能分析 业务、应用维度链路展现 kafka Redis 告警计算 指标聚合 应用实例、主机 串 联 明细分析 agent agent20 积分 | 24 页 | 2.00 MB | 8 月前3
2025年中国算力中心行业白皮书码等基础处理需求,致使单平台日均算力消耗超250PFlops;二是用户对高清画质与低延迟播放的要求,让带宽成本在算力中心运营支出中的占比升至43%。用户 对实时渲染、内容分发网络的算力需求迫使企业加速部署边缘计算节点,直接驱动数据中心建设进入快车道,服务于移动互联网业务的智能算力设施占比显著提升。 移动互联网接入流量 33.9% 26.0% 6.8% 5.8% 5.5% 22.0% 移动视频 移动社交 承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率,大模型厂商对算力中心提出更高要求 算力中心 ✓ 网络通信:集群内部节点之间更高的网 络带宽与更低的网络延迟 ✓ 能源供应:稳定的大规模电力供应 • 算力中心定制批发模式有效满足大模型训练需求 ✓ 运维管理:专业的、7*24小时的运维服务 • 训练时间是大模型厂商的关键竞争要素 这吸引力更多企业加入到AI应用的开发,促进了AI应用的创新性与多样化发展,同时加速了AI 应用的市场商业化进程。 • 针对时延敏感型AI应用(如自动驾驶、实时金融交 易),企业需优先选择城市群内部及周边算力节点 部署推理服务,以满足毫秒级响应需求。 • AI应用推理需求的爆发将驱动算力中心零售业务的 下游需求持续增长。 智能客服 ✓ 头部流量应用接入DeepSeek, 显著推动了AI大模型技术向日10 积分 | 55 页 | 7.12 MB | 1 月前3
迈向智能世界白皮书2025-韧性DC白皮书-华为制要严格”的场景,那么多地多活是目前唯一 能同时满足三者的架构选择,即:在双活基础 上升级到多地多中心多活架构。其核心价值在 于打破数据中心扩容天花板、激活闲置资源、 解决区域性灾难(如地震、城市电网崩溃)时 所有节点同时失效问题。相比双活来说,多活 容灾要解决远距离(数百公里甚至上千公里) 数据同步一致性和多中心间互访网络时延稳定 的技术难题。 双活容灾系统聚焦解决两地服务零中断、 数据零丢失的问题 制,实现数据的最终一致性 (RPO≈0)。 数据存储层,采用存算分离架构。对于落盘的数据 库事务日志(Xlog),存储设备在同城两个数据 中心之间采用存储层双向同步复制技术,确保所有 存储节点的Xlog数据一致性,具备互为备份能 力 。 对 于 异 地 中 心 , 采 用 存 储 单 向 异 步 复 制 技 术,将同城数据库Xlog日志复制到异地存储,实 现Xlog冗余备份。 首先,云计算、分布式计算的成熟发展为多地多中 心 多 活 容 灾 提 供 了 技 术 基 础 。 云 计 算 通 过 微 服 务、容器化和集群扩展实现弹性负载均衡,而分布 式计算的容错机制依赖多地节点协同,共同保障系 统高可用性。 2、企业规划多地多活容灾系统的驱动力 算、存储、网络等硬件资源,以及虚拟化、容器 化等软件资源,构建成“逻辑上统一、物理上可 分布”的资源集群,使所有资源始终处于“可调10 积分 | 53 页 | 7.03 MB | 22 天前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战: 型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 图 1-2 算力随着卡数规模扩大难以线性扩展 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片 飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配10 积分 | 52 页 | 5.24 MB | 3 月前3
中国电信全光网3.0技术白皮书方向转型。这一切的融合与变革,均依赖光网络作为核心纽带。 国家相继出台相关政策,强化光网络的核心作用。《深入实施“东 数西算”工程加快构建全国一体化算力网的实施意见》指出,要“加 快推动国家枢纽节点内部、国家枢纽节点之间、国家枢纽节点与非国 家枢纽节点间确定性、高通量网络建设,打造高速泛在、安全可靠的 算力传输网络”。《关于开展万兆光网试点工作的通知》强调,“在 有条件、有基础的城市和地区,聚焦小区、工厂、园区等重点场景, 、泛在协同、 智能感知的光网络,为算力、存力与运力等所有在网资源构建高效集 约的全光联接底座。同时融合网络自智技术,覆盖光网络“规划、建 设、维护、优化、运营”全生命周期,满足所有用户、终端、节点和 数据中心之间的海量数据快速交换与智能调度需求。 2)光感业融合:通过将光通信与光感知深度耦合,实现从“连 接通道”向“感知中枢”跃迁,推动光网络从单一传输向融合主动感 知与差异化业务的 际通信。同时,积极探索并获取中东、中亚、南亚及东南亚大湄公河 区域等方向陆缆穿境资源,拓宽陆地光缆通道,推动多个陆海光缆联 运通道建设,为海洋光缆网提供强有力的业务分担与安全备份。 国内骨干光缆网围绕国家算力枢纽节点,构建高效直达(低时延) 和战略底座(广覆盖)协同的立体化布局,高效连接超大型/大型数据 中心,覆盖枢纽、核心机楼,衔接亚美欧的国际通信出入口局和海缆 登陆站。构建干线光缆城区终接新型结构,优化局房基础设施布局,10 积分 | 42 页 | 2.25 MB | 22 天前3
共 95 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10
