节点 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年华为园区网络星闪SLE物联数采技术白皮书-华为

版权所有 © 华为技术有限公司 4 星闪无线通信系统星闪接入层根据实现功能的不同分为管理节点（G 节点）和终端节点（T 节点），其中 G 节点为其覆盖下的 T 节点提供连接管理、资源分配、信息安全等接入层服务。星闪接入层实现了 G 节点和 T 节点的上层业务数据在空口的传输交互。考虑到业务场景对于无线短距离通信存在着差异化的传输需求，目前星闪接入层为星闪上层提供于星闪无线通信节点的注册感知、QoS 策略管理以及通信状态监控，实现 5G 核心网对其覆盖下的星闪无线通信网络的统一管理和维护。 1.2.2 星闪通信场景与系统架构 1.2.2.1 通信场景星闪无线通信系统可支持的短距离通信场景见下图。根据通信双方的星闪底层节点类型不同，可以分为： a）节点和 T 节点之间的通信； b）不同 G 节点之间的通信； c）不同 T 节点之间通过节点之间通过 G 节点进行中继通信。星闪无线通信系统支持的短距离通信场景注 1：对于 G 节点之间进行多域协调与管理的通信场景，在连接建立过程中，需要其中一个 G 节点退回到 T 节点的身份模式并发起向另一个 G 节点的连接；注 2：G 节点和 T 节点之间通信可以采用 SLB 和/或 SLE。华为园区网络星闪 SLE 物联数采技术白皮书版权所有 © 华为技术有限公司

10 积分 | 29 页 | 1.93 MB | 4 月前
3
全球计算联盟GCC：2025年异构算力协同白皮书

......................................................................................25 5.2 主机级：超节点算力异构...............................................................................................25 国产芯片为例：（1）昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色，搭建开放生态，形成“芯片一框架一集群一应用”的四级闭环，已支持建造多个万卡级集群，2025 年推出 384 卡超节点新形态，最大算力可达 300 PFLOPS，48 TB 高速内存，配备创新的高速互联总线，实现 384 卡一台计算机运行，大幅提升大模型训推效率。（2）昆仑芯三代 XPU-R，自研 XPU-Link 细化调度。针对异构算力计算能力差距，面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分等能力，实现跨厂商算力的弹性按需调度；面向大模型推理场景，支持单机多卡异构分布式推理和跨节点分布式异构推理等多种形式，适配模型推理不同阶段算力需求特性，精细化调度实现异构算力降本增效；构建大模型训练和推理混合部署的调度底座，实现训推任务的动态、实时切换，化解算力潮汐矛盾，完成从集群到设备级的异构算力精细化调度，实现异构

10 积分 | 31 页 | 1.21 MB | 6 月前
3
湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

已成为当前智算网络发展重要挑战。智算中心网络如图 1-1 所示，可按通信范围分为机内互联（Intra-Node）与机外互联（Inter-Node）两类：机内互联：主要用于单服务器或单节点内的多 GPU 连接。典型技术包括 PCIe 与 NVLink，其中最新一代 NVLink[4] 5.0 点对点带宽高达 1800 GB/s，并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联，支撑分布式训练中的全互联需求。图 1-1 智算中心网络与网络协议栈无论采用机内互联还是采用机外互联，都要采用电交换芯片来做网络流量交换。然而，随着模型规模和节点数的增加，电交换面临带宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起在交换技术方面，电交换技术具有成熟性、协议兼容性和灵活的控制能力，基于以太网（如 RoCEv2、InfiniBand）传输协议，支持复其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器需与 Top-of-Rack（ToR）交换机建立至少 2 条 400G 上行链路，并在 Leaf 层与 Spine 层交换节点之间形成全互联结构，则光是 Leaf 层汇聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向上扩展 Leaf 层与 Spine 层的连接关系时，每增加一层交换所需的端口数将指数

20 积分 | 53 页 | 1.71 MB | 6 月前
3
2025年云智算光互连发展报告-中国移动

........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在数据中心内部，随着服务器端口速率向 400G、800G 乃至 1.6T 演进，光互连技术方案正迅速取代铜缆，成为数据中心以及超节点场景下的优选方案。随着 LPO、CPO 等技术引入数据中心架构，光电协同设计已成为芯片集成的核心技术需求，芯片-封装-系统级的多维协同优化成为新的挑战。与此同时，随着全光交换技术的逐步小规模应间使用 OCS 进行互连，如图 8 所示。在该组网下，通过 OCS 灵活调整拓扑的能力，隔离故障节点提升可用性，集群可减少 50 倍停机时间，并通过按需定制拓扑，提升 30%的吞吐量。除此之外，OCS 在网络成本和网络功耗都有明显收益。云智算光互连发展报告图 8 谷歌 TPU 的超节点架构国内主要由华为主导，目前推出了 DC-OXC 解决方案，其通过上层的算网协同模块，对底层链路进行流量调度。通过在智算集群等

20 积分 | 32 页 | 2.80 MB | 6 月前
3
中国联通数字化监控平台稳定性保障工具落地实践

故障处于被动防御，救火，运维大数据未被合理价值挖掘  工具重复：工具按烟囱式建设，能力分散  能力割裂：运维工具能力割裂不成体系  数据孤岛：应用、数据库、中间件、云平台、基础设施各管自身  维护对象：系统节点、微服务数量几何级数增加  调用关系：从简单对应到极其复杂，人力维护无法胜任  数据分片、异地存储，传统维护模式难以为继随着云原生技术的不断成熟，企业数字化转型也在不断加速，企业IT架构进入云原生时代，多云多集群部署已云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容器指标  网关：KONG、LB、Nginx等  中间件：Kafka、MQ、Zookeeper 等  数据库：MySQL、Clickhouse、 Elasticsearch等 agent 系统C agent Flink kafka 告警计算指标聚合明细分析 Nacos Clickhouse 存储集群跨数据中心链路自动串连业务报文查询调度转发节点存储集群查询业务配置打标应用根因定位应用性能分析链路调用清单明细，方法级分析链路自动拓扑全层级告警墙应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站

10 积分 | 24 页 | 9.74 MB | 11 月前
3
中国联通数字化监控平台稳定性保障工具落地实践

端到端稳定性保障体系缺失，自动化、智能化故障处理能力不足 n 故障处理过多依赖专家经验，故障没有沉淀为有效的资产 n 故障处于被动防御，救火，运维大数据未被合理价值挖掘分布式架构挑战 n 维护对象：系统节点、微服务数量几何级数增加 n 调用关系：从简单对应到极其复杂，人力维护无法胜任 n 数据分片、异地存储，传统维护模式难以为继运维生态挑战 n 工具重复：工具按烟囱式建设，能力分散 n 能力割裂：运维工具能力割裂不成体系核心业务场景、核心业务环节、核心业务链路拓扑白屏、慢响应、弹窗日志等卡顿、崩溃、错误等调用量、响应时间、异常量等应用调用 trace 方法调用明细云平台健康度、集群节点、 pod 容器指标网关： KONG 、 LB 、 Nginx 等中间件： Kafka 、 MQ 、 Zookeeper 等数据库： MySQL 、 Clickhouse 跨数据中心链路自动串连业务配置打标存储集群实例 id 、容器 id 网络设备主机 ip 、机房云平台链路调用清单明细，方法级分析告警收敛根因定位存储集群调度转发节点链路自动拓扑告警配置告警计算应用性能分析业务、应用维度链路展现 kafka Redis 告警计算指标聚合应用实例、主机串联明细分析 agent agent

20 积分 | 24 页 | 2.00 MB | 11 月前
3
2025年中国算力中心行业白皮书

码等基础处理需求，致使单平台日均算力消耗超250PFlops；二是用户对高清画质与低延迟播放的要求，让带宽成本在算力中心运营支出中的占比升至43%。用户对实时渲染、内容分发网络的算力需求迫使企业加速部署边缘计算节点，直接驱动数据中心建设进入快车道，服务于移动互联网业务的智能算力设施占比显著提升。移动互联网接入流量 33.9% 26.0% 6.8% 5.8% 5.5% 22.0% 移动视频移动社交承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率，大模型厂商对算力中心提出更高要求算力中心 ✓ 网络通信：集群内部节点之间更高的网络带宽与更低的网络延迟 ✓ 能源供应：稳定的大规模电力供应 • 算力中心定制批发模式有效满足大模型训练需求 ✓ 运维管理：专业的、7*24小时的运维服务 • 训练时间是大模型厂商的关键竞争要素这吸引力更多企业加入到AI应用的开发，促进了AI应用的创新性与多样化发展，同时加速了AI 应用的市场商业化进程。 • 针对时延敏感型AI应用（如自动驾驶、实时金融交易），企业需优先选择城市群内部及周边算力节点部署推理服务，以满足毫秒级响应需求。 • AI应用推理需求的爆发将驱动算力中心零售业务的下游需求持续增长。智能客服 ✓ 头部流量应用接入DeepSeek，显著推动了AI大模型技术向日

10 积分 | 55 页 | 7.12 MB | 4 月前
3
迈向智能世界白皮书2025-韧性DC白皮书-华为

制要严格”的场景，那么多地多活是目前唯一能同时满足三者的架构选择，即：在双活基础上升级到多地多中心多活架构。其核心价值在于打破数据中心扩容天花板、激活闲置资源、解决区域性灾难（如地震、城市电网崩溃）时所有节点同时失效问题。相比双活来说，多活容灾要解决远距离（数百公里甚至上千公里）数据同步一致性和多中心间互访网络时延稳定的技术难题。双活容灾系统聚焦解决两地服务零中断、数据零丢失的问题制，实现数据的最终一致性（RPO≈0）。数据存储层，采用存算分离架构。对于落盘的数据库事务日志（Xlog），存储设备在同城两个数据中心之间采用存储层双向同步复制技术，确保所有存储节点的Xlog数据一致性，具备互为备份能力。对于异地中心，采用存储单向异步复制技术，将同城数据库Xlog日志复制到异地存储，实现Xlog冗余备份。首先，云计算、分布式计算的成熟发展为多地多中心多活容灾提供了技术基础。云计算通过微服务、容器化和集群扩展实现弹性负载均衡，而分布式计算的容错机制依赖多地节点协同，共同保障系统高可用性。 2、企业规划多地多活容灾系统的驱动力算、存储、网络等硬件资源，以及虚拟化、容器化等软件资源，构建成“逻辑上统一、物理上可分布”的资源集群，使所有资源始终处于“可调

10 积分 | 53 页 | 7.03 MB | 3 月前
3
面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

编制单位：中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前言当前，智算集群已成为支撑人工智能大模型训练、自动驾驶算法迭代等前沿领域的核心基础设施，并以惊人的速度从万卡向十万卡级规模演进。随着单节点算力突破每秒百亿亿次，这类超大规模集群的极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。传统基于铜介质的电互连方案，正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战：型性能指标已十分困难，需构建具备高带宽、低延迟特征的GPU卡间互连技术体系，以扩大节点规模，大幅降低通信时间占比，最终实现集群算效的显著提升。图 1-2 算力随着卡数规模扩大难以线性扩展同时，全球智算中心规模触达十万卡级别，智算集群架构正经历一场根本性变革，从传统单机八卡向超节点演变。超节点并非简单的硬件堆叠，是一种通过极致性能的高速互连技术，将数十乃至上千颗 GPU芯片飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术目前，超节点智算集群展现出三大技术特性，一是互连性能高， GPU之间具有超低时延超高带宽（百纳秒级，TB/s级）且无收敛的互连能力；二是算力密度高，由单个或多个机柜构成，包含32个以上甚至到千卡的GPU数量，不断逼近电互连物理部署极限；三是能效PUE高，超节点单机柜功率可达40kW以上，采用液冷为主、风冷为辅的散热方案，配

10 积分 | 52 页 | 5.24 MB | 6 月前
3
2025年云计算研究白皮书-中国电信

从硬件基础设施、软件平台能力两个方向梳理年度标志性事件与技术跃迁路径。全球云计算硬件基础设施正加速向高性能、异构化与资源池化方向演进。例如华为发布的 CloudMa- trix 384 超节点架构成为年度最具影响力的硬件创新之一。该架构采用全对等互联与全栈协同设计，集成了自研鲲鹏 CPU、Ascend 910C NPU 及高速统一总线 UB（Unified Bus）网络，构建了总算力达 Machine Learning 平台采用弹性训练调度器，动态增减分布式训练节点，在保障收敛性的前提下降低 30% 以上计算成本。 Amazon 通过 DevOps Guru 实现基于无监督学习的异常检测，可识别 Lambda 函数冷启动激增、RDS 慢查询等典型问题，并提供修复建议；Karpenter 弹性节点控制器可在秒级内响应 Pod 调度需求，大幅提升 EKS 集群资源利用率。形态的日益复杂，传统数据中心架构正面临多重挑战。首先，数据保存周期远长于服务器硬件的更新周期，导致数据迁移与运维成本显著增加，存储与算力资源的生命周期严重失配。其次，资源利用在时空维度上呈现显著不均衡，部分计算节点或存储设备长期处于低负载状态，而高峰期资源紧张，整体利用率难以提升。第三，云原生应用不断涌现，对计算与存储资源的弹性分配提出了更高要求，传统架构难以满足其动态扩缩和敏捷调度的诉求。最后，数据

10 积分 | 140 页 | 11.65 MB | 3 月前
3

共 106 条前往

页

分类

语言

格式

2025年华为园区网络星闪SLE物联数采技术白皮书-华为

全球计算联盟GCC：2025年异构算力协同白皮书

湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

2025年云智算光互连发展报告-中国移动

中国联通数字化监控平台稳定性保障工具落地实践

中国联通数字化监控平台稳定性保障工具落地实践

2025年中国算力中心行业白皮书

迈向智能世界白皮书2025-韧性DC白皮书-华为

面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

2025年云计算研究白皮书-中国电信