节点 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年华为园区网络星闪SLE物联数采技术白皮书-华为

版权所有 © 华为技术有限公司 4 星闪无线通信系统星闪接入层根据实现功能的不同分为管理节点（G 节点）和终端节点（T 节点），其中 G 节点为其覆盖下的 T 节点提供连接管理、资源分配、信息安全等接入层服务。星闪接入层实现了 G 节点和 T 节点的上层业务数据在空口的传输交互。考虑到业务场景对于无线短距离通信存在着差异化的传输需求，目前星闪接入层为星闪上层提供于星闪无线通信节点的注册感知、QoS 策略管理以及通信状态监控，实现 5G 核心网对其覆盖下的星闪无线通信网络的统一管理和维护。 1.2.2 星闪通信场景与系统架构 1.2.2.1 通信场景星闪无线通信系统可支持的短距离通信场景见下图。根据通信双方的星闪底层节点类型不同，可以分为： a）节点和 T 节点之间的通信； b）不同 G 节点之间的通信； c）不同 T 节点之间通过节点之间通过 G 节点进行中继通信。星闪无线通信系统支持的短距离通信场景注 1：对于 G 节点之间进行多域协调与管理的通信场景，在连接建立过程中，需要其中一个 G 节点退回到 T 节点的身份模式并发起向另一个 G 节点的连接；注 2：G 节点和 T 节点之间通信可以采用 SLB 和/或 SLE。华为园区网络星闪 SLE 物联数采技术白皮书版权所有 © 华为技术有限公司

10 积分 | 29 页 | 1.93 MB | 1 月前
3
全球计算联盟GCC：2025年异构算力协同白皮书

......................................................................................25 5.2 主机级：超节点算力异构...............................................................................................25 国产芯片为例：（1）昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色，搭建开放生态，形成“芯片一框架一集群一应用”的四级闭环，已支持建造多个万卡级集群，2025 年推出 384 卡超节点新形态，最大算力可达 300 PFLOPS，48 TB 高速内存，配备创新的高速互联总线，实现 384 卡一台计算机运行，大幅提升大模型训推效率。（2）昆仑芯三代 XPU-R，自研 XPU-Link 细化调度。针对异构算力计算能力差距，面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分等能力，实现跨厂商算力的弹性按需调度；面向大模型推理场景，支持单机多卡异构分布式推理和跨节点分布式异构推理等多种形式，适配模型推理不同阶段算力需求特性，精细化调度实现异构算力降本增效；构建大模型训练和推理混合部署的调度底座，实现训推任务的动态、实时切换，化解算力潮汐矛盾，完成从集群到设备级的异构算力精细化调度，实现异构

10 积分 | 31 页 | 1.21 MB | 3 月前
3
湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

已成为当前智算网络发展重要挑战。智算中心网络如图 1-1 所示，可按通信范围分为机内互联（Intra-Node）与机外互联（Inter-Node）两类：机内互联：主要用于单服务器或单节点内的多 GPU 连接。典型技术包括 PCIe 与 NVLink，其中最新一代 NVLink[4] 5.0 点对点带宽高达 1800 GB/s，并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联，支撑分布式训练中的全互联需求。图 1-1 智算中心网络与网络协议栈无论采用机内互联还是采用机外互联，都要采用电交换芯片来做网络流量交换。然而，随着模型规模和节点数的增加，电交换面临带宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起在交换技术方面，电交换技术具有成熟性、协议兼容性和灵活的控制能力，基于以太网（如 RoCEv2、InfiniBand）传输协议，支持复其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器需与 Top-of-Rack（ToR）交换机建立至少 2 条 400G 上行链路，并在 Leaf 层与 Spine 层交换节点之间形成全互联结构，则光是 Leaf 层汇聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向上扩展 Leaf 层与 Spine 层的连接关系时，每增加一层交换所需的端口数将指数

20 积分 | 53 页 | 1.71 MB | 3 月前
3
2025年云智算光互连发展报告-中国移动

........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在数据中心内部，随着服务器端口速率向 400G、800G 乃至 1.6T 演进，光互连技术方案正迅速取代铜缆，成为数据中心以及超节点场景下的优选方案。随着 LPO、CPO 等技术引入数据中心架构，光电协同设计已成为芯片集成的核心技术需求，芯片-封装-系统级的多维协同优化成为新的挑战。与此同时，随着全光交换技术的逐步小规模应间使用 OCS 进行互连，如图 8 所示。在该组网下，通过 OCS 灵活调整拓扑的能力，隔离故障节点提升可用性，集群可减少 50 倍停机时间，并通过按需定制拓扑，提升 30%的吞吐量。除此之外，OCS 在网络成本和网络功耗都有明显收益。云智算光互连发展报告图 8 谷歌 TPU 的超节点架构国内主要由华为主导，目前推出了 DC-OXC 解决方案，其通过上层的算网协同模块，对底层链路进行流量调度。通过在智算集群等

20 积分 | 32 页 | 2.80 MB | 3 月前
3
2025年中国算力中心行业白皮书

码等基础处理需求，致使单平台日均算力消耗超250PFlops；二是用户对高清画质与低延迟播放的要求，让带宽成本在算力中心运营支出中的占比升至43%。用户对实时渲染、内容分发网络的算力需求迫使企业加速部署边缘计算节点，直接驱动数据中心建设进入快车道，服务于移动互联网业务的智能算力设施占比显著提升。移动互联网接入流量 33.9% 26.0% 6.8% 5.8% 5.5% 22.0% 移动视频移动社交承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率，大模型厂商对算力中心提出更高要求算力中心 ✓ 网络通信：集群内部节点之间更高的网络带宽与更低的网络延迟 ✓ 能源供应：稳定的大规模电力供应 • 算力中心定制批发模式有效满足大模型训练需求 ✓ 运维管理：专业的、7*24小时的运维服务 • 训练时间是大模型厂商的关键竞争要素这吸引力更多企业加入到AI应用的开发，促进了AI应用的创新性与多样化发展，同时加速了AI 应用的市场商业化进程。 • 针对时延敏感型AI应用（如自动驾驶、实时金融交易），企业需优先选择城市群内部及周边算力节点部署推理服务，以满足毫秒级响应需求。 • AI应用推理需求的爆发将驱动算力中心零售业务的下游需求持续增长。智能客服 ✓ 头部流量应用接入DeepSeek，显著推动了AI大模型技术向日

10 积分 | 55 页 | 7.12 MB | 1 月前
3
迈向智能世界白皮书2025-韧性DC白皮书-华为

制要严格”的场景，那么多地多活是目前唯一能同时满足三者的架构选择，即：在双活基础上升级到多地多中心多活架构。其核心价值在于打破数据中心扩容天花板、激活闲置资源、解决区域性灾难（如地震、城市电网崩溃）时所有节点同时失效问题。相比双活来说，多活容灾要解决远距离（数百公里甚至上千公里）数据同步一致性和多中心间互访网络时延稳定的技术难题。双活容灾系统聚焦解决两地服务零中断、数据零丢失的问题制，实现数据的最终一致性（RPO≈0）。数据存储层，采用存算分离架构。对于落盘的数据库事务日志（Xlog），存储设备在同城两个数据中心之间采用存储层双向同步复制技术，确保所有存储节点的Xlog数据一致性，具备互为备份能力。对于异地中心，采用存储单向异步复制技术，将同城数据库Xlog日志复制到异地存储，实现Xlog冗余备份。首先，云计算、分布式计算的成熟发展为多地多中心多活容灾提供了技术基础。云计算通过微服务、容器化和集群扩展实现弹性负载均衡，而分布式计算的容错机制依赖多地节点协同，共同保障系统高可用性。 2、企业规划多地多活容灾系统的驱动力算、存储、网络等硬件资源，以及虚拟化、容器化等软件资源，构建成“逻辑上统一、物理上可分布”的资源集群，使所有资源始终处于“可调

10 积分 | 53 页 | 7.03 MB | 22 天前
3
面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

编制单位：中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前言当前，智算集群已成为支撑人工智能大模型训练、自动驾驶算法迭代等前沿领域的核心基础设施，并以惊人的速度从万卡向十万卡级规模演进。随着单节点算力突破每秒百亿亿次，这类超大规模集群的极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。传统基于铜介质的电互连方案，正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战：型性能指标已十分困难，需构建具备高带宽、低延迟特征的GPU卡间互连技术体系，以扩大节点规模，大幅降低通信时间占比，最终实现集群算效的显著提升。图 1-2 算力随着卡数规模扩大难以线性扩展同时，全球智算中心规模触达十万卡级别，智算集群架构正经历一场根本性变革，从传统单机八卡向超节点演变。超节点并非简单的硬件堆叠，是一种通过极致性能的高速互连技术，将数十乃至上千颗 GPU芯片飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术目前，超节点智算集群展现出三大技术特性，一是互连性能高， GPU之间具有超低时延超高带宽（百纳秒级，TB/s级）且无收敛的互连能力；二是算力密度高，由单个或多个机柜构成，包含32个以上甚至到千卡的GPU数量，不断逼近电互连物理部署极限；三是能效PUE高，超节点单机柜功率可达40kW以上，采用液冷为主、风冷为辅的散热方案，配

10 积分 | 52 页 | 5.24 MB | 3 月前
3
中国电信全光网3.0技术白皮书

方向转型。这一切的融合与变革，均依赖光网络作为核心纽带。国家相继出台相关政策，强化光网络的核心作用。《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》指出，要“加快推动国家枢纽节点内部、国家枢纽节点之间、国家枢纽节点与非国家枢纽节点间确定性、高通量网络建设，打造高速泛在、安全可靠的算力传输网络”。《关于开展万兆光网试点工作的通知》强调，“在有条件、有基础的城市和地区，聚焦小区、工厂、园区等重点场景，、泛在协同、智能感知的光网络，为算力、存力与运力等所有在网资源构建高效集约的全光联接底座。同时融合网络自智技术，覆盖光网络“规划、建设、维护、优化、运营”全生命周期，满足所有用户、终端、节点和数据中心之间的海量数据快速交换与智能调度需求。 2）光感业融合：通过将光通信与光感知深度耦合，实现从“连接通道”向“感知中枢”跃迁，推动光网络从单一传输向融合主动感知与差异化业务的际通信。同时，积极探索并获取中东、中亚、南亚及东南亚大湄公河区域等方向陆缆穿境资源，拓宽陆地光缆通道，推动多个陆海光缆联运通道建设，为海洋光缆网提供强有力的业务分担与安全备份。国内骨干光缆网围绕国家算力枢纽节点，构建高效直达（低时延）和战略底座（广覆盖）协同的立体化布局，高效连接超大型/大型数据中心，覆盖枢纽、核心机楼，衔接亚美欧的国际通信出入口局和海缆登陆站。构建干线光缆城区终接新型结构，优化局房基础设施布局，

10 积分 | 42 页 | 2.25 MB | 22 天前
3
广西区块链产业发展白皮书（2025年）

ZK-Rollups 技术（零知识证明技术）、模块化架构及行业标准的广西壮族自治区信息中心（广西壮族自治区大数据研究院）广西区块链发展白皮书（2025 年） — 4 — 推进，不同链之间有效实现轻节点验证和跨链状态同步，将跨链结算时间压缩至毫秒级，大幅提升互操作性。在安全可靠方面，抗量子技术通过升级加密算法、优化密钥管理及增强异构链兼容性，抗量子签名算法，通过桥接器生成目标链密钥对，为跨链生张态势，但监管协调、网络安全等挑战仍存在。在工业互联网建设方面，星火·链网作为新型数字基础设施的产业生态价值正在不断增强，截至 2025 年 6 月，“星火·链网”超级节点基础设施建设已形成规模化应用，集聚效应不断释放，已在全国 11 个城市完成超级节点布局，骨干节点覆盖超过 60 个城市，探索形成了数字资产、产业金融、司法存证等一批典型应用场景。在可信数据空间建设方面，运用区块链技术解决互信互认问题，进一步释放数础设施，建设“主链-子链”多级架构，提供公共存证、数据溯源、跨链协同服务等公共服务，支撑数字政府、智慧农业、供应链金融、电子证照等应用创新。该平台目前已完成信创适配，开发数据要素服务、隐私计算等平台，可实现多节点间的协同计算和数据隐私保护，提升安全可控性，聚焦可信数据空间构建，开展可信管控技术攻关，推动数据要素畅通流动和数据要素价值释放，逐步形成支撑广西数字经济和数字社会发展的可信新型数字基础

10 积分 | 35 页 | 594.04 KB | 3 月前
3
2025年算力运维体系技术白皮书-中国信通服务

握芯片级知识、能耗建模、分布式系统调度等技能，甚至需与算法工程师协作优化算力使用效率。算力运维体系技术白皮书 - 4 - （3）. 传统运维故障多表现为单节点或单业务中断，影响范围较小，应对策略以快速替换硬件、切换冗余节点为主；算力运维故障可能导致“算力雪崩”，影响大规模任务行（如分布式训练失败）；应对策略侧重预判性维护，通过传感器实时监控硬件状态，利用 AI 算法预测老化趋势，并设计容错机制以保障任训练时，各训练步骤需强同步，硬件故障会致同步及训练失败，且受芯片架构、内存和 I/O 访问瓶颈等因素限制，模型算力利用率较低。从集群层面看，集群线性加速比表明，随集群规模扩大，其计算能力和支持的参数规模增大，但受节点间通信能力、并行训练框架、算法调优等因素影响，无法使集群有效算力线性提升。因此，需系统性制定优化措施和运维服务，提升模型算力利用率和集群算力可用度，保障集群稳定高效运行。（2）. 故障管理难度大分彼此交织、协同工作，形成—个高度复杂的生态系统。在这种复杂环境下，传统的观测工具和手段往往无法全面覆盖系统中的所有组件和数据流，从而导致全局可观测性缺失，对问题的定位和修复变得异常困难。例如，数据在多个节点间流动，若某— 节点性能下降，由于缺乏足够的全局可观测性，很难快速判断是硬件故障、软件冲突还是网络延迟导致的，从而造成故障修复延迟，影响整个智算集群的高效运行。 2 算力运维服务 2.1 基础设施运维

10 积分 | 74 页 | 1.36 MB | 2 月前
3

共 61 条前往

页

分类

语言

格式

2025年华为园区网络星闪SLE物联数采技术白皮书-华为

全球计算联盟GCC：2025年异构算力协同白皮书

湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

2025年云智算光互连发展报告-中国移动

2025年中国算力中心行业白皮书

迈向智能世界白皮书2025-韧性DC白皮书-华为

面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

中国电信全光网3.0技术白皮书

广西区块链产业发展白皮书（2025年）

2025年算力运维体系技术白皮书-中国信通服务