pdf文档 2025年超节点发展报告-华为&中国信通院 VIP文档

4.79 MB 31 页 0 下载 3 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
联合编写单位 协作单位 中国电子技术标准化研究院 、GCC 全球计算联盟、国家信息中心 01 02 03 04 05 06 07 2.1 3.1 4.1 5.1 5.2 5.3 4.2 2.2 3.2 4.1.1 4.2.1 4.1.2 4.2.2 4.2.3 2.3 3.3 2.4 前言 大模型对基础设施的挑战 超节点的出现与演进 超节点基础定义与特征 超节点应用案例 总结和展望:迈向未来计算的下一个十年 参考文献 通往通用人工智能之路:最新大模型发展动态 07 07 06 16 21 07 16 21 09 18 22 24 26 11 20 22 12 12 13 13 14 14 14 15 全球产业的演进路线:从硬件聚合到系统构建 技术特征 支撑大模型创新及云服务场景 加速人工智能科学计算,服务算法创新 助力行业企业智能化升级 系统特征 AI 技术从单点能力突破迈向系统能力创新 超节点技术产业生态发展格局 基础特征:大带宽、低时延、内存统一编址 超大规模 扩展特征:多级缓存池化、资源灵活配比 超高可靠 灵活切分 大模型计算基础设施的挑战 小结 小结 CONTENTS 目录 超节点发展报告 02 当我们站在人工智能大模型技术飞速发展的十字路口,一个清晰的趋势已然浮现:大模型正沿着 “规模定律”不断演进,从预训练扩展到覆盖预训练、后训练、逻辑推理的全流程,其参数与集群 规模实现“双万” 跨越,行业模型落地需求专业化。 传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据 让传统以太网带宽难以承受;同时,伴随算力规模扩大,万级处理器带来的故障常态化,对自动化 运维与 RAS 能力提出了更高要求。在这样的背景下,超节点的出现成为了面向大模型未来发展的必 然趋势。 超节点并非简单的硬件堆砌,它的实现离不开基础技术、系统能力与可落地性的三方协同。基础 技术是超节点的根基,其具备超高带宽互联、内存统一编址等技术特征,通过近乎无阻塞的高带宽 互联,将数百上千个 AI 处理器编织为一个逻辑统一的高密度计算体,为高效计算提供了底层支撑。 系统能力则是超节点高效运转的保障,它需要具备大规模、高可靠、多场景等系统特征。大规模的 组网能力突破了单机扩展的硬件限制,为大规模算力聚合提供架构支撑;高可靠的运行特性化解了 网络、计算、存储等子系统的故障风险,保障集群作业的连续性;多场景的适配能力则能通过精细 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点,清晰地呈 现了超节点的基础定义与特征,包括技术层面的基础特征和扩展特征,以及系统层面的大规模、高 可靠、多场景特征。同时,通过分析全球产业的演进路线、超节点稳定性的核心挑战以及技术产业 生态发展格局,为产业界指明了超节点的发展方向。 在未来计算的下一个十年,超节点无疑将成为推动 AI 技术发展的关键力量。这份发展报告为我 们提供了宝贵的理论指导和实践参考,相信在产业界的共同努力下,超节点将不断成熟完善,为人 工智能的持续突破和广泛应用奠定坚实的算力基础。 中国工程院院士、清华大学计算机系教授 郑纬民 序言 1 超节点发展报告 03 大模型正以不可逆转之势为全球计算领域带来跨越式变革。从生成式 AI 到 Agentic AI 再到 Physical AI,大模型持续提升解决复杂问题的能力,并向物理世界延伸。大模型技术及能力演进, 驱动 AI 系统负载变化,需要一套系统架构满足未来发展需求,超节点成为 AI 基础建设的共识。 超节点架构引领技术革新,重构计算能力边界。超节点架构依托高速互联技术,将大带宽的互联 范围,从单台服务器扩展到整机柜以及跨机柜的大规模集群,超节点域内可达百 GB/s 级通信带宽、 纳秒级时延、TB 级超大内存,实现集群能力跃迁。相较“服务器集群”,超节点代表的是弹性、池 化、开放的系统能力:既能以极致吞吐支撑万亿参数训练,也能以低时延满足企业级大规模推理的 刚性需求。 昇腾 AI 坚持架构创新,开源开放,共建产业生态。昇腾 AI 经过 6 年快速发展,已成长为中国 AI 算力第二平面的坚实基础,并通过软硬件开源开放,建立生态兼容、共建共享的昇腾 AI 生态。在 基础硬件层面,昇腾持续引领技术架构,打造领先产品,实现业界最大规模的 384 超节点产品,并 在下一代将扩展至 8192,持续领先;在基础软件层面,通过一套架构满足不同代际产品的持续演进, 同时秉承开源开放的策略,将核心计算架构 CANN、Mind 系列应用使能软件全面开源开放,同时 结合对 PyTorch 等主流框架的全面兼容和体系化工具链,旨在最大限度地降低开发门槛,加速开发 者和社区的融入。如今,昇腾 AI 的算力底座已支撑起互联网、金融、政务、制造等数十个行业的智 能化转型,累计服务超过 10 万家企业客户。 携手生态伙伴,共筑产业 AI 生产力。面向 AI 产业的广阔前景,我们将以技术创新为本,构建持 续领先的产品及解决方案,并将能力开放出来,支持伙伴打造多样化产品,并为企业提供有竞争力 的解决方案,覆盖越来越多的行业场景。我们将与客户、伙伴形成紧密协同的价值共同体,加速产 业界的智能化升级与创新,将人工智能带入丰富的行业场景,让智能无所不及。 华为公司董事、ICT BG CEO 杨超斌 序言 2 超节点发展报告 04 我们正站在一个智能变革涌动的时代潮头。以大模型为代表的人工智能技术,成为驱动千行百业 颠覆性变革的核心力量。大模型所展现出的涌现能力与通用潜能,正在重构人类对创新的想象边界, 但同时也对底层智算基础设施提出更高要求和挑战:模型参数规模从千亿迈向万亿乃至更高,训练 数据量呈指数级增长,传统松散耦合的集群架构已难以满足高效的计算需求,智算基础设施正开始 新一轮的技术革新。 在此背景下,超节点应运而生。它并非偶然的技术产品迭代,而是智算需求与系统创新深度共振 的结果,具有划时代的重要意义。超节点超越简单的硬件集成,代表一种全新的构建哲学:以系统化、 一体化的设计思维,将计算、存储、网络与运维管理深度融合,锻造出高性能、高效率、高可靠的 单一逻辑实体。它标志着一个全新时代的开启——智算基础设施正从松散组合的算力堆叠阶段,迈 入软硬协同、全局优化的超节点阶段,旨在有效破解超大规模 AI 训练与推理中所面临的扩展性瓶颈、 效率损耗与能耗墙难题,为 AI 的持续创新提供坚实、高效、绿色的算力基座。 为系统分析超节点技术的发展逻辑、技术创新、产业价值以及未来趋势,我院与华为及相关单位 共同开展研究,编制《超节点发展报告》。报告以 “需求—技术—应用—展望” 为主线,从大模型 对智算基础设施的机遇与挑战入手,深入剖析超节点技术的发展动因,对超节点技术的发展历程及 技术特征进行梳理,为各行业的应用落地提供参考。 我们坚信,超节点是未来构建高效可靠算力优势的关键抓手。超节点的成熟与普及,对于提升整 体智算能力、促进 AI 赋能千行百业具有至关重要的意义。我们期待本报告能凝聚产业共识,推动超 节点技术从“技术探索”走向“落地应用”,加速我国智算基础设施发展,为全球智算产业创新贡 献中国智慧。 中国信息通信研究院副院长 魏亮 序言 3 超节点发展报告 05 人工智能高速演进背景下,算力需求呈指数级增长,大模型竞争已进入 “参数规模摸高” 与 “训 练效率提升” 并行的新阶段。Scaling Law(规模定律)将以多元形态长期生效,持续推动人工智 能技术突破能力边界,而超大规模 Transformer、MoE(混合专家模型)、稀疏注意力模型等,已 成为可扩展模型的核心架构方向。在复杂的混合并行策略下,随着并行规模持续扩大,系统节点间 通信带宽与可用显存容量成为制约大模型可扩展性的瓶颈,亟需计算架构创新以满足未来更大规模 模型训练的需求。超节点架构突破传统互联瓶颈与共享协议限制,不断突破系统性能上限,成为多 样化算力集群技术未来演进的必然趋势。本发展报告系统梳理了超节点技术架构的国内外演进路径 与生态发展格局,清晰界定了超节点需具备的技术特征与系统属性,为产业界提供了具有前瞻性的 洞见和系统标准参考,助力行业在算力发展中找准技术方向,推动算力从规模堆砌走向效率跃迁。 国家超级计算广州中心主任 卢宇彤 当前,千亿乃至万亿参数的大模型与 MoE 等先进架构的兴起,对计算基础设施提出了前所未有 的苛刻要求。传统的硬件堆叠模式已难以满足其对于算力规模、通信效率及系统稳定性的需求。《超 节点发展报告》深刻阐述了,必须从单纯的硬件聚合,迈向以“系统工程”思想为核心的创新构建。 超节点通过超高带宽互联、内存统一编址等关键技术,实现了计算、存储、网络资源的深度融合与 高效协同,其大规模灵活组网与高可靠运行的系统优势,是构建稳定、高效、易用的新一代算力系 统的必然路径。超节点是支撑未来复杂 AI 计算任务的关键基石,本发展报告对其技术内涵与应用价 值的系统梳理,对产业生态发展具有重要的指导意义。 中国电子技术标准化研究院 副院长 范科峰 在大模型飞速发展与应用需求爆发的时代,AI 基础设施面临诸多挑战,传统的计算架构已难以 满足高效、大规模的训练和推理需求。《超节点发展报告》深入剖析了超节点如何凭借创新架构, 构建高效协同机制,让算力、算法、数据得以深度融合,打破单点能力的局限,实现“系统能力” 的创新,提升大模型训练的效率,显著降低推理时延。《超节点发展报告》为业界如何把握这一前 沿趋势、共同推进全球 AI 的技术进步提供了重要参考。 GCC 全球计算联盟理事长 华中科技大学教授 金海 推荐语 超节点发展报告 06 世界正进入一个对 AI 算力需求空前增长的时代,大模型训练成本的指数级增长,正迫使行业将 重心从单纯的算力堆砌转向底层计算架构的根本性创新。每一次计算范式的更替,都会重塑产业版图。 今天,生成式人工智能正把基础设施从“堆叠服务器的集群”,推向“像一台巨型计算机运作的集 成单元”。这不是简单的规模扩张,而是一场关于带宽、能效与系统韧性的全面再造。预计到 2030 年,相关基础设施投资将接近 7 万亿美元(Noffsinger et al., 2025) 。计算范式正从通用数据中 心转向专为 AI 设计的“超节点”,这正在彻底改变数字基础设施的经济模型与设计理念:资本开支、 能耗曲线、网络与内存比重、运维与可靠性能力,都会被重新定价与重构。 本报告提出并论证:“超节点”将成为 AI 时代的核心计算单元。它通过近乎无阻塞的高带宽互联, 把数十到数百乃至数千个 AI 处理器(本文中提及的 AI 处理器泛指用于人工智能计算的加速器,如 神经网络处理器(NPU)和图形处理器(GPU)等)编织为一个逻辑统一的高密度计算体;通过软 硬件协同和智能编排,把训练与推理的双重诉求在同一平台上高效切换;通过液冷、供电与可观测 性 /RAS 体系,把能效与可用度拉回可持续区间。相较“服务器集群”,超节点代表的是弹性、池化、 开放的系统能力:既能以极致吞吐支撑万亿参数训练,也能以低时延满足企业级大规模推理的刚性 需求。 我们相信,计算将再次成为增长曲线的起点。当超节点把“算力、带宽、内存、能效与可靠性” 整合为一体并可编排时,AI 不只是更强的内容生成器,而是可被工业化复制的认知基础设施。这既 是技术路线的抉择,也是产业组织与国家竞争力的选择题。答案取决于我们今天如何设计并投资下 一代算力系统。 [1] 前言 1.0 超节点发展报告 07 总体来看,无论是“思考”模式的引入、Agent 能力的强化,还是开源社区的繁荣,都标志着 AI 技术正从单点能力突破,迈向更通用、更智能的未来。全球 AI 大模型正朝着更大规模、更高效率、 更强自主性的方向迈进,这意味着人工智能大模型的发展已进入一个系统性竞争的新阶段。这不仅 定义了技术的前沿,也对底层基础设施提出了前所未有的要求。人工智能大模型对计算基础设施的 挑战是系统性的,涵盖了算力、通信、功耗和运维等多个维度。 然而,这些看似分散的挑战,其根源几乎都可以追溯到一个核心的驱动理论——“规模定律”。 “规模定律”的提出是 AI 发展的里程碑,揭示了模型性能与参数、数据量、计算投入的关系,促使 训练从“赌注”走向“可量化投资”(Kaplan et al., 2020) ;钦奇拉法则(Chinchilla Law) [2] 大模型对基础设施的挑战 2.0 AI 大模型正以前所未有的速度发展,行业呈现出模型加速迭代、算力大规模投入和商业化进程 加快的特点。全球科技巨头与新兴力量纷纷布局,推动技术边界不断拓展。以 OpenAI 为首的美国 公司持续引领潮流,其 GPT-5 模型在多个基准测试中排名第一,采用了能为不同任务匹配最适模 型的“Router”架构,并投入数十万 GPU 进行训练与推理。Google 则凭借其强大的生态系统, 将 Gemini 2.5 Pro 等自研模型深度整合进搜索、Gmail 等全线产品,并通过包含多项 AI 服务的订 阅套餐实现商业价值提升。此外,xAI 的 Grok 4 模型通过投入 20 万 H100 进行后训练,在复杂推 理任务上表现卓越,创始人马斯克更强调 AI 与物理世界的交互,计划将其植入特斯拉。 与此同时,中国 AI 力量迅速崛起,推出了一系列性能卓越的大模型。月之暗面 (Moonshot AI) 的 Kimi K2 智能助手在推理、编程和工具调用方面进行了重点升级,旨在高效解决用户的复杂问题。 深度求索 (DeepSeek) 发布的 DeepSeek V3.1 具备创新的混合推理架构,能同时支持“思考”与 “非思考”两种模式,在提升复杂任务处理能力的同时也优化了响应效率。阿里巴巴通义 (Alibaba Qwen) 的 Qwen3 将预训练数据量提升至近 36 万亿 tokens,并引入混合思维模式以提升智能体 (Agent)能力,其模型家族支持高达 100 万 tokens 的超长上下文处理。智谱 AI (Zhipu AI) 推出 了为智能体任务优化的 GLM-4.5 系列,该模型总参数量达 3550 亿,同样采用混合推理模式,并 在工具调用成功率上表现优异。 2.1 2.2 通往通用人工智能之路:最新大模型发展动态 AI 技术从单点能力突破迈向系统能力创新 超节点发展报告 08 (Hoffmann et al., 2022)进一步要求参数与数据按比例协同扩展,把难题从堆算力转向高带宽、 低时延、持续数据供给的均衡系统。这一修正的意义是深远的:它将业界的核心难题从单纯“堆砌 算力”,转向了如何构建一个能够支撑海量数据持续、高效供给的均衡系统,即对高带宽、低时延 的数据传输能力提出了刚性要求。在这一理论指导下,人工智能大模型正沿着“规模定律”的路径, 从单一的预训练环节,扩展为覆盖预训练、后训练、逻辑推理的全流程 。这一全流程的扩展,不仅 全面提升了模型的智力水平,也顺理成章地将基础设施的挑战从过去的“纯算力”问题,升级为“算 力 × 数据供给 × 系统编排”的综合性工程难题。 趋势一:基础模型竞赛——参数与集群规模的“双万”跨越 参数从亿级跃迁至万亿级,训练集群从“万卡”走向“十万卡”。从 GPT-1(1.17 亿)到 GPT-3(1750 亿),再到 GPT-4(约 1.8 万亿),2025 年 Llama-4、Kimi K2、xAI Grok4 等 模型将万亿级参数与万卡级集群规模确立为新常态(业界预期 GPT-5 或达 10T 与十万卡集群)。 头部玩家以 8–12 周节奏推新,工程与规模交替领先。截至 2025 年 7 月,中国 433 款大模型完成 备案并上线服务 。 趋势二:行业模型落地——后训练与推理需求的专业化 行业客户在基础模型之上经 SFT + RL 形成“行业 R1”,算力从百卡增至千卡。推理端爆发 要求低时延 + 高吞吐并重:既要扛训练峰值,又要以高效率、低成本、多租户隔离稳定供给,推动 GPU/NPU 虚拟化与弹性调度。 OpenAI 范例:OpenAI 坚定地遵循“规模定律”,通过投入更多算力和更大参数来保证其基础 模型(如 GPT-4/4.5)的持续领先。同时,它基于这些基础模型,通过后训练技术扩展出面向推理 的“o 系列”模型,满足更专业的市场需求。 趋势三:大模型训练成本倍数级增长趋势 根据 Cottier, B., et al. (2024) 的研究分析,大型语言模型(LLM)的训练成本正呈现出惊人 的倍数级增长趋势。前沿模型训练成本每年约 2–3 倍增长,至 2027 年或超 10 亿美元。成本构成 以加速器 / 服务器 / 互联折旧(47%–67%)与研发薪酬(29%–49%)为主,能源 2%–6%。这 迫使业界转向算法效率与底层架构的根本创新。 [3] [4] 超节点发展报告 09 图 2.2 大模型训练成本增长趋势图(数据来源 ) 5 6 趋势四:AI 正迈向多模态与智能体的“复杂性”涌现 大模型技术正从单一模态向多模态融合,从简单的问答工具向具备复杂行为能力的智能体演进。 Gartner 预测到 2030 年 80% 企业软件与应用将是多模态 。多模态打通文本 / 图像 / 音频,智能体 具备目标设定—推理—规划—工具调用能力,计算从可预测的“蛮力”转向动态、异构、有状态的“认 知计算”,多模态打通文本 / 图像 / 音频,智能体具备目标设定—推理—规划—工具调用能力,计算 从可预测的“蛮力”转向动态、异构、有状态的“认知计算”,基础设施重心转为低时延互联 + 智 能编排平台。 [7] 模型发展的不同阶段,算力系统面临的瓶颈和挑战也在不断演变。AI 的核心任务从“生成”转向“交 互”,即从一个数字世界的“内容创作者”,变为一个能够理解并影响物理世界的“行动者”。这 一范式转变,对底层的计算架构提出了与单纯追求规模截然不同的新挑战。 1. 单卡阶段(CV 模型主导):在计算机视觉(CV)模型为主的时期,模型可以完全放入单个 加速卡中进行训练。此时的并行策略主要是数据并行,单卡的计算能力是主要瓶颈。 2.3 大模型计算基础设施的挑战 超节点发展报告 10 2. 单机阶段(小参数 NLP 模型主导):随着 NLP 模型的出现,单卡显存不足以容纳整个模型, 训练扩展到单机八卡。此时,数据并行和模型并行结合使用,节点内部的通信带宽(如 NVLink)成 为瓶颈。 3. 传统服务器集群阶段(大模型主导):当模型参数达到千亿乃至万亿级别,单机已无法满足需 求,必须使用大规模服务器集群进行训练。这引入了序列并行、专家并行等更复杂的并行策略。训 练集群的总规模(卡数)是数据并行(DP)、张量并行(TP)、流水并行(PP)和序列并行(CP) 等多种并行维度的乘积。随着集群规模增大,单纯扩大数据并行(DP)维度会受到限制。因为在全 局批次大小(GBS)固定的情况下,增加 DP 会减小每张卡的微批次大
下载文档到本地,方便使用
共 31 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.