pdf文档 AI计算节点发展研究报告(2026年)-中国信通院 VIP文档

1.37 MB 33 页 3 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
AI 计算节点发展研究报告 (2026 年) 中国信息通信研究院云计算与数字化研究所 2026年3月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。 转载、摘编或利用其它方式使用本报告文字或者观点的, 应注明“来源:中国信息通信研究院”。违反上述声明者, 本院将追究其相关法律责任。 前 言 当前,全球人工智能(AI)加速发展,伴随着大模型参数规模 与训练数据大幅增长,AI 产业发展推动全球 AI 算力市场规模持续 扩大,互联网、金融、制造等重点行业智能化转型进一步放大算力 需求。同时,传统算力架构面临单机性能受限、集群扩展瓶颈、资 源利用率偏低等多重挑战,新型架构探索成为突围算力瓶颈的关键 路径。AI 计算节点作为构建超大规模智能算力集群的核心,依托高 速互联技术融合多算力芯片形成规模化计算单元,有效破解 AI 大模 型训练中的算力协同与效率难题。 在此背景下,智能算力作为支撑人工智能高质量发展的重要基 础,已成为国家战略支点,多国加大政策支持与投资力度,我国也 通过多项政策部署,推动 AI 计算节点技术突破与工程落地。同时, 我国智能算力正处于从规模化扩张向高效化提升的关键期,AI 计算 节点凭借高密集约、高速超宽、高效灵活、高稳可靠的核心特征, 通过节点架构重构、超低时延网络、CXL 内存、智能算力调度、绿 色低碳供能等核心技术创新,在大模型训练、高并发推理及金融、 工业、能源等行业场景应用中发挥着关键支撑作用。 立足新发展阶段,本报告系统分析 AI 计算节点发展概况、核心 技术、应用场景、产业生态及未来趋势,为政策制定、技术研发与 产业应用提供参考,助力构建先进易用、绿色高效的算力基础设施, 推动 AI 与实体经济深度融合,夯实数字经济发展基础。 时间仓促,报告仍有诸多不足,恳请各界批评指正。后续我们 将不断更新完善,如有意见建议请联系中国信通院研究团队: dceco@caict.ac.cn。 目 录 一、 AI 计算节点发展概况........................................................................................ 1 (一) 定义与核心特征.......................................................................................1 (二) 发展背景...................................................................................................2 (三) 发展阶段与演进脉络...............................................................................6 二、 AI 计算节点核心技术分析................................................................................ 7 (一) 节点架构重构,驱动算力高效聚合.......................................................7 (二) 异构计算技术,实现算力密度突破.......................................................9 (三) 超低时延网络,破解数据传输瓶颈​ .................................................10 (四) HBM 与 CXL,突破存储带宽瓶颈......................................................11 (五) 智能算力调度,提升资源利用效率​ .................................................12 (六) 绿色低碳供能,保障系统高效运行​ .................................................12 三、 AI 计算节点典型应用场景​ .......................................................................... 13 (一) 大模型训练场景:支撑万亿参数模型高效训练.................................13 (二) 高并发推理场景:保障生成式 AI 服务实时响应.............................. 14 (三) 行业智算场景:适配重点领域定制化需求.........................................15 四、 AI 计算节点产业生态建设分析...................................................................... 18 (一) 国际视角:技术引领与生态开放并行.................................................19 (二) 国内发展:多主体协同与自主生态构建.............................................20 五、 AI 计算节点未来趋势.................................................................................... 22 (一) 政策聚焦自主创新与多维支撑........................................................... 22 (二) 技术关注高效互联与高密集成.............................................................23 (三) 产业格局头部引领与多方协同.............................................................24 (四) 行业应用试点向全域渗透迈进.............................................................25 图 目 录 图 1 AI 计算节点组网.................................................................................................1 图 2 AI 计算节点特征.................................................................................................2 图 3 全球人工智能服务器市场规模预测.................................................................3 图 4 AI 计算节点组网架构.........................................................................................9 表 目 录 表 1 国内外 AI 计算节点产业生态对比.................................................................18 AI 计算节点发展研究报告(2026 年) 1 一、AI 计算节点发展概况 (一)定义与核心特征 在 AI 技术加速迭代演进的背景下,我国智能算力需求正从规模 化扩张向高效化提升转型,AI 计算节点已成为支撑智能算力发展的 核心算力单元。AI 计算节点是构建大规模算力集群的技术架构,最 早由英伟达提出,指将多张 GPU 集成在一个逻辑单元内,形成类似 “超级计算节点”的系统。与传统架构相比,该节点通过高速互联技 术整合多算力芯片形成计算单元,有效破解 AI 大模型训练中的算力 协同与效率问题,实现效率的显著优化。 具体来说,作为以超大带宽实现多卡 GPU-GPU、GPU-CPU 及 GPU-Memory 高效互联的 Scale-Up(纵向扩展)系统,AI 计算节点 以高带宽域(High-Bandwidth Domain,HBD)为基本单元,通过传 统 Scale-Out(横向扩展)扩展方式构建更大规模的算力集群,有效 解决 AI 大模型训练过程中算力协同不足、资源调度效率偏低等突出 问题,为 AI 产业高质量发展提供坚实的算力支撑。 来源:中国信通院 图 1 AI 计算节点组网 AI 计算节点发展研究报告(2026 年) 2 从技术层面看,AI 计算节点的核心特征集中体现在高密集约、 高速超宽、高效灵活、高稳可靠四大能力。通过四大能力建设,构建 起高效处理各类 AI 计算任务的基础架构,为 AI 应用创新发展提供坚 实支撑。具体来看,一是高密集约能力,通过硬件架构创新与多芯片 集成设计,实现计算资源的高效聚合,提升并行处理效能,为大规模 AI 任务提供核心算力单元支撑。二是高速超宽能力,聚焦构建高带 宽、低时延数据传输体系,采用芯片级直连等技术,有效保障计算节 点数据的高效流通,破解数据传输瓶颈。三是高效灵活能力,推动异 构计算资源池化与软件定义调度,实现根据任务需求动态分配算力资 源,提升基础设施利用效率与灵活性。四是高稳可靠能力,通过流量 管理、故障冗余等机制,确保长周期、高负载 AI 任务连续稳定执行, 强化系统运行的稳定性与容错能力。 来源:中国信通院 图 2 AI 计算节点特征 (二)发展背景 1.人工智能发展催生智算缺口 AI 计算节点发展研究报告(2026 年) 3 当前,全球 AI 产业迭代加速,AI 大模型参数与训练数据量跨越 式增长,各行业智能化转型提速,智算资源刚性缺口持续扩大,算力 需求激增。国际数据公司(IDC)数据显示,2025 年全球人工智能服 务器市场规模为 1587 亿美元,2028 年有望达到 2227 亿美元1。AI 大 模型智能水平与性能提升高度依赖算力支撑,依据 Scaling Law(规 模法则),扩大模型参数规模、增加训练数据量是提升大模型能力的 核心路径。而大模型参数规模已实现从百亿级向万亿级的跨越,主流 大模型训练数据量从千亿级 token 跃升至数十万亿级 token,节点间 数据传输量几何级增长,进一步加剧了算力资源供给压力。 来源:IDC 图 3 全球人工智能服务器市场规模预测 AI 技术在互联网、金融、制造业等规模化落地进一步放大了智 能算力的需求缺口。随着 DeepSeek、Llama 等开源大模型的普及,大 模型在各行业的落地应用将持续提速,行业模型的智能算力需求也将 快速增长。互联网行业,头部平台算力需求爆发式增长。如字节跳动 全球日活用户达 15 亿,AI 推荐引擎每日处理千亿级数据。金融行业, 1 国际数据公司(IDC)、浪潮信息,《2025 年中国人工智能计算力发展评估报告》 AI 计算节点发展研究报告(2026 年) 4 合规约束加剧算力刚性短缺。如邮储银行在“智慧投行”建设中,将 AI 超算与高性能计算融合,形成以千卡算力集群为核心的算力平台, 支撑风控、投研、交易等业务的实时计算。制造行业,工业 AI 的深 度渗透,催生巨量算力需求。如小鹏汽车研发 720 亿参数模型,已建 成万卡智算集群,集群利用率长期稳定在 90%以上,但高峰时仍需外 部调配算力才能满足需求。此外,在教育、娱乐等领域的智能问答、 个性化推荐等场景,算力需求缺口同样显著。 2.智算中心成为国家战略支点 多国政府将 AI 基础设施建设上升至国家战略,持续加大投资及 政策支持。美国“网络与信息技术研发计划”(NITRD)人工智能研发 投资预算增长至 31 亿美元,占整体年预算的近三分之一,相比于上 一年提高 19.2%。2025 年 1 月,美国政府公布“星际之门”的国家级 人工智能基础设施计划,预计将投入 5000 亿美元用于美国国内人工 智能基础设施建设。2025 年 11 月,美国特朗普政府启动的一项国家 级人工智能(AI)科研动员计划—“创世纪计划”旨在整合联邦科学 资源,加速 AI 驱动的科学发现,以应对科技竞争,聚焦于先进制造、 生物技术、关键材料、核能、量子科学和半导体等六大战略领域。英 国在《AI 机会行动计划》中提出“AI 增长区”(AI Growth Zones), 通过提供电力、规划审批等专项支持,鼓励在本土建设高密度 AI 数 据中心,并计划在 2030 年前将 AI 研究资源容量扩大至少 20 倍。欧 盟正在推进设立“人工智能工厂”,鼓励成员国建设人工智能基础设 施建设,将向数字欧洲计划拨款 8 亿欧元,用于购买新的 AI 专用计 AI 计算节点发展研究报告(2026 年) 5 算资源或升级现有基础设施。加拿大启动《加拿大主权 AI 计算战略》, 投入 10 亿美元建设国家级超级计算系统,形成面向科研、产业和政 府的公共算力平台。日本发布的《2030 年数字基础设施发展规划》 中明确指出数据中心、海底光缆、AI 等“AI 时代新型数字基础设施” 的发展规划。 为抢抓全球 AI 产业竞争主动权,我国持续强化算力网络顶层设 计与建设推进,加大政策支持力度。国家层面,明确 AI 计算节点发 展方向。政策出台呈现“梯度推进、重点突出”特征,2023 年印发 《算力基础设施高质量发展行动计划》和《关于深入实施“东数西算” 工程加快构建全国一体化算力网的实施意见》,旨在不断完善算力基 础设施建设,增强算力赋能成效。2024 年《推动工业领域设备更新 实施方案》提出推动“云边端”算力协同发展,加大高性能智算供给, 在算力枢纽节点建设智算中心。2025 年《关于深入实施“人工智能+” 行动的意见》明确提出,“支持人工智能芯片攻坚创新与使能软件生 态培育,加快超大规模智算集群技术突破和工程落地。” 3.新型架构探索突围算力瓶颈 随着 AI 模型参数与训练数据不断扩张,传统算力架构面临单机 性能受限、集群扩展瓶颈等双重挑战,架构升级迫在眉睫。单芯片算 力提升遭遇技术瓶颈,受“内存墙”等制约,算力效能难以充分释放, 先进架构下实际有效算力利用率普遍偏低,大量算力资源处于闲置状 态。集群扩展模式同样受限,传统方案下集群扩大到一定规模后,有 效算力受到限制,而万亿级参数模型需更大规模并行计算。 AI 计算节点发展研究报告(2026 年) 6 大模型“参数-数据-性能”正向循环催生通信密集型场景,传统 架构系统性瓶颈凸显。主流大模型训练数据量从数十 TB 跃升至 PB 级,节点间数据传输量几何级增长,动态交互对低时延、高带宽传输 需求严苛。同时,硬件、软件以及集群扩展层面资源利用率偏低问题 突出。硬件层面,“训推分离”导致小规模集群 GPU 利用率不足 50%, 大规模集群“算力黑洞”效应使利用率低于 30%。软件层面,现有调 度系统难以适配大模型训练过程中的动态变化,导致计算资源未能最 大化利用,集群扩展成本高且难以实现弹性伸缩。 (三)发展阶段与演进脉络 AI 计算节点发展脉络可以分为三个阶段,从早期分散式设备简 单互联,逐步向机间协同组网,再到规模化卡间直连迭代,节点互联 效率、算力聚合密度、资源协同能力显著提升。 在互联网应用发展时期,业务应用以网页服务、电子商务、在线 办公等简单数据交互型业务为主,对算力协同需求较低。算力供给模 式以多服务器分布式互联为核心,通过负载均衡机制实现业务流量调 度,无需构建复杂的节点协同体系。算力密度维持在单机柜数千瓦阶 段,节点间互联以百千兆以太网为主,算力协同局限于单一机柜内少 量设备,整体架构灵活性与扩展性较弱,尚未形成规模化的算力聚合 与协同调度体系。 在人工智能发展初期,业务应用以中小规模模型训练、计算机视 觉、语音处理等 AI 任务为主,算力需求从简单数据处理和交互向密 集型计算演变,单服务器算力已无法满足需求,多服务器集群协作成 AI 计算节点发展研究报告(2026 年) 7 为主流形态。多服务器间通过 InfiniBand、万兆以太网等机间互联技 术进行组网,构建中等规模集群,实现高效数据交互,保障模型训练 过程中的多节点参数同步与数据传输需求。同时,基础设施指标实现 跃升,算力密度随 GPU 等 AI 算力芯片的集中部署提升至单机柜十几 至几十千瓦,节点间互联带宽也实现跃升,算力协同范围从“单机柜” 扩展到“多机柜”,仍依赖基础集群管理工具,实现计算资源的统一 管理与任务分配,算力聚合仍以“堆叠独立算力单元”为主,受限于 机间网络延迟与带宽,多机协同效率存在瓶颈,且卡间数据交互需经 服务器中转,存在明显时延损耗,未形成规模化的算力聚合能力,算 力资源利用率有待提升。 在大模型快速发展时期,大模型参数规模向千亿、万亿跨越,单 任务算力需求呈指数级增长,传统机间互联架构难以满足低延迟、高 带宽的通信要求,AI 计算节点架构迎来变革。业界通过 NVLink 等超 高速互联技术实现 GPU 间的直接通信,构建起内存共享、算力一体 的 AI 计算节点单元,算力密度进一步跃升,节点内互联带宽较机间 网络大幅提升,通信延迟显著降低。同时,借助 InfiniBand、RoCE 等高速网络将多个 AI 计算节点组成集群,配合调度系统实现算力的 全局协同,形成了新型算力架构,突破传统“堆叠算力单元”的模式, 实现了算力资源的池化与协同,为大模型训练提供算力扩展能力。 二、AI 计算节点核心技术分析 (一)节点架构重构,驱动算力高效聚合 AI 计算节点发展研究报告(2026 年) 8 为应对千亿、万亿参数大模型训练对通信性能的极致要求,传统 以服务器为单元、依赖外部网络堆叠的算力架构已成为制约算力效能 释放主要瓶颈。当前 AI 计算节点的演进主线是从“以连接 CPU 为中 心”转向“以 GPU 互联为中心”,通过架构层面的重构,实现算力 资源的高效聚合与全局协同。 其核心突破体现在三个层面:一是卡间高速互联构建紧耦合计算 单元。通过在单节点或高密度机柜内大规模部署 NVLink 等卡间直连 技术,将数十至上百张加速卡整合为一个内存统一寻址、算力无缝调 用的“超级计算单元”。卡间通信带宽显著提升,延迟明显降低,解 决了张量并行等紧耦合任务中的通信瓶颈。二是节点内互联拓扑优化 通信效率。AI 计算节点普遍采用非阻塞的 Mesh、全连接或胖树拓扑, 替代传统的多层收敛架构。三是集群级网络实现大规模弹性扩展。 AI 计算节点作为基本算力模块,通过 InfiniBand 或 RoCE 高速网络进 行互联,并借助全局调度系统实现跨节点的任务协同与资源池化。计 算集群既能通过Scale-Up在节点内获得极
下载文档到本地,方便使用
共 33 页, 还有 7 页可预览, 继续阅读
文档评分
请文明评论,理性发言.