AI计算节点发展研究报告（2026年）-中国信通院 - 维度跃迁

语言	格式	评分
中文（简体）	.pdf	3
概览
AI 计算节点发展研究报告 (2026 年) 中国信息通信研究院云计算与数字化研究所 2026年3月版权声明本报告版权属于中国信息通信研究院，并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的，应注明“来源：中国信息通信研究院”。违反上述声明者，本院将追究其相关法律责任。前言当前，全球人工智能（AI）加速发展，伴随着大模型参数规模与训练数据大幅增长，AI 产业发展推动全球 AI 算力市场规模持续扩大，互联网、金融、制造等重点行业智能化转型进一步放大算力需求。同时，传统算力架构面临单机性能受限、集群扩展瓶颈、资源利用率偏低等多重挑战，新型架构探索成为突围算力瓶颈的关键路径。AI 计算节点作为构建超大规模智能算力集群的核心，依托高速互联技术融合多算力芯片形成规模化计算单元，有效破解 AI 大模型训练中的算力协同与效率难题。在此背景下，智能算力作为支撑人工智能高质量发展的重要基础，已成为国家战略支点，多国加大政策支持与投资力度，我国也通过多项政策部署，推动 AI 计算节点技术突破与工程落地。同时，我国智能算力正处于从规模化扩张向高效化提升的关键期，AI 计算节点凭借高密集约、高速超宽、高效灵活、高稳可靠的核心特征，通过节点架构重构、超低时延网络、CXL 内存、智能算力调度、绿色低碳供能等核心技术创新，在大模型训练、高并发推理及金融、工业、能源等行业场景应用中发挥着关键支撑作用。立足新发展阶段，本报告系统分析 AI 计算节点发展概况、核心技术、应用场景、产业生态及未来趋势，为政策制定、技术研发与产业应用提供参考，助力构建先进易用、绿色高效的算力基础设施，推动 AI 与实体经济深度融合，夯实数字经济发展基础。时间仓促，报告仍有诸多不足，恳请各界批评指正。后续我们将不断更新完善，如有意见建议请联系中国信通院研究团队： dceco@caict.ac.cn。目录一、 AI 计算节点发展概况........................................................................................ 1 （一）定义与核心特征.......................................................................................1 （二）发展背景...................................................................................................2 （三）发展阶段与演进脉络...............................................................................6 二、 AI 计算节点核心技术分析................................................................................ 7 （一）节点架构重构，驱动算力高效聚合.......................................................7 （二）异构计算技术，实现算力密度突破.......................................................9 （三）超低时延网络，破解数据传输瓶颈 .................................................10 （四） HBM 与 CXL，突破存储带宽瓶颈......................................................11 （五）智能算力调度，提升资源利用效率 .................................................12 （六）绿色低碳供能，保障系统高效运行 .................................................12 三、 AI 计算节点典型应用场景 .......................................................................... 13 （一）大模型训练场景：支撑万亿参数模型高效训练.................................13 （二）高并发推理场景：保障生成式 AI 服务实时响应.............................. 14 （三）行业智算场景：适配重点领域定制化需求.........................................15 四、 AI 计算节点产业生态建设分析...................................................................... 18 （一）国际视角：技术引领与生态开放并行.................................................19 （二）国内发展：多主体协同与自主生态构建.............................................20 五、 AI 计算节点未来趋势.................................................................................... 22 （一）政策聚焦自主创新与多维支撑........................................................... 22 （二）技术关注高效互联与高密集成.............................................................23 （三）产业格局头部引领与多方协同.............................................................24 （四）行业应用试点向全域渗透迈进.............................................................25 图目录图 1 AI 计算节点组网.................................................................................................1 图 2 AI 计算节点特征.................................................................................................2 图 3 全球人工智能服务器市场规模预测.................................................................3 图 4 AI 计算节点组网架构.........................................................................................9 表目录表 1 国内外 AI 计算节点产业生态对比.................................................................18 AI 计算节点发展研究报告（2026 年） 1 一、AI 计算节点发展概况（一）定义与核心特征在 AI 技术加速迭代演进的背景下，我国智能算力需求正从规模化扩张向高效化提升转型，AI 计算节点已成为支撑智能算力发展的核心算力单元。AI 计算节点是构建大规模算力集群的技术架构，最早由英伟达提出，指将多张 GPU 集成在一个逻辑单元内，形成类似 “超级计算节点”的系统。与传统架构相比，该节点通过高速互联技术整合多算力芯片形成计算单元，有效破解 AI 大模型训练中的算力协同与效率问题，实现效率的显著优化。具体来说，作为以超大带宽实现多卡 GPU-GPU、GPU-CPU 及 GPU-Memory 高效互联的 Scale-Up（纵向扩展）系统，AI 计算节点以高带宽域（High-Bandwidth Domain，HBD）为基本单元，通过传统 Scale-Out（横向扩展）扩展方式构建更大规模的算力集群，有效解决 AI 大模型训练过程中算力协同不足、资源调度效率偏低等突出问题，为 AI 产业高质量发展提供坚实的算力支撑。来源：中国信通院图 1 AI 计算节点组网 AI 计算节点发展研究报告（2026 年） 2 从技术层面看，AI 计算节点的核心特征集中体现在高密集约、高速超宽、高效灵活、高稳可靠四大能力。通过四大能力建设，构建起高效处理各类 AI 计算任务的基础架构，为 AI 应用创新发展提供坚实支撑。具体来看，一是高密集约能力，通过硬件架构创新与多芯片集成设计，实现计算资源的高效聚合，提升并行处理效能，为大规模 AI 任务提供核心算力单元支撑。二是高速超宽能力，聚焦构建高带宽、低时延数据传输体系，采用芯片级直连等技术，有效保障计算节点数据的高效流通，破解数据传输瓶颈。三是高效灵活能力，推动异构计算资源池化与软件定义调度，实现根据任务需求动态分配算力资源，提升基础设施利用效率与灵活性。四是高稳可靠能力，通过流量管理、故障冗余等机制，确保长周期、高负载 AI 任务连续稳定执行，强化系统运行的稳定性与容错能力。来源：中国信通院图 2 AI 计算节点特征（二）发展背景 1.人工智能发展催生智算缺口 AI 计算节点发展研究报告（2026 年） 3 当前，全球 AI 产业迭代加速，AI 大模型参数与训练数据量跨越式增长，各行业智能化转型提速，智算资源刚性缺口持续扩大，算力需求激增。国际数据公司（IDC）数据显示，2025 年全球人工智能服务器市场规模为 1587 亿美元，2028 年有望达到 2227 亿美元1。AI 大模型智能水平与性能提升高度依赖算力支撑，依据 Scaling Law（规模法则），扩大模型参数规模、增加训练数据量是提升大模型能力的核心路径。而大模型参数规模已实现从百亿级向万亿级的跨越，主流大模型训练数据量从千亿级 token 跃升至数十万亿级 token，节点间数据传输量几何级增长，进一步加剧了算力资源供给压力。来源：IDC 图 3 全球人工智能服务器市场规模预测 AI 技术在互联网、金融、制造业等规模化落地进一步放大了智能算力的需求缺口。随着 DeepSeek、Llama 等开源大模型的普及，大模型在各行业的落地应用将持续提速，行业模型的智能算力需求也将快速增长。互联网行业，头部平台算力需求爆发式增长。如字节跳动全球日活用户达 15 亿，AI 推荐引擎每日处理千亿级数据。金融行业， 1 国际数据公司（IDC）、浪潮信息，《2025 年中国人工智能计算力发展评估报告》 AI 计算节点发展研究报告（2026 年） 4 合规约束加剧算力刚性短缺。如邮储银行在“智慧投行”建设中，将 AI 超算与高性能计算融合，形成以千卡算力集群为核心的算力平台，支撑风控、投研、交易等业务的实时计算。制造行业，工业 AI 的深度渗透，催生巨量算力需求。如小鹏汽车研发 720 亿参数模型，已建成万卡智算集群，集群利用率长期稳定在 90%以上，但高峰时仍需外部调配算力才能满足需求。此外，在教育、娱乐等领域的智能问答、个性化推荐等场景，算力需求缺口同样显著。 2.智算中心成为国家战略支点多国政府将 AI 基础设施建设上升至国家战略，持续加大投资及政策支持。美国“网络与信息技术研发计划”(NITRD)人工智能研发投资预算增长至 31 亿美元，占整体年预算的近三分之一，相比于上一年提高 19.2%。2025 年 1 月，美国政府公布“星际之门”的国家级人工智能基础设施计划，预计将投入 5000 亿美元用于美国国内人工智能基础设施建设。2025 年 11 月，美国特朗普政府启动的一项国家级人工智能（AI）科研动员计划—“创世纪计划”旨在整合联邦科学资源，加速 AI 驱动的科学发现，以应对科技竞争，聚焦于先进制造、生物技术、关键材料、核能、量子科学和半导体等六大战略领域。英国在《AI 机会行动计划》中提出“AI 增长区”（AI Growth Zones），通过提供电力、规划审批等专项支持，鼓励在本土建设高密度 AI 数据中心，并计划在 2030 年前将 AI 研究资源容量扩大至少 20 倍。欧盟正在推进设立“人工智能工厂”，鼓励成员国建设人工智能基础设施建设，将向数字欧洲计划拨款 8 亿欧元，用于购买新的 AI 专用计 AI 计算节点发展研究报告（2026 年） 5 算资源或升级现有基础设施。加拿大启动《加拿大主权 AI 计算战略》，投入 10 亿美元建设国家级超级计算系统，形成面向科研、产业和政府的公共算力平台。日本发布的《2030 年数字基础设施发展规划》中明确指出数据中心、海底光缆、AI 等“AI 时代新型数字基础设施” 的发展规划。为抢抓全球 AI 产业竞争主动权，我国持续强化算力网络顶层设计与建设推进，加大政策支持力度。国家层面，明确 AI 计算节点发展方向。政策出台呈现“梯度推进、重点突出”特征，2023 年印发《算力基础设施高质量发展行动计划》和《关于深入实施“东数西算” 工程加快构建全国一体化算力网的实施意见》，旨在不断完善算力基础设施建设，增强算力赋能成效。2024 年《推动工业领域设备更新实施方案》提出推动“云边端”算力协同发展，加大高性能智算供给，在算力枢纽节点建设智算中心。2025 年《关于深入实施“人工智能+” 行动的意见》明确提出，“支持人工智能芯片攻坚创新与使能软件生态培育，加快超大规模智算集群技术突破和工程落地。” 3.新型架构探索突围算力瓶颈随着 AI 模型参数与训练数据不断扩张，传统算力架构面临单机性能受限、集群扩展瓶颈等双重挑战，架构升级迫在眉睫。单芯片算力提升遭遇技术瓶颈，受“内存墙”等制约，算力效能难以充分释放，先进架构下实际有效算力利用率普遍偏低，大量算力资源处于闲置状态。集群扩展模式同样受限，传统方案下集群扩大到一定规模后，有效算力受到限制，而万亿级参数模型需更大规模并行计算。 AI 计算节点发展研究报告（2026 年） 6 大模型“参数-数据-性能”正向循环催生通信密集型场景，传统架构系统性瓶颈凸显。主流大模型训练数据量从数十 TB 跃升至 PB 级，节点间数据传输量几何级增长，动态交互对低时延、高带宽传输需求严苛。同时，硬件、软件以及集群扩展层面资源利用率偏低问题突出。硬件层面，“训推分离”导致小规模集群 GPU 利用率不足 50%，大规模集群“算力黑洞”效应使利用率低于 30%。软件层面，现有调度系统难以适配大模型训练过程中的动态变化，导致计算资源未能最大化利用，集群扩展成本高且难以实现弹性伸缩。（三）发展阶段与演进脉络 AI 计算节点发展脉络可以分为三个阶段，从早期分散式设备简单互联，逐步向机间协同组网，再到规模化卡间直连迭代，节点互联效率、算力聚合密度、资源协同能力显著提升。在互联网应用发展时期，业务应用以网页服务、电子商务、在线办公等简单数据交互型业务为主，对算力协同需求较低。算力供给模式以多服务器分布式互联为核心，通过负载均衡机制实现业务流量调度，无需构建复杂的节点协同体系。算力密度维持在单机柜数千瓦阶段，节点间互联以百千兆以太网为主，算力协同局限于单一机柜内少量设备，整体架构灵活性与扩展性较弱，尚未形成规模化的算力聚合与协同调度体系。在人工智能发展初期，业务应用以中小规模模型训练、计算机视觉、语音处理等 AI 任务为主，算力需求从简单数据处理和交互向密集型计算演变，单服务器算力已无法满足需求，多服务器集群协作成 AI 计算节点发展研究报告（2026 年） 7 为主流形态。多服务器间通过 InfiniBand、万兆以太网等机间互联技术进行组网，构建中等规模集群，实现高效数据交互，保障模型训练过程中的多节点参数同步与数据传输需求。同时，基础设施指标实现跃升，算力密度随 GPU 等 AI 算力芯片的集中部署提升至单机柜十几至几十千瓦，节点间互联带宽也实现跃升，算力协同范围从“单机柜” 扩展到“多机柜”，仍依赖基础集群管理工具，实现计算资源的统一管理与任务分配，算力聚合仍以“堆叠独立算力单元”为主，受限于机间网络延迟与带宽，多机协同效率存在瓶颈，且卡间数据交互需经服务器中转，存在明显时延损耗，未形成规模化的算力聚合能力，算力资源利用率有待提升。在大模型快速发展时期，大模型参数规模向千亿、万亿跨越，单任务算力需求呈指数级增长，传统机间互联架构难以满足低延迟、高带宽的通信要求，AI 计算节点架构迎来变革。业界通过 NVLink 等超高速互联技术实现 GPU 间的直接通信，构建起内存共享、算力一体的 AI 计算节点单元，算力密度进一步跃升，节点内互联带宽较机间网络大幅提升，通信延迟显著降低。同时，借助 InfiniBand、RoCE 等高速网络将多个 AI 计算节点组成集群，配合调度系统实现算力的全局协同，形成了新型算力架构，突破传统“堆叠算力单元”的模式，实现了算力资源的池化与协同，为大模型训练提供算力扩展能力。二、AI 计算节点核心技术分析（一）节点架构重构，驱动算力高效聚合 AI 计算节点发展研究报告（2026 年） 8 为应对千亿、万亿参数大模型训练对通信性能的极致要求，传统以服务器为单元、依赖外部网络堆叠的算力架构已成为制约算力效能释放主要瓶颈。当前 AI 计算节点的演进主线是从“以连接 CPU 为中心”转向“以 GPU 互联为中心”，通过架构层面的重构，实现算力资源的高效聚合与全局协同。其核心突破体现在三个层面：一是卡间高速互联构建紧耦合计算单元。通过在单节点或高密度机柜内大规模部署 NVLink 等卡间直连技术，将数十至上百张加速卡整合为一个内存统一寻址、算力无缝调用的“超级计算单元”。卡间通信带宽显著提升，延迟明显降低，解决了张量并行等紧耦合任务中的通信瓶颈。二是节点内互联拓扑优化通信效率。AI 计算节点普遍采用非阻塞的 Mesh、全连接或胖树拓扑，替代传统的多层收敛架构。三是集群级网络实现大规模弹性扩展。 AI 计算节点作为基本算力模块，通过 InfiniBand 或 RoCE 高速网络进行互联，并借助全局调度系统实现跨节点的任务协同与资源池化。计算集群既能通过Scale-Up在节点内获得极

下载文档到本地，方便使用

共 33 页，还有 6 页可预览，继续阅读

文档评分

it方案

文档

3225

文章

0

积分

10216

个性签名

暂无个性签名