pdf文档 全球计算联盟GCC:2025年异构算力协同白皮书 VIP文档

1.21 MB 31 页 0 下载 3 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
异构算力协同白皮书 Heterogeneous Computing Power Coordination White Paper 全球计算联盟 智能计算产业发展委员会 1 编写单位 中国电信股份有限公司 北京智源人工智能研究院 中科加禾(北京)科技有限公司 沐曦集成电路(上海)股份有限公司 中国信息通信研究院 科大讯飞股份有限公司 上海壁仞科技股份有限公司 编写组成员(排名不分先后) 陆钢、黄志兰、孙梦宇、王亚森、朱泽亚、王子潇、林显成、苏昱臻、刘圆、郭 雪芳、陈映、傅德基、任佳伟、师春雨、朱元瑞、栗蔚、刘如明、王润岩、敖玉 龙、常韬、李志宇、秦亚庆、施晶峰、周明耀,陈龙,臧路、丁云帆、李志、奚 林兴、申有志 版权声明 本研究报告版权属于全球计算联盟。 使用说明:未经全球计算联盟事先的书面授权,不得以任何方式复制、抄袭、影 印、翻译本文档的任何部分。凡转载或引用本文的观点、数据,请注明“来源: 全球计算联盟”。 1 序 当前,人工智能技术正以前所未有的速度重塑着世界,从 ChatGPT 引发的 大模型热潮,到多模态 AI 应用的蓬勃发展,再到各类智能体的不断涌现,每一 次智能技术的突破都推动算力需求呈现百倍级增长,需要不同芯片商、不同代际 的各类异构算力芯片齐头并进。 然而,因芯片架构不同、通信协议不统一、算存传能力差异而导致的异构算 力碎片化、生态割裂及协同效率不足等问题日益显现。构建统一计算、统一通信、 统一调度和统一评测的异构算力协同体系,实现异构算力间的无感知计算、无阻 碍通信协作、资源的高效调度和自动化测评,是推动异构算力基础设施迈向新阶 段的关键路径。 本白皮书通过系统性梳理算力产业发展现状、异构算力协同体系架构、关键 技术、解决方案与实践和未来技术展望,促进产业界对异构算力协同领域的深入 理解,加速技术成果的产业化应用。全球计算联盟智能计算产业发展委员会将与 产学研各界合作伙伴携手共进,推动国产算力底座性能持续跃升、异构算力协同 生态日趋繁荣,为人工智能时代的到来铺设更加坚实的算力基石! 全球计算联盟 智能计算产业发展委员会 2025 年 7 月 2 目 录 第一章 算力产业发展现状.............................................................................................................. 3 1.1 算力发展趋势.....................................................................................................................3 1.2 算力发展现状.....................................................................................................................4 1.3 异构算力的定义与内涵.....................................................................................................5 1.4 异构算力协同挑战..............................................................................................................6 第二章 算力协同体系架构.............................................................................................................. 8 第三章 异构算力协同关键技术....................................................................................................10 3.1 统一计算技术...................................................................................................................10 3.2 统一互联技术...................................................................................................................12 3.3 统一调度技术...................................................................................................................15 3.4 统一评测体系...................................................................................................................18 第四章 异构算力协同解决方案与实践........................................................................................20 4.1 “一模多芯”异构混池训练............................................................................................20 4.2 低成本异构混合推理.......................................................................................................22 第五章 未来技术展望.................................................................................................................... 25 5.1 芯片级:新计算范式芯片...............................................................................................25 5.2 主机级:超节点算力异构...............................................................................................25 5.3 集群级:跨域异构算力协同...........................................................................................25 5.4 场景融合:四算一体.......................................................................................................26 第六章 结论与展望........................................................................................................................ 27 3 第一章 算力产业发展现状 1.1 算力发展趋势 在政策与需求的双重引擎驱动下,中国算力产业已驶入高速发展的快车道。一方面,政 策端持续加码,自 2017 年 7 月以来,《新一代人工智能发展规划》率先提出“建设高效能 计算基础设施,强化超级计算中心对人工智能应用的服务能力”,为算力发展奠定基调; 2020 年 4 月,“新基建”战略进一步把数据中心、智能计算中心列为核心,全面鼓励产业 高质量跃升;随后,《“十四五”数字经济发展规划》、《数字中国建设整体布局规划》和 《关于推动新型信息基础设施协调发展有关事项的通知》等政策密集出台,系统优化全国算 力布局,引导智算中心有序落地、协同发展。另一方面,需求端爆发式增长,人工智能大模 型迭代进入“多模态+AI(Artificial Intelligence)智能体”阶段,对高并发、高能效、低 延时提出新的要求,持续倒逼芯片、架构与系统级创新,需求与政策同频共振,正将中国算 力产业推向新一轮技术革命。 通用算力、智能算力、超算算力均保持高速增长,智能算力在增长竞赛中跑出“超级加 速度”。2025 年,全球总算力已攀升至约 3300 EFLOPS,在三大主流形态中,通用算力约 为 1150 EFLOPS,占比首次跌破 35%,降至 34.8%;智能算力则因大模型和 AI 智能体应用 的持续井喷,规模激增至 1980 EFLOPS,占比已高达 60%,成为拉动全球算力增长的核心 引擎;超算算力虽然绝对值较小,但也扩张至约 170 EFLOPS,稳居 5%左右的份额,继续 在尖端科研与工程仿真中扮演“重器”角色。聚焦中国,智能算力已无可争议地成为中国算 力版图的中坚力量,国务院新闻办公室举行新闻发布会宣布,截至 2025 年 3 月底,我国智 能算力规模达到 748 EFLOPS,为海量数据计算提供智能底座。随着更多用户和场景加入, 大模型的普及与应用落地带动了数据中心、边缘及端侧算力建设,从而驱动了算力需求的增 长。预计到 2026 年,中国智能算力规模将进一步增长至 1460.3 EFLOPS,并在 2028 年达 到 2781.9 EFLOPS。智能算力已不仅是技术底座,更是产业跃迁的“主引擎”,也将持续 向千行百业渗透,成为撬动数字经济下一轮爆发式增长的核心支点。 4 1.2 算力发展现状 国外以英伟达、AMD 为首的两大芯片巨头凭借其技术优势,在算力领域长期占据领先 地位,在全球范围内,两大芯片巨头占据全球算力市场 34%的份额: (1)英伟达采用“单封装双芯粒”路线,把算力密度和内存带宽推到极致,也带来高 耗电和高昂的成本,2025 年推出 Blackwell B200,并抛出 2026–2027 路线图,Vera Rubin 与 Rubin Ultra 已在路上,Rubin 推理峰值 50 PFLOPS、HBM4 内存 288 GB,FP4 稀疏算 力是 B200 的 2.5 倍。 (2)AMD 把 Chiplet 思路发挥到极致,多颗小 Die 通过 Infinity Fabric 灵活组合,用 更低功耗拼出同级算力,MI350 已支持 FP4/FP6 低精度格式,MI400 将延续“多芯粒+大内 存”策略,试图以性价比和能效比撕开英伟达的生态护城河。2025 年 6 月的 Advancing AI 大会上,AMD 发布 MI350 系列(MI350X/MI355X),采用 CDNA4 架构、台积电第二代 3 nm、 1850 亿晶体管、288 GB HBM3E、峰值 2.3 PFLOPS,与 B200 针尖对麦芒,2026 年的 MI400 更将迈入 2 nm,432 GB HBM4 + 19.6 TB/s 带宽,目标直指 Rubin。 国内算力芯片起步晚但发展迅速,逐渐呈现“一超多强”的国产芯片产业格局,以下列 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 全互联架构,搭建“芯片—XPU-Lite 框架— 千卡 1.2 TB/s XPU-Link 集群—百度文心大模型”四级闭环,已在百度内部提供 90%以上文 心系列训练算力,日均稳态负载 85%+。 (3)壁仞科技采用 Chiplet 架构设计大算力芯片,其首款 GPGPU(General-Purpose Computing on Graphics Processing Units)产品 BR100 在 2022 年发布时创下全球算力记 录,基于该芯片架构的壁砺系列 GPU 已落地千卡集群并开展商业化落地应用,其“软硬一 5 体异构协同的国产 GPU(Graphics Processing Unit)智算集群解决方案”获得工信部 2024 年未来产业创新发展“标志性产品”优秀典型案例。 (4)沐曦曦云 C 系列训推一体 GPU 芯片,基于全自研的 GPU IP、指令集和架构,拥 有多精度混合算力,内置大量运算核心,具有较强的并行计算能力和较高的能效比,在通用 性、单卡性能、集群性能及稳定性、生态兼容与迁移效率等方面均达到领先水平。 (5)海光 DCU(Deep Computing Unit),GPGPU 通用计算架构,自研 DTK 软件栈, 支持 PaddlePaddle、TensorFlow、PyTorch 等主流框架,已适配 DeepSeek、LLaMa 和 GPT 等大模型,高效能 AI 训推一体化,搭建“芯片—DTK+HipBLAS/HipFFT—DCU 集群— 训推一体+工业仿真”四级闭环,在科教、金融、医疗、政务、智算中心等多个领域实现 DCU 集群以及异构混池规模化应用。 可以看出,国产芯片技术路线也呈现“百花齐放、分层突破”,革新 Chiplet 与先进封 装、稀疏化与低比特计算、软件栈生态等,逐渐搭建从“可用”到“好用”、从“单点”到 “集群”的国产芯片矩阵。 1.3 异构算力的定义与内涵 从广义上讲,异构算力是指采用不同的计算架构,通过将不同类型指令集和体系结构的 计算单元相组合,包括 GPU、CPU(Central Processing Unit)、NPU(Neural Processing Unit)、FPGA(Field-Programmable Gate Array)等,实现对不同类型计算任务的优化。 与传统同构算力相比,异构算力强调在指令集架构、处理器类型、通信接口、内存访问模式 等多个层面的差异性与互补性,但也对异构算力整体系统性的资源管理、软件适配、调度优 化提出了更高的要求。 本白皮书聚焦智算领域的异构算力,具体是指面向大模型应用,采用不同架构设计的人 工智能芯片算力,通常包括来源于不同的厂家或同一厂家设计的不同代际产品,使其在计算 性能、容量带宽、访存系统和编程模型等方面具有差异性。异构算力按技术路线可划分为 GPGPU 和专用 ASIC(Application-Specific Integrated Circuit)两类路线。 GPGPU 是一种突破性的异构芯片架构,其核心在于将 GPU 从专有图形处理器转化为 6 通用并行协处理器。这一技术通过重构 GPU 底层硬件资源流水线设计与调用逻辑,使原本 仅处理图形渲染流水线的数千个计算核心,能够高效执行科学计算、数据分析和机器学习等 非图形化任务,实现了对传统 CPU 计算体系的革命性扩展。ASIC 通过定制化硬件架构,将 计算任务固化于电路设计,其核心在于以降低通用性为代价,针对特定算法或应用场景进行 晶体管级优化,实现远超通用芯片的计算效率与能效比,这一技术通过重构计算单元、内存 层级及指令集,使芯片变成“领域专用体系架构”。 1.4 异构算力协同挑战 智算算力“百花齐放”呈现多元异构局面,面临异构算力“资源墙”、软件栈“生态割 裂”和协同调度“效率低”三方面的挑战。 (1)异构算力“资源墙”因其硬件架构、互联拓扑等物理差异,阻碍了不同厂商、不 同架构算力间的有效协同:一方面,由于各类算力芯片间存在架构设计、数据类型等差异, 导致算力单元间二进制不兼容,无法进行同一计算任务的协同配合。另一方面,单机层面不 同算力芯片互联拓扑差异,具有 Cube-Mesh、Full-Mesh 等异构互联方式,造成了服务器 卡间通信的壁垒。集群层面,服务器具有不同的网卡带宽,不同服务器类型组网方式不同, 限制了跨厂商服务器间的高速互联,也造成了异构算力的协同孤岛。 (2)异构算力软件栈“生态割裂”,算子、通信库、框架版本等层面构造和适配情况 各异,影响异构算力间的互联互通:一方面,异构算力算子实现方式受其硬件架构影响,且 每种算力厂 商具有自己的集合 通信库,例如英伟 达使用 NCCL (NVIDIA Collective Communications Library)、华为昇腾使用 HCCL(Huawei Collective Communication Library),通信机制和硬件架构深度绑定,导致它们通信协议和底层实现方式完全不同。 另一方面,不同算力厂商及其开发团队基于自身需求,定制了特定版本的库和框架,且在针 对既有框架进行适配时,因其进度不同具有代际差,使得在多种硬件架构上运行相同的计算 实例时,所依赖的软件环境存在不一致性。 (3)异构算力基于现有调度机制协同“效率低”,因其算存传均有差异导致无法从应 用层映射到最佳硬件:针对传统训练框架,并行策略是按照其算力芯片数量进行平均划分, 7 但其在异构算力下平均分配因其计算能力、传输能力差异性造成模型计算量处理不同步、集 合通信数据传输有堵点,“快等慢”造成部分资源浪费。针对大模型推理过程,由于预填充 和解码阶段对算力和显存的需求量不同,传统大模型推理过程算力显存阶段互为瓶颈,造成 低水平资源利用率,需要解决异构算力协同调度问题使其匹配到最优计算任务。 8 第二章 算力协同体系架构 为了打破异构算力生态壁垒,实现不同类型智算异构算力高效协同工作,南向屏蔽底层 ASIC、GPGPU 不同路线算力差异,北向承载多场景、多行业、多模态大模型,构建异构算 力协同生态体系,实现异构算力的无感知计算、无阻碍通信、无闲置调度和无差异评测。异 构算力协同生态体系包括统一计算、统一通信、统一调度和统一评测四方面,通过四个核心 维度的统一化实现异构算力资源的深度融合。 图 异构算力协同体系架构 (1)统一计算:打破异构壁垒构建算力融合底座 统一计算是异构算力协同的基础能力,旨在解决异构芯片生态割裂导致的“算力碎片化” 问题,构建底层异构硬件的统一抽象模型,从而实现对各类异构算力资源的一体“池化”。 将基于特定算力的编程应用程序转译为与底层硬件架构无关的中间表示层,通过智能编译优 化技术实现自适应的即时编译优化;各异构算力厂商间算子各异,需要构建跨架构的统一算 子接口,提炼通用算子的统一数学描
下载文档到本地,方便使用
共 31 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.