2025年智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告
3.21 MB
40 页
0 下载
22 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
智算中心液冷整机柜服务器 开放架构多样化算力兼容研究报告 全球计算联盟 开放液冷专业委员会 1 编写单位 河南昆仑技术有限公司 中移动信息技术有限公司 北京幻视摩方科技有限公司 沐曦集成电路(上海)股份有限公司 上海燧原科技股份有限公司 中航光电科技股份有限公司 软通计算机有限公司 编写组成员 杨金谕、张春、高从文、李圣义、单彤、丁俊峰、熊星、曹昉、张勇、王成 龙、于超琪、张丙库、卢超、赵杨、梅敬青、蔡艳召、蒋正顺、李进宝、李亚 军 版权声明 本研究报告版权属于全球计算联盟。 使用说明:未经全球计算联盟事先的书面授权,不得以任何方式复制、抄袭、影 印、翻泽本文档的任何部分。凡转载或引用本文的观点、数据,请注明“来源: 全球计算联盟”。 1 序 近年来,随着人工智能技术的迅猛发展和数字化转型的深入推进,全球对 高性能算力的需求持续增大。特别是在 AI 训练和推理任务中,高密度计算集群 的功耗需求日益攀升,传统的数据中心散热方案面临着严峻挑战。在此背景 下,液冷技术作为一种高效、节能的散热解决方案,正在加速改变数据中心的 技术架构和产业格局。 本报告引用和发扬了来自全球计算领域的众多专家学者、技术领军者、优 秀企业的经验总结和著作,深入探讨液冷整机柜设计、液冷智算中心架构优化 及多算力兼容等关键技术,并提出了一套开放、灵活且高效的液冷智算架构解 决方案。该方案兼顾技术创新和工程实践,在提升计算密度的同时有效降低了 能耗,为数据中心的绿色化转型提供了有力的技术支撑。 从政策层面来看,近年来国家持续加大新基建投入力度,明确提出要建设 绿色低碳、高效节能的数据中心。相关部门出台了一系列指导性文件:到 2025 年,全国新建大型、超大型数据中心的电能利用效率(PUE)需控制在 1.3 以 下,而重点区域如东数西算国家枢纽节点的 PUE 更是要求低于 1.25。这些政 策导向使得传统风冷式数据中心难以兼顾节能与提高上架率的双重目标,从而 加速了液冷技术的应用普及。 从市场发展来看,中国液冷数据中心市场规模持续增长。据统计,截至 2024 年,中国液冷数据中心市场规模已突破 150 亿元大关,年均增长率维持 在 35%以上。与此同时,液冷技术的标准化进程加速推进,相关组件的成本显 著下降,为大规模商业化部署奠定了坚实基础。值得关注的是,在算力需求持 续增长的同时,芯片技术的快速发展带来了新的散热挑战:现代 CPU 和 GPU 2 的热设计功耗(TDP)不断提升,传统风冷数据中心在应对高密度、高功耗计 算集群时已显得捉襟见肘。 从硬件形态演进来看,传统的 AI 产品与架构已不能完全满足新的 AI 集群 的需求。随着计算密度的提升,采用低延迟、高带宽互联架构的 AI 集群因其性 能优势而被广泛采用。然而,在液冷整机柜的设计与部署过程中,不同厂家的 技术方案缺乏统一标准,这给终端用户的系统选型、设备部署及运维管理带来 了诸多挑战。 在技术发展层面,尽管面临诸多挑战,业界已在 OAI(开放加速器接口) 和 UBB(OCP 通用基板)等标准化方面取得了显著进展。特别是超节点整机 柜架构设计日益受到关注,这一创新方案通过支持更多 AI 加速器的高速互联, 为构建更高密度、更高效能的计算集群提供了新的技术方向。 我们期望通过本报告的发布,能够进一步促进行业内各方的深度交流与协 同创新,共同推动液冷智算中心技术的发展与应用推广,为构建高效、绿色、 智能的未来计算环境贡献智慧和力量。 全球计算联盟 开放液冷专业委员会 2025 年 4 月 3 目 录 智算中心液冷整机柜服务器 ........................................................................................................... 1 开放架构多样化算力兼容研究报告 ............................................................................................... 1 序 ...................................................................................................................................................... 1 第一章 背景与挑战 ......................................................................................................................... 5 第二章 产业关键技术与创新动态 ................................................................................................. 7 2.1 液冷散热技术 .................................................................................................................... 7 2.2 智算软硬件技术 ................................................................................................................ 8 第三章 液冷智算开放、多算力兼容架构概述 ........................................................................... 10 3.1 系统架构 .......................................................................................................................... 10 3.2 硬件架构 .......................................................................................................................... 11 3.3 散热架构 .......................................................................................................................... 12 3.4 供电系统 .......................................................................................................................... 18 3.5 网络架构 .......................................................................................................................... 21 3.6 管理架构 .......................................................................................................................... 24 第四章 智算液冷整机柜服务器 ................................................................................................... 26 4.1 机柜子系统 ...................................................................................................................... 26 4.2 服务器节点 ...................................................................................................................... 27 4.3 交换节点 .......................................................................................................................... 28 4.4 管理模块 .......................................................................................................................... 29 4.5 电源 .................................................................................................................................. 30 第五章 智能运维管理 ................................................................................................................... 32 4 5.1 管理系统 .......................................................................................................................... 32 5.2 BMC 软件适配 ................................................................................................................ 34 第六章 应用场景及案例 ............................................................................................................... 35 6.1 应场场景 .......................................................................................................................... 35 6.2 案例:超聚变 FusionPoD for AI 整机柜液冷服务器助力运营商打造高效、可靠、 绿色的智算中心 ..................................................................................................................... 35 第七章 结论与展望 ....................................................................................................................... 37 5 第一章 背景与挑战 近年来,中国液冷数据中心市场展现出强劲的发展态势,以超过 30% 的年增速迅猛扩 张。在此过程中,液冷组件的标准化进程不断加速,成本也随之显著下降。2022 年,液冷 数据中心市场规模成功突破百亿大关,达到 100.5 亿元,与上一年相比,同比增长率高达 47.2%,凸显出市场的蓬勃活力。 在芯片技术领域,先进制程的投资呈现出爆发式增长,然而上市节奏却有所放缓。这一 背景下,CPU 和 GPU 等核心主芯片在性能实现大幅提升的同时,功耗也成倍增长。预计 到 2025 年,CPU 的热设计功耗(TDP)将达到 500W,而 GPU 的 TDP 更是高达 1kW 至 1.2kW。这种高功耗带来的散热挑战,使得传统风冷数据中心面临严峻考验。传统 6- 8kW 风冷机柜的容纳能力有限,仅能放置不到 8 至 10 台通用计算服务器,或者一台配 备 8 个 AI 加速器模组的智能计算服务器,导致机柜上架率急剧下滑。 实践表明,在单柜功率为 15kW 的应用场景中,液冷服务器的部署投资回报率(ROI)与 传统风冷服务器持平;而在单柜功率 40-50kW 的更高功率应用中,液冷服务器的部署资 本支出(Capex)已趋近于风冷部署方式。这一趋势为液冷技术的推广应用提供了有力的经 济支撑。 政策层面,自 2020 年起,国家大力推进新基建政策,积极鼓励建设高能效数据中心。 发改委等相关部门相继出台政策,明确提出到 2025 年,全国新建大型、超大型数据中心 的电能利用效率(PUE)需低于 1.3,而东数西算国家枢纽节点的 PUE 更是要求低于 1.25。 随着 “双碳” 目标带来的节能减排压力不断增大,除了在西部和北部部分地区新建的大规 模数据中心外,传统风冷式数据中心已难以兼顾节能降耗与提高上架率的双重目标。因此, 服务器从风冷部署向液冷部署的转变,已逐渐成为行业内的普遍共识。 自 2023 年以来,生成式人工智能(AGI)的飞速发展引发了对新建智能计算中心训练 和推理集群的巨大需求。千卡乃至万卡规模的集群建设,不仅推动了大规模数据中心的建设 热潮,同时也催生了对高速互联技术的迫切需求。与云计算基础设施中常见的 25GE、100GE 互联需求相比,AI 集群对 200G、400G 端口的密度需求提升了 8 至 10 倍。为有效降低 集群互联成本,高密化液冷部署已成为新建大规模智算中心的首选技术方案。基础电信运营 6 商和各大互联网企业纷纷加大对液冷技术的试点投入,在全国范围内开展了 200 多个液冷 数据中心试点项目,有力地推动了液冷服务器市场的快速增长。 在硬件形态方面,为适应传统风冷数据中心的部署模式,自 2002 年起,传统 AI 加 速卡大多采用 PCIe 形态。但随着大语言模型的崛起,内部采用 Scale up 低延迟互联的 8 个 OAM 模组形态,凭借其卓越的性能优势,已被各大 AI 厂商的高端产品广泛采用。然 而,由于各类 AI 芯片的功耗存在差异,不同液冷整机厂家的方案设计缺乏统一标准,加上 整机柜在供电和制冷能力上的差异,导致终端用户在部署 AI 集群时,难以实施标准化的部 署方案和一致的运维策略。此外,AI 集群的运行要求远高于传统通用计算的并行集群,为 实现更高的集群资源利用率(MFU)并缩短整体训练时间,对集群的备份机制和单机运维效 率提出了更高要求。同时,如何有效降低和控制液冷系统可能带来的漏液风险,也成为亟待 解决的关键问题。 尽管面临诸多挑战,业界在 OAI 和 UBB 接口标准化方面已取得显著进展,为技术发 展奠定了坚实基础。随着超节点整机柜架构成为支持更多 AI 加速器内部高速互联的新方向, 8 个 OAM 模组形态预计在未来 5 年内仍将是 AI 服务器的主流部署模式之一。 为应对上述挑战,本报告聚焦于液冷散热技术、整机柜设计与管理、智算架构设计以及 多算力统一架构底座等关键技术领域,提出了一套开放、灵活且高效的液冷智算架构解决方 案。该方案不仅能够兼容多种 AI 加速器,优化 AI 服务器的部署流程,还能显著提升运维 效率,有效降低液冷系统漏液带来的潜在风险,为行业发展提供创新的技术路径和实践指导。 7 第二章 产业关键技术与创新动态 2.1 液冷散热技术 随着人工智能对算力需求的高速增长,大模型的快速迭代加速了更先进的算力芯片模组、 更高带宽的大容量显存和内存、更大规模的高速互联网络的部署,数据中心呈现更高的单体 算力性能、更高的算力部署密度。作为算力承载的芯片模组,单芯片功率突破 1000W+, 单机柜部署功率密度更是突破 100kW+,传统风冷已经无法满足快速增长的散热需求。 同时, AI 模型训练的电力需求正以惊人的速度增长。例如,GPT-4 单次训练功耗超过 22 兆瓦(MW),埃隆·马斯克的 Grok-3 模型甚至达到了 154MW 的训练功耗,其单次训 练用电的规模,在能源消耗上也需要更经济的高效低碳散热方式。 作为一种更高效的散热方式,液冷在解决 1kW+高功率芯片散热上都有得天独厚的优 势,同时可满足数据中心的 PUE 降低到 1.25 以下的要求,有效降低了数据中心 TCO,液 冷成为智算中心的必然选择。 智算中心的液冷部署因为场景的差异存在不同的解决方案。如存量数据中心的小规模改 造,使用了冷板式液冷+风液 CDU 的方式,平衡了供电和单柜散热不足的问题,解决了大 功率芯片的应用问题。而大规模改造或新建数据中心,冷板式液冷和浸没式液冷的应用和试 点,使液冷的方式更为多样化。 浸没式液冷采用工质与发热器件直接接触,实现了发热器件的 100%液体冷却,促成数 据中心更低的 PUE,但对芯片等器件的材料兼容性有更为复杂的要求,需要定制化处理。同 时,维护难度、成本方面投资较高。 冷板式液冷则采用工质与发热器件间接接触的方式,可以无缝兼容风冷器件,材料兼容 性要求相对较低,且简单的维护和良好的经济性,使得冷板液冷成为当前规模商用的主流。 围绕散热能力、能效和数据中心改造场景适应性,冷板式液冷在架构上存在多种部署形 态,比如冷板+空调的混合液冷、冷板+液冷门的全液冷阶段、以及全冷板。一方面,随着 单机柜功率密度的增加,缓解风冷部分散热挑战,液冷散热的占比越来越高,开始出现全冷 板解决方案。另一方面,随着单芯片功率密度的提升,对液冷部件的性能提出了更高的要求, 8 产业链协同推动了冷板流道散热强
| ||
下载文档到本地,方便使用
共 40 页, 还有
1 页可预览,
继续阅读
文档评分


新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)