pdf文档 2025年智算中心冷板式液冷云舱技术白皮书-中讯邮电 VIP文档

1.11 MB 25 页 0 下载 3 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
智算中心冷板式液冷云舱技术白皮书 1 智算中心冷板式液冷云舱 技术白皮书 中讯邮电咨询设计院有限公司 2025 年 7 月 智算中心冷板式液冷云舱技术白皮书 2 智算中心冷板式液冷云舱技术白皮书 3 前 言 随着全球算力需求激增,传统风冷散热已逼近物理极限,液冷技术在数据中心领 域近年来保持高速增长。市场分析显示,2025 至 2030 年间,全球液冷数据中心市场 的年复合增长率(CAGR)预计为 19.8%,到 2030 年市场规模将达 240 亿美元,反映 出液冷在提升能效、降低能耗方面的显著优势及其渗透率的加速提升。 这一增长主要由数据中心对高效散热解决方案的需求驱动:一方面,人工智能服 务器和高密度计算部署(如 AI 大模型应用)导致功率密度骤增,形成液冷的刚性需 求;另一方面,绿色节能政策成为关键推动力。从行业应用来看,电信运营商和互联 网厂商是推动液冷技术应用的重要力量:互联网领域因 AI 部署推动液冷需求,电信 运营商则基于《电信运营商液冷技术白皮书》的要求积极推广。同时,国家“碳达峰·碳 中和”战略下,PUE 标准趋严(如“东数西算”工程强制要求新建数据中心 PUE<1.25), 液冷技术能将 PUE 降至 1.2 以下,符合监管要求并获政策鼓励。 未来,随着 AI 技术的不断进步和发展,算力芯片功率的持续上升,液冷技术在 高功率服务器中的应用将发挥更显著的散热能力和能耗优势,从而成为数据中心散热 的主流选择。这一趋势推动全球和中国的液冷市场保持高速增长,尤其在冷板式液冷 技术的应用上,市场规模有望大幅扩大。同时,液冷技术路线随不同的应用场景逐步 完善,推动着液冷技术在更多领域应用,建立并完善数据中心液冷生态系统,驱动液 冷技术创新融合,最终共筑高效、低碳的绿色算力底座。 智算中心冷板式液冷云舱技术白皮书 4 目录 一、 概述 .................................................... 6 二、 术语和定义 .............................................. 6 三、 冷板式液冷系统介绍 ...................................... 7 1. 冷板式液冷系统 ............................................................................................... 7 2. 冷板式液冷系统特点 ........................................................................................ 8 3. 冷板式液冷系统面临的挑战 .............................................................................. 9 3.1 冷却液老化与管道腐蚀 ............................................ 9 3.2 泄漏风险 ....................................................... 10 3.3 建设周期长 ..................................................... 10 3.4 运维要求高 ..................................................... 10 四、 液冷云舱系统解决方案 ................................... 10 1. 液冷云舱建设方案的必要性 ............................................................................ 10 2. 液冷云舱建设方案的优势 ................................................................................ 11 3. 系统架构及解决方案 ...................................................................................... 11 3.1 基本技术条件 ................................................... 12 3.2 冷量分配单元 CDU .............................................. 13 3.3 解耦型液冷机柜 ................................................. 14 3.4 二次侧管路 ..................................................... 18 3.5 水氟双冷源空调 ................................................. 18 4. AI 数字化管理平台 .......................................................................................... 20 5. 经济效益分析 ................................................................................................. 20 五、 冷板式液冷系统工程设计要点 ............................. 21 1. 一般规定 ........................................................................................................ 21 2. 负荷计算 ........................................................................................................ 21 3. 设计要求 ........................................................................................................ 21 六、 液冷新技术探索 ......................................... 22 1. 相变冷板冷却技术 .......................................................................................... 22 2. 环路热管两相散热技术 ................................................................................... 23 3. 芯片级液冷技术 ............................................................................................. 23 智算中心冷板式液冷云舱技术白皮书 5 七、 结语 ................................................... 24 智算中心冷板式液冷云舱技术白皮书 6 一、 概述 随着人工智能对算力需求的高速增长,大模型的快速迭代加速了更先进的算力芯 片模组、更高带宽的大容量显存和内存、更大规模的高速互联网络的部署,数据中心 呈现更高的单体算力性能、更高的算力部署密度。作为算力承载的芯片模组,单芯片 功率已突破 1000W,单机柜部署功率密度突破 120kW。传统的风冷技术已经无法支持 如此高功耗的芯片,而液冷技术采用高比热容的液体取代空气作为冷却介质,其比热 容约是空气的 4 倍,热传导能力约是空气的 25 倍,散热效率远高于风冷可有效解决 高功耗芯片的散热问题。 冷板式液冷是将液冷散热冷板紧贴在服务器的发热器件,通过冷板式换热器内的 低温流体带走服务器中的芯片散热量。作为一种更高效的散热方式,在解决高功率芯 片散热上有着得天独厚的优势,同时可满足数据中心的 PUE 降低到 1.25 以下的要 求,成为智算中心的必然选择。 围绕散热能力、能效和数据中心场景适应性,冷板式液冷在架构上存在多种部署 形态。一方面,随着单机柜功率密度的增加,为缓解风冷部分散热,逐渐提高液冷散 热的占比,出现了风液混合散热解决方案。另一方面,随着单芯片功率密度的提升, 对液冷部件的散热性能提出了更高的要求,冷板微通道强化散热、液态金属等高性能 导热材料以及大通径的盲插快速互联技术等,为智算液冷解决方案提供更优异的散热 条件。 二、 术语和定义 下列术语和定义适用于本文件。 1) 冷板式液冷系统 cold plate liquid cooling system 由二次侧冷却系统、一次侧冷却系统、监控系统等组成。通过冷板将元器件 的热量间接传递给封闭在循环管道中的冷却工质,通过一个或者多个冷却回路热 交换传递,最终将设备热量排至室外的系统。 2) 分集液器 manifold 包含多路分支或接口,用于连接冷量分配单元与冷板的管道系统,为机柜内 液冷冷板提供冷却工质分配及供回输送的装置。 3) 二次侧管路 secondary side pipeline 二次侧管路用于连接冷量分配单元 CDU 和液冷机柜,包含供液环管、回液环 管及配套组件,分别形成闭合回路,实现连接二次侧设备和冷却工质的均匀分配。 智算中心冷板式液冷云舱技术白皮书 7 4) 冷量分配单元 CDU coolant distribution unit 为冷却液提供循环动力,通过换热器将其热量传递至一次侧系统冷源,实现 冷却介质的降温,服务于多台机柜的冷量分配单元。 5) 水氟双冷源列间空调 Dual Cooling Row 一种结合水冷与压缩机制冷双冷源系统的列间空调设备,通过两套冷源系统 协同工作灵活运行,最大化利用自然冷源,实现高效节能。 6) 解耦型液冷机柜 Decoupling liquid cabinet 用于放置计算节点及交换节点,并提供节点运行所需的供电、冷却等环境条 件的柜体。由机柜主体、分集液器、供电系统等组成,可按需配置盲插或快插型 的供电和供冷单元。 7) 一次侧冷却系统 primary side cooling system 一次侧冷却系统是冷量分配单元(CDU)室外循环系统,其与外界环境之间进 行热交换的循环系统。与外部冷却塔等外部散热设备相连,冷却工质在管路中循 环将二次侧冷却系统内的热量传递至室外或余热回收装置的冷却系统。对于冷板 式液冷设备,主要包含管道,冷却工质过滤系统,阀门、传感器等。 8) 二次侧冷却系统 secondary side cooling system 二次侧冷却系统是机柜与冷量分配单元之间进行热交换的循环系统。与服务 器相连,冷却工质在管路内循环带出发热元件产生的热量,与一次侧冷却系统进 行热交换的冷却系统。对于冷板式液冷设备,主要包含管道,冷却工质循环泵, 换热器,冷却工质过滤系统,阀门、传感器等。 三、 冷板式液冷系统介绍 1. 冷板式液冷系统 液冷技术按照是否与发热的器件产生直接接触分为接触式和非接触式两种类 型。接触式液冷中冷却液与发热器件可直接接触,具体实现方案主要包括浸没式液 冷和喷淋式液冷,非接触式液冷技术的典型方案是冷板式液冷,技术路线对比见表 1。上述三种液冷技术方案中,冷板式液冷技术是应用最早、普及率最高的液冷制冷 方式,其可实施性和市场的成熟度也相对较高。 智算中心冷板式液冷云舱技术白皮书 8 表 1 数据中心液冷技术路线 数据中心液冷技术路线对比 特征 冷板式 浸没式 喷淋式 接触方式 间接接触型 直接接触型 直接接触型 改造成本 较低 较高 中等 可维护性 优秀 较差 中等 空间利用率 较高 中等 较差 冷却效果 较好 优秀 优秀 兼容性 未与主板和芯片模块进行直 接的接触,材料兼容性较强 直接接触,材料兼容较 差 直接接触,材料兼容较 差 安装便捷程度 不改变服务器主板原有的形 态,保留现有服务器主板,安 装便捷 改变服务器主板原有 结构,服务器易残留冷 却液 改变服务器主板原有 结构,服务器易残留冷 却液 液冷散热占比 70-80%液体带出机房; 20-30%需要空调制冷; 100%液体带出机房 100%液体带出机房 PUE 约 1.12-1.2 约 1.07-1.12 约 1.08-1.13 冷板式液冷主要通过冷板(铜、铝等高导热金属构成的封闭腔体)将元器件的 热量间接传递给封闭在循环管道中的冷却液体,然后利用冷却液体将热量带走,其 通过工作流体的传递特点将中间热量传输到后端进行冷却。 2. 冷板式液冷系统特点 冷板式液冷系统包括二次侧冷却系统、一次侧冷却系统,如图 1 所示。适用于高 密算力规模、智算形态和高功耗设备等场景,冷板式液冷系统具有高密度散热、高效 能、高可靠性和强适用性等特点。 智算中心冷板式液冷云舱技术白皮书 9 图 1 冷板式液冷系统示意图 (1) 高密散热、高效能:采用冷板式液冷系统可以实现机架功率密度的提高,有 效提升单机架的计算能力,冷板式液冷系统相对风冷在能效方面具备高效能的特点。 同时,通过进一步对液体、管理和设备冗余进行更为合理的设计和应用,液冷也将具 有比风冷更高的散热可靠性,有效提高数据中心的能源利用率。 (2) 高可靠性:冷板式液冷技术在冷却液管路中流动时,并未与主板和芯片模块 进行直接的接触,材料兼容性较强,提高系统的运行安全性。此外,液体冷却芯片温 度更低,可延长芯片寿命 30%以上,降低因过热导致的硬件故障率。 (3) 强适用性:冷板式液冷技术不改变服务器主板原有的形态,而是对现有服务 器主板进行适配性改装来实现液冷散热。这种方式不仅拆卸简单、安装方便,而且在 技术、产业以及规模化生产上具有更好的适用性。 3. 冷板式液冷系统面临的挑战 3.1 冷却液老化与管道腐蚀 随着时间的推移,冷却液可能会因为与系统中的材料发生化学反应、吸收空 气中的杂质或受到微生物的污染而逐渐老化或变质。这不仅会降低冷却效果,还 可能对系统中的管道、泵和其他部件造成腐蚀或堵塞,从而影响系统的稳定性。 同时,冷却液的选择也需要考虑其化学稳定性和对设备的腐蚀性。 系统中的冷却液体在循环过程中可能会携带微小的颗粒或杂质,这些物质在 管道或热交换器等部件中逐渐沉积,形成堵塞降低系统的冷却效率,甚至导致部 件过热或损坏。 智算中心冷板式液冷云舱技术白皮书 10 3.2 泄漏风险 液冷系统中的管道、接头和密封件等部件在长期使用过程中可能会因为材料 老化、振动或安装不当等原因出现泄漏。泄漏不仅会导致冷却液流失,还可能引 发电气故障或设备损坏,这些问题一旦处理不当,不仅可能对设备造成损害,还 可能引发安全事故。 3.3 建设周期长 数据中心在建设冷板式液冷时涉及大量设备和工程管路,由于液冷设备生产加工 工艺较为复杂,且二次侧冷却系统中液冷机柜的分液器和二次侧管路的洁净度要求较 高,液冷系统的建设周期相比风冷系统要长。 液冷技术的初期成本相对较高,包括设备采购、安装、调试以及后期维护等费用。 主要源于其复杂的系统设计、高端的制造材料以及精细的安装和维护要求。此外,液 冷系统的运行和维护也需要专业的技术人员进行操作,这进一步增加了其运营成本。 随着液冷技术的普及和应用,相关的生产技术和支持服务也将更加成熟和完善,这将 有助于缩短建设周期及降低成本。 3.4 运维要求高 液冷技术相较传统的风冷技术在运维方面存在一些挑战和难度。首先,液冷系统 涉及的接口更多,这增加了故障点和潜在风险,需要运维人员具备更高的专业知识和 技能,能够及时发现并处理这些问题。其次,液冷技术的运维要求更为精细和严格。 由于液冷系统使用液体作为冷却介质,因此需要定期监测冷却液的质量、浓度和 pH 值等指标,以确保其化学稳定性和散热性能。此外,还需要定期检查冷却管道和设备 的密封性、压力和流量等参数,以确保系统的正常运行。 四、 液冷云舱系统解决方案 1. 液冷云舱建设方案的必要性 随着传统行业数字化转型加速及智算等新兴行业应用需求驱动,智算需求增长趋 势明显,功率密度持续上升,制冷系统由单一制冷方案演变为多元化制冷方案,液冷 技术需求旺盛。算力需求高速发展为基础设施、建设方案带来的多方面的不确定性变 化,因此需要更为高效节能、灵活快速、低成本的基础设施建设方案以应对市场变化 的不确定性,加快完善数据中心领域的建设布局。 智算中心对基础设施的需求和商业模式有别于现有数据中心建设模式,需要结合 业界前沿,打造出适应高性能 IT 设备的发展趋势的技术与建设方案。提高市场竞争 性,降低智算中心造价,提高智算及云业务利润,实现智算中心的模块化、标准化建 智算中心冷板式液冷云舱技术白皮书 11 设,以适应客户项目灵活部署。 针对需求,基于冷板式液冷系统自主开发出液冷云舱产品,能够弹性适配新建及 改扩建等不同类型的场景,实现预制化、模块化、灵活部署和快速交付。 2. 液冷云舱建设方案的优势 液冷云舱的建设方案采用兼容列间空调和液冷 CDU 的多元化方案,以实现制冷 量的按需匹配,达到节能降耗的需求。通过风冷、液冷两类管道预留,实现制冷模式 的灵活适配,风液混合部署,提高功率兼容性和冷量利用效率,适配高功率密度设备 部署需求。利用预制化和模块化技术,达到液冷产品的标准化和集成化,以便快速交 付业务。通过集约化供冷和供冷资源的池化,实现不同设备和环境的混插混用,以及 跨楼层、跨机房的冷量柔性化动态调节。 (1)灵活性强:液冷云舱模块化架构可预集成液冷机柜、智能配电、冷却单元 等核心组件,支持按需扩容,单舱体可独立运行或多舱级联,实现柔性扩展能力。 (2)高效散热能力:液冷云舱配置独立的 CDU 和列间空调,结合“芯片-机柜- 机房”三级
下载文档到本地,方便使用
- 可预览页数已用完,剩余 23 页请下载阅读 -
文档评分
请文明评论,理性发言.