ppt文档 AI机房基础设施系统建设 VIP文档

4.29 MB 37 页 6 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
AI 机房基础设施 系统建设 Construction of AI Computer Room Infrastructure System 供电技术 散热技术 运维管理 机房基础设施建设 Conten t ZOMI GitHub 2 供电技术 01 芯片单体功耗急速增加,单台服务器功耗提升 ● 芯片方面,英伟达的 H100 和 H200 单芯片功耗为 700w,GB200 达到 2700w, 单芯 片功 耗显著提升; · 服务器配置方面, NVL32 GPU 数量为 32 颗, GB200 NVL72 架构则需要 72 颗,单机 柜部 署 4 台服务器至 9 台服务器,整体功率要求大幅提高。传统每台 8 卡 A1 服务器单机柜 的功率将达 到 4okw 以上,而 NVL72 单机柜功耗提升到 120kw 。 ■TGP(W) 270 0 2500 2000- 1500- 1000 700 700 400 500- 0 B200 GB200 单位: kW 每机柜 ( 典型 值 ) 2-3 机房 计算机时代 数据来原:华为、东方证等研究所 20-50 AIDC 智能时代 4 GitHub 图表:英伟达单 GPU 芯 片 功 耗 5-8 云 DC 大数据时代 3-5 DC 互联网时代 图 4: 不同时代数据中心机柜的典型功 率 ZUMI H200 GH200 B100 A100 H100 1000- ~10 0 300 0 100 0 70 0 单位机柜密度提升 · 据 Vertiv 预测, 2024 至 2029 年,每机架的 GPU 数量将从 36 个显著增长到 576 个。 机柜 的物理空间相对有限,未来机柜的功率密度将快速提升, Rubin Ultra 时期, AI GPU 峰值 机 架密度功耗最高或超过 100okW, 进入 MW 时代。 Mustrative NMDIA AIGPU Roadmap Anticipated A/GPU Peak Rack Density' EstimatedAIPod Average Rack Density² Projected industry Average Rack Density, Installations Blackwell → 130-250kW -40-100kW ~15-25kW -100-350kW -350-500+KW -25-50kW ~50 kW+ 图 表 : Vertiv 最新预测 2024 2025 进入 MW 时代 2028 2029 Rubin Uitra 5 GitHub 2028 BlackwellUItra -250-900 kW 1 2027 Rubin 36xt0576x GPUs per rack -900 -1000+kW 通算中心时代 智算中心时代 智算中心时代 部署集群 2 万台服务器 电力容量约 20MW 万卡集群: 1024 台 H100 的 8 卡服务 器 电力容量 约 20MW 10 万卡集群 接入电网的 解决方案 四路 10KV 电 源 的电网 四路 10KV 电 源 的电网 要自建 110kV 或接入更高电 压等级电源的 电网 -2 万台 ==1024 台 ? 那么 10 万卡集群 ? 需要 10 倍电 力 - 智算中心园区的算力容量上限是发电厂和电网容量的上限。 电力能源接入挑战 6 GitHub ZOMI 单机柜功耗 ( 单机柜密度 ) 供配电系统占 地面积 随着智算中 心的单机柜 功率密度的 快速提升, 变配电室面 积必然随之 大幅度增加, 智算中心的 建设方案需 要考虑供电 系统更多的 占地面积。 2.5KW-5kW 通常为 IT 设备 占 地 面 积 的 1/4 左右 8kW 通常为 IT 设备 占地面积的 1/2 左右 16kW IT 设备占地面 积几乎相同 配电与 IT 机房的面积比挑 战 7 GitHub ZOMI 。电能利用率挑战 。能源消耗效率高要求、节能将碳 服务器电源形式挑战 。智算负载分级供电挑战 末端配电方式挑战 负载动态冲击挑战 。环境温度突变挑战 8 AIDC 供电背景 - 各种挑 战 ZOMI GitHub 数据中心供配电系统 ● 双路电源供电, 10kv 市电进线到数据中心服务器的末端,常见的两路供电同时处于热备份 状 态,一路断电时另一路会支持关键负载持续供电。从上游到下游包括中压柜、变压器、低压 配 电柜,配电柜进线进到 UPS, 通过整流再给到 PDU 做最终分配,分配给各个服务器。 两路市电, 一到两路柴发, 变电设备,开关设中高压配 电备,双电源设备、母线等 一中高压配电◆ 各种低压柜,元件、母线等 — — 低压配电 列头柜, PDU, 元件,母线等 一 — 终端配电 中压 ATS 市 电 A 回 10K V 压警 A 40Ov 主配电柜厂 分配电柜 或 暂能小母线 列头柜 低压母联 A 路 UPS B 篮 UPS 400V 主配电柜 分配电拒 回具 或 中压柴发机组 中压 ATS 市 电 B 中压母联 配电柜 20KV 配电柜 发电机组 显 变压器 B 机 智能小母线 列头柜 AC-DC, DC-DC, 超级电容, BBU 风冷 液冷 图表:数据中心供配电系统 一级电源 : HVDC/UPS 灾备电源 : 柴油发电机 ◆ 服 务 器 电 源 一 图 出图 图 g 配 电 系 统 冷 却 系 统 电 源 系 统 图 w a 目 n B b 数据中心供配电架构: 2 N 、 DR 、 RR ·2N 系统: 2 个供配电单元同时工作,互为备用,每个单元均能满足全部负载的用电需要。 ·DR 系统:分布冗余。由 N(N≥3) 个配置相同的供配电单元组成, N 个单元同时工作。将负 载 均分为 N 组。 ·RR 系统:后备冗余。由多个供配电单元组成,其中一个单元作为其它运行单元的备用。当一个 运行单元发生故障时,通过电源切换装置,备用单元继续为负载供电。 图表:数据中心 2N 系统配电架构 图表:数据中心 DR 系统配电架构 图表:数据中心 RR 系统配电架构 市电电源 市电电源 10V 配电 变压器 变压器 10kV ATS UPS UPS 变压器 UPS UPS STS S1S IT 负载 10kV 配电 变压器 变压器 UPS UPS 备用电源 市电电源 10KV 配电 10kV ATS 变压器 UPS 10kV ATS 变压器 UPS 10kV ATS 变服器 UPS 10kV ATS 变压器 UPS 10kV ATS 变压器 UPS 市电电源 10kV 配 电 IT 负载 IT 负 载 T 负载 IT 负 STS 3SS T 负载 市电电源 10kV 配 电 市电电源 10kV 配 电 10kV ATS 变压器 STS T 备用电源 备用电源 IT 负 载 IT 负 载 IT 负 数 负载 Hub STS Z DC/DC GitHub 48V/50de P90 (CDC) 48/50Vde P52 (BCDC) 48/50Vde PS (DC/DC) 48/50Vdc (BCDC) 11 240/336Vde 也器选流 ↓ 密 电池组 240/336Vdc 直这始由 电池组 800Vde 电池组 HVDC 起 巴 拿 马电 源 固 态 货 压 器 SST 10/13.8KVac 市电 10/13.8KVao 市电 10/13.8KVae 市电 10/13.8KVac 市电 bPOU 240/336Ydo 格官配电 #P 240/336Vde 精蜜配电 P00 数据中心电源方案 400/4BOVae 400/180Ve 做压 变压器 井关帏 抽入站效 UPS 主机 ZOMI 数 据 来 源 : 台 达 、 Vertiv 、 东 方 证 券 研 究 所 者再骨关 L 感来 230/40OVae 配 电 要就 电池组 oliovue 官 400/480Vae 400/40Vao 手蜘会路体势骨关 低压 开关柜 woet 入 连 变压器 ne 项目 U P S 系 统 H V D C 系 统 巴拿马电源 S S T 系 统 系统效率 95.1% 95.1% 97.5% 98.0% 占地面积 100% 80% 40% 24% 重量 NA NA 100% 50% 配置快速性 一般 一般 移相变定制模块预 制化 预制化,速度快 当前市占率 主流 较低 低 试点阶段,极低 核心优势 技术成熟 高能效 占地面积小 极高密度 兼容性强 适配高功率密度 适配高功率密度 综合性价比高 主要挑战 损耗相对较高 初期投资高 初期投资高 技术不成熟 占地面积大 需配套改造 运维经验少 高压运维难度大 数据来源:台达、 Vertiv 、中国西电、东方证券研究所 12 GitHub 数据中心电源方案 ZOMI 手动旁路维修开关 旁路开关 LC 滤 液 STS 列头柜 IT 机柜 电池组 UPS 主 机 ·UPS 不间断电源 (UPS,Uninterruptible Power Supply) 是一种电力保障设备,它能够 在 主电源发生故障时,如停电、电压波动或频率异常时,立即切换到电池供电模式,通过多步骤 转换和净化,实现高效不间断供电,是市场主流。 13 GitH b ZOMI 输入站 波 市电 变压器 DC/AC 逆 变 DC/DC 升 压 低压开 关柜 整流 ·HVDC 较传统方案环节精简,高效低损优势体现。高压直流输电 (HVDC) 是一种将交流电转 换为直流电进行传输的电力传输技术,具有输电距离长、损耗小、稳定性好等优点。 列头柜 电池组 14 GitHub 市电 变压器 ZOMI 输入滤 波 低压开 关柜 电容滤 波 IT 机 柜 HVDC AC/DC 巴拿马电源 · 巴拿马电源巴拿马电源系统简化链路,提升整体能源效率。巴拿马电源方案中市电直接通过移 相变压器,将高压交流电转换为较低电压的交流电,相当于变相整合了 HVDC 方案中的前置 变 压器以及输入滤波环节,以更紧凑的形态适应数据中心的用电需求。 移相变 压器 巴拿马电源 列头柜 电池组 直流输 出 15 GitHub ZOMI IT 机 柜 市电 AC/DC SST 固态变压器 ·SST 高效率、高密度、低成本, AIDC 潜在终极供电方案。固态变压器 (Solid State Transfo rmer, 简称 SST) 是一种新型变压器,它通过电力电子变换技术实现电压等级转换和电力传 输的智能化设备。 SST 集电气隔离、电压变换、无功补偿等功能于一身,通过对传统变压器 和 电力电子设备的集成化,可提高电网设备的智能化水平。 图 24: SST 固态变压器技术路线图 Power Grid Solid-State Transformer HVAC AC HVDC DC C °c °c Storage 数据来源: Power Magezine 、东方证券研究所 16 GitHub ZOMI Input Stage Output Stage ACLoad DCLoad AC AC DC LVAC LVDC 会 ° AIDC 配电:预制化、模组化、智能化是未来趋势 ● 预制式电力模组设备在工厂进行预制和模块装运,在现场进行快速组装,能够根据实际需求 选 取相应模块拼装成整体模组方案。 图 表 : 预 制 式 供 配 电 模 组 构 成 Train Management System) 供配电全功率链管理,实时监控管理,保障系统可靠性 DCIM 0 1 10kV/0.4kV Mains 变 电 模 组 , EPK-6300 EPK-2500 UPS SPM 图 表 : 智 能 化 系 统 连 接 示 意 图 17 GitHub ZOMI PTMS(Power □ □ = 9 散热技术 02 散热制冷背景 图表:机架密度与冷却方案 3kw 5kw 10kw 15kW 20kw 30kw 50kw>75kw 主动式热管背板 被动式热管背板 带密封装置的列间冷却 外围 CRAC, 架高地板,密封装置 外围 CRAC 或 AHU 传统机柜功率密度 OMDIA Data Center Capacity Roport 2023 100kw >150kw>200kw 液冷 1 代 AI 训练模 型 2020-20231 20-30kW D 200+ 2 代 AI 训练模 型 2022-20251 40-50kW 3 代 AI 训练模 型 2022-20251 70-200kW 19 GitHub ZOMI 图表:数据中心制冷技术对应 PUE 范围 相变浸没式 非相变海投式 冷板式 直接新风技术 自 向接蒸发冷却技术 冷志水 风冷 ( 带自然冷 ) 风冷 液冷技术 接触方式不同 冷板式 是否相变 单相冷板式 两相冷板式 单相浸没式 相变浸没式 1.00 1.10 1.20 1.30 1.40 1.50 1.60 PUE 液冷散热技术 22 GitHub ZOMI 冷冻水系统 ( 带自然 冷 ) 浸没式 喷淋式 技术路径趋势 风冷直班技术 是善相变 氟泵技术 液冷 液冷技术通用架构 ● 架构清晰,能量逐级传递。液冷架构主要包括三个部分:热捕获、热交换和冷源。以数据中心 应用为例,热捕获发生在液冷机柜内,指的是使用冷却 液 体将 IT 设备产生的热量带走。热交 换 即连接液冷系统一次侧和二次侧的“桥梁” , 即通过 CDU ( 冷量分配单元 ) 对资源进行分配 与 交换。冷源一般布局在数据中心外部,热量在这一部分与自然环节交换,完成处理。 数据中心机房 ② 热交换 液冷机柜 ① 热捕 获 液冷服务器 ③ 冷源 GitHub 冷板式液冷 · 非接触式液冷,通过液冷板将发热器件的热量间接传递给封闭在循环管路中的冷却 液 体带走热 量 。 24 Gi
下载文档到本地,方便使用
共 37 页, 还有 9 页可预览, 继续阅读
文档评分
请文明评论,理性发言.