AI改变能源-智算如何引领新型电力系统
497.14 KB
25 页
0 下载
24 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
2024 年 8 月 AI 改变能源 智算如何引领新型电力系统 AI 改变能源 智算如何引领新型电力系统 1 前言 2 第一章:文献综述与方法论 4 ● 美国的算力增长预期,分歧重点在市场 5 ● 中国算力增长预期,不确定性主要在技术 5 第二章:测算方法与结果 7 ● 中国智能算力每年增长 70% 7 ● 乐观情景下国产芯片有望突破 8 ● 2030 年中国智算年用电最高 1.3 万亿度 9 ● 智算中心成为用电量增长主力 10 第三章:中国净零碳电力算力地图 11 ● 智算中心发展初期主要在绿电供给不充分的东部 12 ● 2030 年清洁电力发电量预测 12 ● 智算用电需求的动态匹配 13 ● 绿色算力电力区位条件 15 第四章,智算加速建立新型电力系统 17 ● 24/7 全天候“智”“能”调度 17 ● 绿电直供与跨区域交易 18 ● 源网荷储碳一体的配电网与微电网 18 ● 虚拟电厂 19 结论:让智算率先实现净零碳电力 21 附录 22 关于报告 23 ● 未尽研究 23 ● 环球零碳 23 目录 AI 改变能源 智算如何引领新型电力系统 2 能源与机器,自从技术革命以来,从来都不可分。新能源与机器学习正在走向 融合,它们符合一个共同的技术和经济规律,效率上升,成本下降,而需求增 长更快,产生了杰文斯悖论的效应。 杰文斯是 19 世纪英国工业革命期间的一位经济学家。他发现,当煤炭的使用效 率不断提升时,对煤炭的需求不仅没有下降,反而在煤炭的应用和相关领域产 生了大量的创新,渗透到各行各业,导致煤炭的消耗量上升。杰文斯悖论在历 次技术与工业革命中持续上演,蒸汽机、内燃机和燃气轮机的效率不断提升, 但人类对于化石能源的需求也持续增长了两百多年。杰文斯悖论揭示了资源、 技术、经济之间的基本关系。 摩尔定律是信息技术革命时代的杰文斯悖论。单位面积芯片上的晶体管数量每 18 个月左右增加一倍,60 年来相当于算力的成本至少下降了 10 亿倍,推动经 济与社会进入数字时代。 而在加速计算逐步占据主流的深度学习“黄金 10 年”,GPU 的效率提升了千倍。 尽管如此,在整个经济与社会向数字化与智能化转型的过程中,对于智能算力 的需求在绝对数量和相对占比的意义上,不但没有减少,反而在加速增长,每 个季度翻番。这在很大程度上是由于算力更加密集的基础设施和应用正在涌现。 如果考虑到未来的物理 AI 以及元宇宙,对于算力的需求几乎是无限的。 如果能源的无限需求内 生于经济发展,唯一的 选择,就是使用绿色和 清洁的能源。 前言 电力供能地位的三次超越 有用能源是在 所有加工和转 换损失之后剩 余的总能源 2000 2010 电力 油 有用能源供应(EJ) 1900 70 60 50 40 30 20 10 0 1910 1920 1930 1940 1950 1960 1970 1980 1990 煤炭 来源:RMI 说明:1900 年至 2010 年间有用能源供应的变化趋势:所有部门不包括非能源用途。有用能源的估计值有所不同,这里我们采用了国际 应用系统分析研究所(IIASA)的数据,这是我们见过的最详细的数据。 天然气 AI 改变能源 智算如何引领新型电力系统 3 从技术上来讲,摩尔定律和黄氏定律可以也必须持续下去,但它必须投入更大 的研发资金以及消耗更多的能源,能源革命并没有改变杰文斯悖论。而经济和 商业规律决定了,这些投资体现为更高的能量密度和算力密度的基础设施,必 须以更广泛的创新和应用实现回报(ROI),新的生产力得以形成,经济增长得 以实现。这就是 AI 时代的杰文斯悖论的商业和经济基础。杰文斯悖论也说明了 原有的经发展模式是不可持续的:如果能源的无限需求内生于经济发展,唯一 的选择,就是使用绿色和清洁的能源。 可再生发电边际成本趋近于零,智能算力边际成本趋近于零,这两大趋势合龙, 将引发广泛的应用创新,渗透到经济与社会中,进一步带动对于能源和算力需 求的同步上升。生成式 AI 革命,与能源革命耦合在一起,也将带来能源管理方 式的根本变化。算力革命与能源革命将互相迭加、融合、增强;如果清洁能源 供应不足,电力基础设施不向新能源转型,人工智能的发展将会被“卡脖子”。 计算的本质是能源的处理形式,计算过程也是能量转换和使用的结果。AI 所带 来的海量计算,将与可再生能源一起,推动新一轮信息与能源革命。而这一轮 大模型创新所遵循的扩展定律(scaling law),即更多的数据和更大的算力推 动模型越来越大,越来越接近通用人工智能(AGI),产生了大数据 - 大算力 - 大模型 - 大电力的范式。 中国在新能源革命中已经处于领导地位,也是全球第二智能算力大国。中国正 在部署 AI+ 战略,成为新质生产力中的一个战略性前沿领域。目前中国正处于 风光等可再生能源的“黄金 10 年”,AI 所带来的清洁电力需求,需要顺应中国 的能源转型,实现 2030 年碳达峰及 2060 年碳中和的目标。 本报告估算出中国到 2030 年所需要的智能算力总量,相对应的电力需求总量, 尤其是在中国电力增量中所占的比重。我们假设中国智算中心 2030 年的目标 是达到世界先进水平,之后所消耗的能源以绿色和洁净电力为主,在各行业中 率先实现净零碳排放。在国家东数西算以及八大枢纽和十大集群的总体布局下, 我们进一步分析各省的智算能力和清洁电力资源的现状及未来,将如何在支持 国家人工智能发展大计的同时,推动本地的经济数字化与智能化。与此同时, 我们关注到智算在各地爆发式增长给电力系统以及控制碳排放带来的短期挑战, 以及算力与电力的协调发展,对于引领和加快新型电力市场建设的意义。 前言 计算的本质是能源的处理形式,计算过程也是能量 转换和使用的结果。AI 所带来的海量计算,将与可 再生能源一起,推动新一轮信息与能源革命。而这 一轮大模型创新所遵循的扩展定律(scaling law) 产生了大数据 - 大算力 - 大模型 - 大电力的范式。 4 文献综述与方法论 全球数据中心用电量将在 AI 的推动下大幅增长,一直受到关注。从 2023 年以来, 由于生成式 AI 的迅猛发展,美国尤其为“电力危机”感到焦虑,而中国的人工 智能要在碳达峰目标的约束下追赶美国,算力与电力问题需要重估。 算力需求增长、能耗及排放增加的速度,始终快于算力效率、功耗效率、排放 效率提升的速度,这是导致用电量会持续增长的根本原因。生成式 AI 在内容生 成与推理方面,创造出越来越有价值的应用,而这些应用的算力、能耗与排放 的密集度也迅速上升。 来自不同行业和专业背景的机构,对智能算力的电力消费进行了为数众多的研 究,基本逻辑大同小异:先根据芯片等硬件的算力与功率,估算出数据中心的 用电量;再根据算力增长、芯片能效(单位时间内完成的计算量与消耗的电能 之间的比率)提升,以及数据中心能效 (PUE,数据中心总能耗与关键 IT 设备 能耗的比率,数字越小越接近 1,能效越高 ) 提升的预期,来推测未来一段时间 内智能数据中心的用电量增长情况。 智能算力的提供者及主要使用者,如科技企业、电信企业、政府、以及日益数 字化的许多行业,都提出了 100% 使用绿色电力、实现碳中和的目标和路线图。 而获得绿电及清洁电力,尤其是直接接入供应的绿色电力,并且建立起新型能 源管理系统,是实现绿色智算中心的关键。 其中,无论在中国,还是在美国,数据中心的能效提升是确定性较强的部分。 PUE 都受到监管机构或 ESG 政策的约束,近十年来全球数据中心平均 PUE 仅 从 1.65 降至了 1.58,并非影响近年来数据中心用电量增长的核心因素。 这些研究报告,对于人工智能技术最发达、电力市场化程度最高的美国研究比较 充分,为关于中国的研究提供了基准性的参考,但忽视了中国所面临的芯片系统 技术的挑战及能源电力市场的差异性。这些报告对美国智能算力增长和电力需求 的预期并不一致,而中国面临的首要问题是如何克服芯片能效提升的瓶颈。 第一章: AI 改变能源 智算如何引领新型电力系统 来源:Hugging Face,未尽研究,环球零碳 说明:对数轴。每进行 1000 次查寻,完成每种推理任务平均消耗的电能。 不同推理任务的用电量 10 1 0.1 0.01 0.001 2.907 图像生成 图像描述 生成 摘要生成 文本生成 对象检测 图像分类 标记分类 掩码语言 建模 提取式 问答 文本分类 0.063 0.049 0.047 0.038 0.007 0.004 0.003 0.003 0.002 ≈50 倍 ≈1500 倍 ≈5 倍 单位:kWh 5 美国的算力增长预期,分歧重点在市场 英伟达 GPU 芯片成为目前智算中心的主流算力硬件,占比 90% 左右。因此, 全球范围内芯片能效提升趋势相对明确,可预见的将来与英伟达 GPU 迭代周期 同步,未来有望一年一次更新。伴随着向更低精度的扩展,从 P100 到 B200 的 8 年间,训练同一个模型的能耗,理论上目前已经降至最初的 1/400 左右。 因此,导致各方预测结果分歧较大的原因,主要在于对AI算力增长的预期不一致。 这既取决于算力需求的增长,也取决于算力供给的增长,还取决于客户预算的 增长能否赶得上前两者的增长,以及电力电网建设的增长赶不赶得上前三者的 增长。不少年初的研究低估了去年英伟达 GPU 的出货量。此外,其中算力需求 的增长,既包括训练需求的增长,也包括推理需求的增长,两者都存在较高不 确定性。 因此,部分报告假定了不同的 AI 算力增长情景,也产生了不同的用电增长估算 结果。高盛认为届时美国 AI 用电占比约 20%,semianalysis 则认为可能超过 60%。在不同 AI 算力增速预期下,前者估算到 2030 年,美国数据中心用电占 比将从 2023 年的 3% 升至 8%,后者估算到 2028 年该占比将升至超过 14%。 中国算力增长预期,不确定性主要在技术 对于中国而言,国产芯片的迭代速度与产能瓶颈,即芯片能效提升预期,以及 算力增长预期中的算力供给问题,才是最敏感的影响因素。因此,重估中国 AI 算力与电力在不同情景下的预期,主要从较不确定的芯片创新的角度,而非美 国的较确定的算力增长的角度。 中国目前无法通过官方渠道同步获得英伟达最先进的 GPU。美国降下的“硅幕”, 限制芯片设计、制造与流通的多个环节,试图将中国先进算力遏制在 A100 水 文献综述与方法论 AI 改变能源 智算如何引领新型电力系统 机构对数据中心未来用电规模的预测 来源:公开信息,未尽研究,环球零碳 说明:不完全列举。部分机构给出了单个场景的预测,为图中蓝色圆点;部分机构给出了不同场景的上下限,为图中线段。IEA 的预测截至 2026 年,其余 基本预测至 2030 年。不同结构给出的预测对象并不一致,部分明确称数据中心,部分称 AI 数据中心,IEA 的还包括加密货币。 用电量:TWh 3000 2500 2000 1500 1000 500 0 银河证券 高盛 高盛 EPRI IEA IEA IEA 华泰证券 华泰证券 银河证券 TechInsights semianalysis semianalysis 基准场景 不同场景的上下限区间 中国 全球 美国 6 平以下。但中国在从国际市场上获取符合美国出口禁令标准的芯片的同时,国 产芯片也在迅速补位,通过 DUV 多重曝光等技术制造的等效 7nm 芯片已获行 业验证,理论上这也适用于探索制造等效 5nm 芯片。接下去的问题就是良率提 升速度与产能爬坡速度,根本上取决于中国建立起一个基本替代西方先进制程 芯片的产业链,解决各个环节卡脖子问题。这需要时间和耐心。 保守来看,如果鸿沟短期内无法逾越,中国的 AI 算力长期依靠较低能效的芯片, 且芯片能效无法持续提升,那么相同算力规模的用电量需求就会大增。电力换 算力成为一种选择,以保证在 AI 领域的竞争力。但就总量而言,中国电力的装 机总量约为美国 2.4 倍,发电总量约为美国的 2.1 倍,其中,可再生能源发电新 增装机超过全球的一半,累计装机规模占全球比重接近 40%,绿色电力供给总 量不是问题。 乐观来看,如果中国能够突破封锁,建立起比较完整的芯片产业链,芯片技术 持续迭代升级,能效持续提升,那么,以中国制造“过剩”的能力,决定用电 量的将是算力需求而不是供给。中国三大城市群已出台的智能算力基建规划, 总规模早已超过全国。大模型最大的应用市场就在中国。 文献综述与方法论 AI 改变能源 智算如何引领新型电力系统 各省已公布智算规模超全国规划 160 140 120 100 80 60 40 20 0 来源:公开资料,未尽研究,环球零碳 说明:目前仅部分省份公布了智算基建规划。甘肃未公布智算规划规模。其他省份公布的规模,表示为“超过”“至少”等,取其下限。全国规划指“高质 量行动计划”中对全国智算规模的规划。上述规划基本上截至 2025 年。 重庆 山西 贵州 青海 上海 广东 江苏 安徽 北京 甘肃 河北 各省加总 全国规划 智算规模 EFLOPS AI 改变能源 智算如何引领新型电力系统 7 3500 3000 2500 2000 1500 1000 500 0 2023 2024 2025 2026 2027 2028 2029 2030 测算方法与结果 从 2023 年到 2030 年,中国智能算力规模将以每年 70% 的复合增长率持续 攀升。国产芯片将成为智能算力的主要来源,技术保守情景下全部采用等效 A100,以电力换算力,但更有可能以落后美国 4 年左右的代差持续迭代,提升 能效。至 2030 年,全国智算中心年用电量在 0.6 万亿度 -1.3 万亿度,约占当 年全社会用电量的 5%-10%。 中国智能算力每年增长 70% 去年底,中国提出了《算力基础设施高质量发展行动计划》与《深入实施“东 数西算”工程,加快构建全国一体化算力网的实施意见》。全国各地都在摸底 算力,行动快的省份,已经推出了自己的基建方案。 部分省市规划的智算规模总量,超过了全国的计划目标。“高质量发展行动计 划”明确指出,到 2025 年,中国数据中心的算力规模超过 300 EFLOPS,其 中智能算力占比达到 35%,即 105 EFLOPS。而“八大算力枢纽节点”中的京 津冀、长三角和粤港澳三大枢纽,规划到 2025 年的智能算力规模已经接近 120 EFLOPS。 智算规模实际部署速度,快于计划文件的目标。“高质量发展行动计划”原定 至 2023 年底,智能算力达到 66 EFLOPS;而按照工信部今年披露的数据, 去年智算规模已达 70 EFLOPS,同比增速超过了 70%。 智算规模加速部署,既是中美 AI 竞争的反映,也是中国经济增长向“新质生产力” 要效率的缩影。在国家“适度超前建设算力基础设施”的鼓励下,中国智能计 算中心算力规模保证 70% 的增速是合理且必要的。到 2030 年,中国智算规模 将达到 2886 EFLOPS。 第二章: 中国智能算力规模增长预测 智算规模 EFLOPS 来源:未尽研究,环球零碳 说明:按数据中心智能算力最近三年复合增长率约为 55%,最近一年约为 70%。 CAGR≈70% AI 改变能源 智算如何引领新型电力系统 8 乐观情景下国产芯片有望突破 芯片“硅幕”为中国芯片产业创新提供了外部动力与内部市场。国产 GPU、 FPGA 与 ASIC 等各类 AI 加速芯片,将逐步成为近 3000 EFLOPS 的智能算 力的主要来源。这些芯片需要在总量与结构上满足大模型及其 AI 应用的训练及 推理的需求。一般而言,训练对芯片性能的要求更为苛刻。 即使保守地看,国内芯片厂商已经具备了设计与制造等效英伟达 A100 芯片的 能力,产能也在提升。但中国更有可能在技术创新与政策支持下,走向乐观情景。 国内芯片产业以相比美国 4 年左右的代差迭代升级,即在 2027 年起全部使用 更高能效的等效 H100,到 2029 年全部使用等效 B200。一旦中国建立起自主 的芯片及算力产业链,美国也可能在保持代差优势的情况下,同步放宽门槛, 以维持中国芯片市场份额,这客观上可以提高国内智能算力的供给。 中国智算中心每年新增智能算力需求,都需要用上述当年最先进的芯片来满足。 即芯片数量 = 智算规模 / 芯片算力。 国内主流采用 FP32 精度。工信部《新型数据中心发展三年行动计划(2021-2023 年)》将 FP32 作为国内数据中心算力的计算基准;工信部旗下信通院《中国 算力发展指数白皮书(2023 年)》在对包括数据中心与智能计算中心的基础设 施算力进行规模测算时,统一折算为 FP32 精度。 按这个基准,参照英伟达各代 GPU 的性能参数,到 2030 年,技术保守情景约 需要 14700 万张等效 A100;技术乐观情景则需要累计部署等效的 1700 万张 A100,970 万张 H100,1125 万张 B200。为简化讨论,暂不考虑因折旧等因 素,存量算力改由更高能效芯片提供等情况。 测算方法与结果 中国智能算力用电量增长预测 16000 14000 12000 10000 8000 6000 4000 2000 0 来源:未尽研究,环球零碳 说明:保守场景指从 2023 年到 2030 年全部使用等效 A100,能效无法提升;乐观场景指从 2023 年起使用等效 A100,落后 4 年左右的代差,在 2027 年全部使用等效 H100,在 2029 年全部使用等效 B200。 2023 2024 2025 2026 2027 2028 2029 2030 技术保守情景 技术乐观情景 用电量:亿度 AI 改变能源 智算如何引领新型电力系统 9 2030 年中国智算年用电最高 1.3 万亿度 智算中心要完成训练与推理任务,所需关键 IT 设备不仅包括 AI 芯片,还包括 驱动这些 AI 芯片正常运行的其他必要组件,即服务器上的 CPU、网卡、供电 单元等,以及服务器间的存储服务器、网络交换机、CPU 节点、光纤收发器和 许多其他设备。 因此,要在智算中心驱动一张 GPU 芯片,实际需要额外消耗近 1 倍的电力。 根据英伟达提供的数据中心解决方案,在典型配置的智算集群中,每运行一个 H100 需要 1389W 的 EAP(预期平均功率),而 H100 的 TDP(热设计功率) 为 700W。 智算中心为这些关键 IT 设备提供的冷却与照明同样需要消耗电力。中国要求新 建大型及以上数据中心全部能耗相对关键 IT 设备能耗的比例(即 PUE)降低到 1.3 以下,考虑到市场占比较高的领先云巨头的 PUE 已经做到比这更低,将其 视为一段时间内的全行业基准水平相对合理。此外,考
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
24 页请下载阅读 -
文档评分


新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)