pdf文档 运营商智算中心建设思路及方案 VIP文档

3.64 MB 6 页 0 下载 4 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
2024/09/DTPT —————————— 收稿日期:2024-07-11 0 前言 人 工 智 能 聊 天 机 器 人 ChatGPT、AI 编 程 工 具 GitHub CoPilot、图像生成系统 Stable Diffusion、视频生 成系统 Sora 等生成式人工智能(Generative AI,Gen- AI)应用和工具产品的出现,为文本创建、图像视频生 成、代码生成以及研发流程等工作带来了全新的智能 体验,极大地提升了生产力,提高了生产水平。 Gen-AI 应用的出现离不开大模型的支持。大模 型是基于海量参数进行自监督学习的预训练模型,凭 借更强的学习能力、更高的精准度以及更强的泛化能 力,正在成为人工智能技术发展的焦点。随着大模型 的快速成熟,其参数规模呈百万倍增长,随之而来的 是算力需求的剧增,芯片算力的增长速度与模型参数 规模的增长存在剪刀差,推动了超大规模智算集群的 建设。 作为基础设施建设者和新质生产力的推动者,电 信运营商正积极推进智算布局。本文基于大模型的 发展趋势和需求,结合运营商的特定优势,提出了智 算集群布局以及算力、存储、网络和维护管理方面的 关键词: 人工智能;智算中心;基础设施;建设思路 doi:10.12045/j.issn.1007-3043.2024.09.012 文章编号:1007-3043(2024)09-0068-06 中图分类号:TN915.5 文献标识码:A 开放科学(资源服务)标识码(OSID): 摘 要: 人工智能训练的计算复杂度逐年猛增,所需的智能算力从每秒千万次运算增加 到数百亿次,甚至进入千亿级别,促进了大规模智算中心的建设。智算中心主 要满足智算算力的需求,其布局、建设及维护方案与传统的云资源池存在较大 差异,当前运营商对智算中心的布局以及详细方案并没有统一的建议和参考。 分析了大模型发展带来的算力、存储、组网的需求挑战,对运营商智算布局以及 算力、存储、网络、维护管理等提出了相应的策略和方案建议。 Abstract: The computational complexity of AI training has been increasing dramatically year by year,with the required intelligent computing power growing from hundreds of millions of operations per second to tens of billions,and even reaching the level of hundreds of billions,which promotes the construction of large-scale intelligent computing centers. These centers are primarily built to meet the demand for intelligent computing power,and they differ significantly from traditional cloud resource pools in terms of layout,construction,and maintenance solutions. The industry currently lacks unified recommendations and references for the layout and detailed plans of intelligent computing centers. It analyzes the challenges of computing power, storage,and networking demands brought by the development of large models,and proposes corresponding strategies and suggestions for the layout of operators' intelligent computing,as well as computing power,storage,network,and maintenance management. Keywords: Artificial intelligence;Intelligent computing center;Infrastructure;Construction ideas 运营商智算中心建设思路及方案 Construction Ideas and Plans for Operator Intelligent Computing Centers 童俊杰 1,申 佳 2,赫 罡 1,张 奎 2(1. 中国联合网络通信集团有限公司,北京 100033;2. 中讯邮电咨询设计院有限公司郑州 分公司,河南 郑州 450007) Tong Junjie1,Shen Jia2,He Gang1,Zhang Kui2(1. China United Network Communications Group Co.,Ltd.,Beijing 100033,China;2. China Information Technology Designing & Consulting Institute Co.,Ltd. Zhengzhou Branch,Zhengzhou 450007,China) 引用格式:童俊杰,申佳,赫罡,等. 运营商智算中心建设思路及方案[J]. 邮电设计技术,2024(9):68-73. 童俊杰,申 佳,赫 罡,张 奎 运营商智算中心建设思路及方案 数据通信 Data Commuincation 68 邮电设计技术/2024/09 策略和方案建议。 1 大模型的发展趋势和需求分析 1.1 大模型发展的趋势 虽然大模型的概念已经深入人心,但是目前没有 明确界定标准来判定模型为小模型还是大模型。根 据模型表现和模型算力需求,业界一般认为一个经过 充分训练的百亿参数的模型可认定为大模型 [1]。大模 型遵循的三大统计特征如下。 a)Scaling Law。模型表现依赖于模型规模、计算 量和数据量,这些因素之间呈现幂律关系 [2]。 b)Chinchilla Law。模型大小和数据量要同等比 例扩展,即数据量需达到参数量的 20 倍,模型训练结 果才能达到饱和 [3]。 c)智能涌现。只有训练计算超过 10 22或训练损失 足够低时,才会出现智能涌现,即在典型人工智能任 务上的能力大幅提升,而和具体模型无关 [3-4]。 上述三大统计特征揭示了,随着参数模型量越来 越大,模型对训练所需算力的需求越来越大,随着 Sora 等多模态视频模型的兴起,参数量规模剧增,OpenAI 的 GPT-4 以及 Google 的 Gemini Ultra 都宣称达到了万 亿级参数 [5]。参数量剧增导致训练所需的数据量越来 越大,有预测认为,到 2026年文本数据将被训练完,图 像数据将在 2040年前后被用完,合成数据将会是未来 数据的主要来源 [6],数据量规模会再一次量级跃迁,对 存储的规模和性能带来更大的挑战。此外,智算集群 的规模也从百卡发展到万卡,甚至十万卡级别,对网 络通信的带宽和时延要求越来越高。 1.2 算力需求和挑战 在 Transformer 模型结构中,算力需求与模型参数 规模、数据量具有相关性,具体如表1所示。 按照上述关系,以 GPT-3 175B 的参数量(1 746 亿)为 例 ,其 训 练 算 力 的 需 求 为 6×174.6 B×300 B= 314 000 EFLOPS。若采用 910B(376 TFLOPS@FP16) 集群,按照 GPU 利用率为 30%,训练 28 天,则需要约 1 150张910B GPU卡。 按照上述测算,对于万亿参数模型,则需要万卡 级规模集群;对于十万亿参数模型,则需要十万卡级 规模集群。因此,为了实现通用人工智能 AGI,国内外 互联网厂商纷纷开始“囤卡”。在算力需求倍增的同 时,带来如下挑战。 a)对显存容量和性能的挑战。GPU 卡中的高带 宽存储器(High Bandwidth Memory,HBM)是基于 3D堆 栈工艺的高性能 DRAM,其本质是将多个 DDR 芯片堆 叠后和 GPU 一起封装。目前,AI算力增长速度远高于 显存容量和性能的增长速度,以英伟达 A100、H100 为 例,虽然 H100 较 A100 的算力增长了将近 3 倍,但显存 容量没增长,带宽只增长了近 2倍,这对分布式显存调 度提出了更高的要求 [8]。此外,当前 HBM 的主要厂商 为海力士、三星和美光,国产 GPU 卡可能无法使用最 新的HBM技术,显存能力演进受限。 b)对散热和资源的挑战。从 GPU卡的演进来看, GPU 模型的算力和功耗成比例增长,昇腾 910B 芯片 TDP 为 392 W,单台训练服务器功耗达到 5.2 kW。以 GPT-3 为例,训练所需电量达到 1 287 MW(碳排放为 502 t),每天推理需要用电50万 kWh,冷却设备所需的 水达到70万 L,对电力资源和水资源都是巨大挑战 [9]。 c)对 GPU跨厂家协同、跨代际演进的挑战。跨厂 家 GPU 因为软件生态、底层算子不同,导致上层模型 无法一次编译后异构执行。即使采用同一厂家的 GPU,也因为不同型号 GPU 的算力、显存和通信能力 甚至算子优化不同,共集群训练时面临性能损失、无 法发挥优势的问题。 d)对供应链保障的挑战。受美国芯片禁令的影 响,国内将无法购买国外先进的 GPU 产品,国内 GPU 的产能和生态面临巨大挑战。 1.3 存储需求和挑战 AI 大模型的训练和推理都会涉及到数据的存取。 在训练之前的数据预处理阶段,需要对海量数据进行 处理,包括格式对齐、归一化、去重、隐私保护、异常值 处理等。训练阶段涉及海量小文件的训练数据存取 和训练过程中参数文件的周期性保存;在推理阶段, 需要读取本地存储的模型参数,并对实时样本进行处 表1 算力需求和模型参数规模 参数 模型参数 规模 Tokens 规模 训练算力 训练所需 GPU卡规 模 符号表示 P D F G 等量关系 - 20×P,至少为模 型参数的20倍 6×P×D[7] F/(单卡算力× GPU利用率×训 练限制时间) 单位和解释说明 - 一个英文单词即可认为是 一个Token,汉字可认为是 一个Token;通常为百万级 FPLOPS,浮点计算次数。 对于训练算力,一般认为是 16位浮点计算次数 张,用来衡量GPU卡数量。 其中GPU利用率一般为 30%~75% 童俊杰,申 佳,赫 罡,张 奎 运营商智算中心建设思路及方案 数据通信 Data Commuincation 69 2024/09/DTPT 理,输出推理结果。 AI大模型的训练和推理对存储带来的挑战如下。 a)对数据访问性能的挑战。一方面是大量小文 件带来的元数据访问挑战,另一方面则是海量小文件 并发快速读取、Checkpoint 周期保存参数对数据存取 带来的挑战。 b)多模态数据统一访问的挑战。对于视频和图 片多模态数据输入,会对原始文件进行特征提取并以 小文件的形态保存,因视频和图片原始特征复杂,处 理后数据量倍增。此外,为便于后续对多模态原始和 特征数据的存取,需要建立相应的快速检索机制和内 容审核能力。 c)对数据安全的挑战。复杂繁多的数据处理环 节,导致数据处理存在诸多安全风险,包括数据隐私 泄露、数据违规侵权、数据不可追溯、数据操作不合规 等。 1.4 组网需求和挑战 在大模型训练和推理中,主要的关键网络和相关 通信挑战如下。 a)训练数据到训练计算集群的网络通信。当前 数据源和数据存储主要靠近人类居住密集和业务热 点区域,和自然土地资源、电力资源相对丰富的西部 地区距离较远。在训练时,需将训练数据传输到西部 节点,这类数据对实时性要求不高,可以采用快递硬 盘或者互联网专线进行传输,以节约成本,但互联网 专线因业务模式的问题,当前成本相对较高。以传输 0.7 PB 数据为例,采用 2.5 寸的 3.68 TB 硬盘进行数据 存储,需要约 50 块硬盘,如果采用航空快递,1 000 km 的快递成本预计为 1 000 元、时间预计为 24 h;若租赁 1 Gbit/s 有保障的互联网专线,按照 30 000 元/月的价 格(按照每月 30天,每天费用为 1 000元)计算,约 1.5 h 可完成数据传输。 b)训练时单 GPU 服务器的卡间通信。为提升大 模型的训练速度,一般会采用数据并行、流水线并行 和张量并行,其中张量并行的并行度一般和单 GPU 服 务器的卡数量等同,张量并行对卡间实时通信的带宽 和时延带来挑战。当前卡间通信的结构主要有总线 结构(例如昇腾 HNCCS通信方式)和交换结构(例如英 伟达 NvLink通信方式)2种,总线结构因布线复杂和制 程工艺要求较高,带宽和扩展性受限。国产卡较多采 用总线结构,卡间互联带宽远低于国外产品,同时单 机内卡规模数一般不超过8,导致张量并行度受限。 c)训练时 GPU 服务器集群的通信。数据并行和 流水线并行对集群内机间实时通信的带宽和时延带 来挑战。为了减少计算单元的闲置,需要在流水线单 元的计算周期内完成前序数据的同步和通信,一般要 求在百毫秒级完成数据通信,按照十 GB 级的通信量, 集群内机间带宽应至少达到 100 Gbit/s,且随着单卡算 力和吞吐的增加,对机间带宽的需求也同步增加。此 外,为了避免数据重传,一般要求集群内组网为无损 网络。 2 智算中心的部署策略和方案建议 2.1 绿色集约、高效布局 当前智算中心有 2个典型选址策略:第一,优先选 择“东数西算”枢纽节点,尤其是西部自然资源丰富的 地区,土地和电力资源优势明显;第二,聚焦北、上、 广、深等业务和大模型产业活跃的城市与地区 [10],靠 近业务和数据。运营商因可信安全优势和充沛的骨 干传输资源,在布局上具有天然优势,且基本符合上 述策略,其中中国联通优先在上海、北京、广东、内蒙 古开展“一基地三高地”智算梯次布局;中国移动规划 部署“4+N+31+X”数据中心,在内蒙和林格尔建设大 型单体智算中心;在中国电信“2+4+31+X+O”的算力 布局中,除了内蒙古和贵州 2个全国性云基地,还在上 海临港部署了万卡智算集群。 除布局策略外,智算中心在散热模式、机房部署 方面还应充分考虑低碳绿色、集群组网,具体策略和 方案建议如下。 a)优选液冷散热模式。液冷技术可有效降低 PUE,提升装机密度,且液冷节点及相关器件(例如光模 块)的温度比风冷节点更低,可有效提升可靠性,降低 数据中心的运维成本,提高整体经济效益。在智算资 源池的建设中,智算训练服务器应优先采用液冷技术。 b)慎用风液混合模式。GPU 集群长时间运行时, GPU 卡在风冷集群的温度可能达到 100 ℃以上,为避 免过热带来的故障和风险,GPU 卡会进行降频处理, 如果风、液冷共集群,液冷设备的 GPU 卡的高性能就 无法发挥最大价值。因此,在智算中心建设前要做好 提前规划,避免不必要的损失。 c)单一智算集群的机房不宜过度分散。为便于 无损网络组网部署和后续故障定位,建议 Leaf 与 GPU 服务器之间的距离不超过 100 m,即两者最好同机房 部署;建议 Leaf 与 Spine 之间的距离不超过 2 km,当 童俊杰,申 佳,赫 罡,张 奎 运营商智算中心建设思路及方案 数据通信 Data Commuincation 70 邮电设计技术/2024/09 Spine 与 Leaf 跨机房时,建议将所有 Spine 部署在一侧 机房,尽量减少拉远的Leaf数量。 2.2 多元探索、异构优化 国内外主要 GPU 卡的基本情况如表 2 所示,其中 英伟达 GPU 卡在算力、显存、卡间通信、生态等方面处 于领先地位,AMD 和 Intel 的 GPU 卡在算力上逐步追 赶,但是在生态上仍存在短板;国内则以昇腾 GPU 卡 为主导,其他国产 GPU 卡不仅算力不足,在实际规模 化部署上也缺乏典型案例。 受政策影响,英伟达、Intel等国外芯片厂商的芯片 面临无法在中国出售或者改版而导致性能下降的问 题,而国产GPU则在能力和生态上存在差距。 根据现状,在算力策略和方案上的建议如下。 a)积极发展多元算力供给。一方面,应发展多元 GPU 芯片。GPU 芯片影响单位智算算力,已经成为制 约大模型发展的瓶颈,鉴于当前国内外政策和 GPU 发 展水平,应积极开展多元算力芯片适配以及异构算力 的管理和调度。另一方面,智算和通算需紧密结合。 AI 大模型的前端访问和上层应用离不开通算,而在训 练和推理过程中,AI 大模型也需要通算来运行和处理 任务和数据的调度访问。 b)兼顾多元芯片和单一芯片。多元算力异构必 然带来多个智算软件生态,为模型适配和优化带来挑 战,需要进行差异化考虑。对于超千亿的大模型的训 练,因集群规模大、训练时间长、模型复杂,建议以单 一 GPU 芯片为主;对于百亿十亿等中小模型,其集群 规模在百卡左右,规模相对较小、模型适配相对简单, 可以进行多元芯片探索。 c)兼顾时效性和芯片演进。GPU 芯片在不断迭 代更新,对于跨 GPU 芯片型号的组网,因为不同型号 GPU 的算力、互通、显存等能力不同,存在木桶效应, 无法发挥高性能 GPU 芯片的效能,建议大规模集群选 择单一芯片,同时应充分考虑建设交付周期、未来业 务发展趋势、芯片演进计划等因素。对于型号落后的 GPU 训练芯片,未来随着多模态模型推理对算力需求 的增加,可用于对视频生成的推理。 2.3 分层分级、存算协同 运营商本身拥有较为丰富的数据资源,包括内部 IT 系统积累的数据,也包括网络运行过程中海量的性 能、告警、故障等运行数据和用户运营数据。上述海 量数据通过运营商骨干网络进行传输,在汇聚、整合 之后形成了特有的数据资产,此过程积累了数据清 洗、数据标注、数据分析、数据可视化、数据传输等方 面的技术。 鉴于上述优势和积累,对数据存储方面的策略建 议如下。 a)充分发挥大数据技术的优势。运营商经过多 年技术积累,具备在异构硬件之上搭建大数据平台, 数据离线批处理和实时流处理的能力,同时储备了数 据清洗、数据规整、数据治理的能力。在存储方面,运 营商可形成对外开放或可授权的数据资产,并将数据 资产与智算服务相结合,实现数据增值。 b)做好存力和运力的协同。对于用户数据存储 热点区域,其存力需求巨大,需要提前做好和智算中 心之间的运力提升,便于训练数据和推理数据的传 输。 c)在具
下载文档到本地,方便使用
共 6 页, 还有 4 页可预览, 继续阅读
文档评分
请文明评论,理性发言.