ppt文档 新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT) VIP文档

947.01 KB 24 页 0 下载 26 浏览 0 评论 0 收藏
上传 格式 评分
itfangan
.pptx
3
概览
新型智算中心改造系列报告一: 网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模 型的研发, 均 推动算力需求的增长。 b )未来 A I 应用爆发,推理侧算力需求快速增长:各厂商基于 A I 大模型开发各类 A I 应用,随着 A I 应用用户数量爆发, 对应推 理侧算力需求快速增长。 • 智算中心从集群走向超级池化。智算中心是以 GPU 、 A I 加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模, 算 力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超 级池化阶段,对设备形态、互联方案、 存储、平台、散热等维度提出新的要求。 • 网络互联:节点内外多方案并存。 1 )节点内:私有方案以英伟达 NVLink 为代表, NVLink 已经发展至第五代产品,同时支持 576 个 GPU 之间 的无缝高 速通信;开放技术方案以 OAM 和 UBB 为主, OCP 组织定义了业内通用的 A I 扣卡模组形态( OAM ) - 基板拓扑结构( UBB )设计规 范。 2 )节点间:主要方 案为 Infiniband 和 RoCEv2 ; Infiniband 网络主要包括 InfiniBand 网卡、 InfiniBand 交换机、 Subnet Management ( SM ) 、连接件组成; RoCEv2 网络 是一个纯分布式的网络,由支持 RoCEv2 的网卡和交换机、连接件、流控机制组成。 InfiniBand 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 • 风险提示:宏观经济波动、下游需求不及预期、 A I 伦理风险等。 请务必阅读正文之后的免责声明及其项下所有内容 摘要 目录 01 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models 》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界 点, 新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为: a )在小规模数据上训练模型时,若模型 参数量 过大,可能出现过拟合情况; b )在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。 智能算力需求:训练数据量 + 参数量大幅提升,模型能力“涌现” 请务必阅读正文之后的免责声明及其项下所有内容 资料来源: Jason Wei 等著 - 《 Emergent Abilities of Large Language Models 》 - Transactions on Machine Learning Research ( 2022 ) -P27 ,国信证券经济研究所整理 资料来源: Jason Wei 等著 - 《 Emergent Abilities of Large Language Models 》 - Transactions on Machine Learning Research ( 2022 ) -P4 ,国信证券经济研究所整理 图 1 :训练数据大幅提升后,模型能力“涌现” 图 2 :模型参数大幅提升后,模型能力“涌现” • 大模型训练 + 推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提 升依 赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自 主模型的研发,均推动算力需求的增长。 b )未来 A I 应用爆发,推理侧算力需求快速增长:各厂商基于 A I 大模型开发各类 A I 应用, 随 着 A I 应用用户数量爆发,对应推理侧算力需求快速增长。 60 50 40 30 20 10 0 智能算力(基于 FP32 计算 , ZFLOPS ) 52.50 0.45 2021 2022 2030 智能算力需求:大模型训练 + 推理拉动智能算力需求快速增 长 请务必阅读正文之后的免责声明及其项下所有内容 资料来源:《中国算力发展指数白皮书( 2022 年 &2023 年,中国信通院)》 、国信证券经济研 究 所整理 资料来源:《 2023-2024 年中国人工智能计算力发展评估报告( IDC& 浪潮信息)》 、国信证 券经 济研究所整理 1200 1000 800 600 400 200 0 2020 2021 2022 2023 2024 2025 2026 2027 智能算力(基于 FP16 计算 , EFLOPS ) 图 4 : 中国智能算力快速增 长 图 3 :全球智能算力快速增 长 1117.4 414.3 497.1 812.5 616.6 259.9 155.2 0.23 75 • 智算中心是以 GPU 、 A I 加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为 A I 大模型训练、推理提供算力支撑, 同时为 A I 应用提供算力服务、数据服务和算法服务;以中国移动推出了 N ICC 新型智算中心为例,可分为“三层两域”: • 基础设施层:提供计算、存储、网络等硬件资源。 • 智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。 • 应用使能层:集成行业主流 A I 开发框架。 • 智算运维域:负责对底层 IaaS 进行管理维护,确保系统稳定运营。 • 智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。 图 5 : 中国移动 N ICC 新型智算中心的“三层两域”架构 请务必阅读正文之后的免责声明及其项下所有内容 智算中心:以 GPU 、 A I 加速卡为核心的新型数据 中心 资料来源:《中国移动 NICC 新型智算中心技术体系白皮书》,国信证券经济研究所整 理 • 智算中心逐步从“集群时期”走向“超级池化时期” 。随着 A I 大模型参数量增长,新型智算中心的建设既要考虑计算、存储、网络三 大维度横向协同,也应兼顾软件平台与硬件资源的纵向协同,聚焦于“新互联” 、“新算效” 、“新存储” 、“新平台” 、“新节能”。 • 智算中心发展推动力:模型参数量快速增长,对算力、显存和互联提出新的需求。 • 集群时期( 2022-2024 年):数据及模型出现巨量化趋势,千亿级模型出现,对算力底座和拓展性提出更高要求。 • 设备形态: GPU 、 A I 芯片以扣卡模组为主,服务器形态多为 8 卡, DPU 按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按集群的方式部署。 • 互联方案: 以服务器节点为界限,节点内采用高速计算总线,节点间采用 100G/200G 高速无损网络。 • 存储方面:原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率; • 平台方面:具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体化管理;同时, 引入分布式并行训练框架提升模型训练效率; • 散热方面:为配合高算力需求,散热系统逐步从风冷向冷板式液冷过渡。 图 6 :大模型参数规模增长速度超过摩尔定律,推动智算中心发展 请务必阅读正文之后的免责声明及其项下所有内容 智算中心:从集群走向超级池化 资料来源:《生成式 AI ( State of Generative AI 2023 )》 - 启明创投、未尽研究 -P8 、国信证券经济研究所 整理 • 超级池化时期( 2025 年开始):大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备 形态。 • 设备形态:从单机 8 卡服务器逐步转化为“超级服务器” ,基于存算一体架构的大算力芯片将开始逐步应用。 • 互联方案:内部打造统一的协议实现 CPU 、 GPU 、 A I 芯片、显存、存储等池化资源无缝连接;外部通过 GSE 等高性能交换网络,达到极高吞吐、极低时延的系统算力。 • 存储方面:在“超级服务器”内支持内存池化技术,对外拓展支持全局统一存储。 • 平台方面:构建基于算力原生平台的跨架构开发、编译、优化环境,屏蔽底层硬件差异,从软件层面最大化使能异构算力融通,以应对日益割裂的智算生态。 • 散热方面:浸没式液冷逐步落地。 图 7 :新型智算中心的发展路径 请务必阅读正文之后的免责声明及其项下所有内容 智算中心:从集群走向超级池化 资料来源:《中国移动 NICC 新型智算中心技术体系白皮书》,国信证券经济研究所整 理 目录 01 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 分布式并行运算是发展趋势。 A I 大模型需要部署在高速互联的多个 A I 芯片上,主要由于: 1 )单芯片算力提升的速度明显低于模型参数的增长速率; 2 ) 巨量 的模型参数和训练数据,已经远超单个 A I 芯片、单台服务器的计算能力。 • 传统的中小 A I 模型:训练模式多采用单卡运行或单节点内多卡数据并行,每张卡或节点上都有完整的模型结构,卡间通信主要用于传输训练数据,因此通信 需求不频发,带宽通常在几十 GB ,传统 PCIe 可满足要求。 • A I 大模型:数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递; • 数据并行( DP ):每计算设备(卡或节点)都有一个完整模型,将数据集拆分到多个计算设备同时训练,在反向传播中,各个设备上的梯度进行归约操作求平均,再更新模型参数。 • 模型并行( MP ): 1 )流水线并行( PP ):将模型按照“层”拆分为多个 Stages 放在每个计算设备上,训练过程是逐层顺序计算,通信数据量比 DP 小,点对点互联即可; 2 )张 量并行 ( TP ):将模型在“层”内进行切分,训练过程中前向和反向传播中都设计 Allreduce ,通信量大且频繁,通常要求全互联( FC )或交换拓扑( Switch )。 策略 通信模式 互联拓扑,带宽需求 数据并行 DP Allreduce 环状或全互联,常规需求,几 ~ 几十 GB/s 流水线并行 PP P2P 点对点相连,常规需求,几 ~ 十几 GB/s 张量并行 TP Allreduce 环状或全互联,带宽需求高,几百 GB/s 请务必阅读正文之后的免责声明及其项下所有内容 网络互联:大模型训练,网络成为 A I 算力瓶 颈 资料来源: Rishi 等著 - 《 On the Opportunities and Risks of Foundation Models 》 - arXiv ( 2022 ) - P97 、国信证券经济研究所整理 图 8 :模型参数量(及模型训练所需算力)增长显著高于 GPU 内存和吞吐量的 增长 资料来源:《中国移动 N ICC 新型智算中心技术体系白皮书》、国信证券经济研究所整 理 图 9 :不同的分布式并行策略及对应的卡间互联要 求 • 智算中心内部网络互联可以分为节点内互联和节点外互联(此处以服务器为节点),节点内互联包括处理器之间、处理器与外设及存 储 之间互联,节点外互联主要指服务器之间互联。 • 计算体系多种互联协议:自 1978 年 intel 开创 x86 体系以来,逐步衍生出各种物理特性、传输特性和功能特性不同的互联协议。 • 处理器之间: UP I 、 CXL 、 PCIe 、 NVLink 等; • 处理器与外设及存储之间: Pcie 、 CXL 、 NVLink 、 SATA 、 SAS 、 NVMe 等; • 节点之间: Ethernet 、 IB 等。 图 10 :计算体系多种互联协议 请务必阅读正文之后的免责声明及其项下所有内容 网络互联 - 节点内外多种互联协议并 存 资料来源:《数据中心 2030- 华为》,国信证券经济研究所整 理 • 大模型场景,私有和开放技术方案并存。针对传统传统的中小模型, PCIe 技术方案已经非常成熟;面向大模型场景,基于扣卡模组的卡间高速 互 联方案主要分为私有和开放技术两大类,私有方案以英伟达 NVLink 为代表,开放技术方案以 OAM 和 UBB 为主。 • 私有方案以英伟达 NVLink 为代表。 2014 年英伟达发布第一代 NVLink , 旨在实现 GPU 芯片间低延迟、高带宽的数据互联,相较于传统 PCIe 方案, CPU 和 GPU 之间共享数据的速度大幅提升。 • 传统 PCIe 方案: PCIe 由 Intel 2001 年推出,主要用于连接 CPU 和各类高速外围设备,采用点对点的连接方式,平均 3 年迭代一次;在传统 PCIe 方案中, GPU 发出的信号 要先传递到 PCIe Switch , PCIe Switch 中涉及到数据的处理, CPU 会对数据进行分发调度,会引入额外的网络延迟,限制了系统性能。 • NVLink 方案:以 P100 方案为例,拥有 4 条 NVLink ,单条 NVLink 是一个双向接口,包括 32 个链路,每个方向形成 8 个差分(采用基于差分信号线的高速串行通 信技术), 单条 NVLink 提供 40GB/s 带宽(通过将多个 Sub-Link 组成 Port ,实现 GPU 之间的快速数据传输),合计提供 160GB/s 带宽。 请务必阅读正文之后的免责声明及其项下所有内容 网络互联 - 节点内:私有方案以英伟达 NVLink 为 代表 图 12 : P100 GPU 中有 4 个 NVLink 1.0 ,总聚合带宽达 160 GB/s 资料来源: WikiChip 、国信证券经济研究所整 理 资料来源: WikiChip 、国信证券经济研究所整 理 图 11 :传统 PCIe 技术方 案 • NVLink 已经发展至第五代:第一代到第二代的演进主要是 互 联拓扑的改变,从 cube 直连变为 Switch 交换拓扑;第 三代在 通过增加单卡的 NVLink 通道数提升点到点 ( P2P )带宽,第 四代通过完善多种协议内容,进一步实 现 C2C ( Chip to Chip )、 A I 卡间以及服务器节点的统一连接;第五代带宽 大 幅提升,同时支持 576 个 GPU 之间的无缝高速通信。 • NVSwitch :节点交换架构。 NVSwitch 是一种类似交换机 的物 理芯片( Asic ),通过其接口可以将多个 GPU 高速 互联在一 起,实现所有 GPU 在一个具有全带宽连接集群 中协同工作。 图 13 : NVLink 拓扑结构发展 第一代 第二代 第三代 第四代 单 NVLink Domain 内 可直连 GPU 个数 Up to 8 Up to 8 Up to 8 Up to 576 NVSwitch GPU-to-GPU 带宽 300GB/s 600GB/s 900GB/s 1,800GB/s 加总带宽 2.4TB/s 4.8TB/s 7.2TB/s 1PB/s 支持 NVIDIA 架构 NVIDIA Volta architecture NVIDIA Ampere architecture NVIDIA Hopper architecture NVIDIA Blackwell architecture 第二代 第三代 第四代 第五代 NVLink 带宽(单 GPU ) 300GB/s 600GB/s 900GB/s 1,800GB/s 单 GPU 最大 Link 数 6 12 18 18 支持 NVIDIA 架构 NVIDIA Volta architecture NVIDIA Ampere architecture NVIDIA Hopper architecture NVIDIA Blackwell architecture 请务必阅读正文之后的免责声明及其项下所有内容 网络互联 - 节点内: NVLink 已经发展至第五代 产品 图 15 : NVLink 向更大带宽、更多 Link 数 迭代 资料来源:英伟达官网、国信证券经济研究所整理 资料来源:英伟达官网、国信证券经济研究所整理 资料来源:英伟达官网、国信证券经济研究所整理 资料来源:英伟达官网、国信证券经济研究所整理 图 14 : NVLink 已经发展到第 五代 图 16 : NVLink Switch 迭代情 况 • 开放技术方案: 2019 年 OCP 组织为降低整机厂家集成多家 A I 芯片的适配难度,发起开放加速器基础设施项目( OA I ),定义了业 内通用的 A I 扣卡模组形态( OAM ) - 基板拓扑结构( UBB )设计规范,以 8 张 OAM 为一个整体,进一步定义了 8*OAM 的 Baseboard 的主机接口、供电方 式、散热方式、管理接口、卡间互联拓扑、 S
下载文档到本地,方便使用
- 可预览页数已用完,剩余 22 页请下载阅读 -
文档评分
请文明评论,理性发言.