pdf文档 金融业AI大模型智算网络研究报告 VIP文档

1.70 MB 33 页 0 下载 3 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
金融业 AI 大模型智算网络 研究报告 北京金融科技产业联盟 2025 年 5 月 I 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转 载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。 违反上述声明者,将被追究相关法律责任。 II 编制委员会 主任: 聂丽琴 编委会成员: 吴仲阳 张 勇 张志鹏 李建高 成晓强 编写组成员: 陈 鹏 余学山 黄 海 张治铧 王世媛 叶 鑫 张 杰 常 东 刘 佳 编审: 黄本涛 周豫齐 参编单位: 北京金融科技产业联盟秘书处 中国工商银行股份有限公司 中国邮政储蓄银行股份有限公司 华为技术有限公司 III 摘 要 2023年10月,中国人民银行等六部门联合印发《算力基础设 施高质量发展行动计划》,指出“算力是集信息计算力、网络运 载力、数据存储力于一体的新型生产力”,针对网络运载力提出 “优化算力高效运载质量、强化算力接入网络能力、提升枢纽网 络传输效率、探索算力协同调度机制”的重点任务,明确通过“算 力+金融”加快算力在金融领域的创新应用,为金融业务发展提 供更为精准、高效的算力支持。 AI大模型智算网络技术是算力集群的重要基础底座,是新型 算力中的网络运载力,是助力大模型实现跨节点分布式训练,提 升大规模训练效率的重要支撑。 本文深入分析 AI 大模型技术在模型能力、结构、算力、效 率等方面的技术发展趋势,提出作为底座的智算网络所面临的新 问题和新挑战。围绕 AI 大模型智算网络“高性能连接、高效率 传输、高可维网络、高安全保障”等关键技术进行研究,提供一 套适应金融特征的覆盖数据中心、骨干及分支的 AI 智算网络技 术方案。结合行业业务及技术发展方向,将金融业 AI 智算网建 设演进划分为打造底座、构建系统、完善生态 3 个阶段,并给出 了新技术发展及创新方向,为金融机构开展 AI 大模型智算网络 规划及建设提供参考。 关键词:大模型训练、智算网络、负载均衡、流控技术、拥 塞管理 IV 目 录 一、研究背景 ................................................. 1 (一)AI 大模型发展趋势及挑战 ............................. 1 (二)金融领域应用规划 ................................... 4 二、智算网络方案综述 ......................................... 5 (一)智算网络技术需求 ................................... 5 (二)业界智算网络方案 ................................... 6 三、智算网络整体架构及关键技术 .............................. 10 (一)高性能网络拓展算力规模 ............................ 11 (二)高可用网络提升算力效率 ............................ 12 (三)高可维网络增强算力可用性 .......................... 17 (四)高安全网络保障算力安全 ............................ 19 四、智算网络发展趋势 ........................................ 21 (一)主要发展阶段 ...................................... 21 (二)新技术创新方向 .................................... 22 五、案例实践 ................................................ 23 (一)工商银行 AI 大模型算网融合创新实践 ................. 23 (二)邮储银行 AI 大模型算力网络创新实践 ................. 24 术语与缩略词表 .............................................. 27 参考文献 .................................................... 28 1 一、研究背景 (一)AI 大模型发展趋势及挑战 随着新一轮科技革命和产业变革加速推进,AI 大模型浪潮 席卷全球,成为最具影响力的创新科技,大模型被认为是未来人 工智能领域的关键基础设施。AI 大模型正加速定义及形成新服 务、新制造、新业态,成为数字时代的新质生产力。 随着技术演进,AI 大模型技术呈现以下显著发展趋势: 一是模型能力持续提升。随着深度学习技术不断发展,AI 大模型的参数规模和计算能力不断增加,使得模型能够处理更加 复杂的任务和数据。2022 年发布的自然语言模型 GPT-3,能生成 高质量的自然语言文本,能进行翻译、问答、文本生成等任务; 在 2024 年诞生的 Sora 模型,不仅演进到视频生成的能力,还具 备理解和应用现实世界物理规律的强大能力。AI 大模型逐渐从 能说会道过渡到了突破多模态,形成了人机混合、自主理解、规 划决策、执行复杂任务的智能体 AI Agent。 二是模型结构持续演进。稠密模型由于其结构简单及易于实 现,在早期成为大模型的主流。但是随着 AI 模型规模不断扩大, 计算和存储资源的需求不断增加,成为新的挑战。稀疏模型因其 支持参数剪枝,在保持模型性能的同时极大降低了计算成本,因 而受到更多关注并逐步成为演进方向。 三是模型算力持续增长。从 2016 年到 2024 年,GPU 单卡算 力增长了 1000 倍;以英伟达 GPU 为例,其单卡算力增长速度达 2 到每 6 个月翻一番,超过了摩尔定律。新出现的 Super pod 超节 点技术可将多个 GPU 集成在一个较大的服务器中,通过高速总线 互联,实现高带宽、低延迟的数据交换和通信,以持续提升单节 点算力(例如英伟达 GB200)。另一方面,大模型的参数量从 GPT-1 的 0.1B 增长到 ChatGPT 的 175B,模型所需算力在四年间也从 GPT-1 的 1PFlops 增长到 ChatGPT 的 3000+PFlops,如表 1 所示。 表1 AI大模型算力变化趋势 四是模型效率持续优化。随着AI大模型的规模和复杂性增加, 训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法 优化、混合精度训练优化等技术在训练框架层、通信算法层持续 提升AI模型训练的效率。随着技术的不断进步,未来必定会有更 多高效训练AI模型的方法出现。 AI大模型持续加速演进,其庞大的训练任务需要大量服务器 节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群 并非通过简单算力堆叠即可实现完美线性扩展,而是取决于节点 间网络通信及集群系统资源调度能力。网络系统的性能及可用性 3 成为AI算力集群的线性度和稳定性的关键,也面临新的挑战: 一是高性能传输挑战。大模型需要大量的数据进行训练和推 理,千亿模型单次计算迭代内,梯度同步需要的通信量达百GB 量级;MoE稀疏模型下张量并行的卡间互联流量带宽需求达到数 百至上千GBps量级。服务器节点间互联网络会承载数据并行和流 水线并行流量,千亿参数模型如GPT-3并行训练节点间带宽需求 达到13.5GB(108Gbps),如表2所示。万亿模型参数面带宽需求 增加到200Gbps至400Gbps。AI智算网络需提供更高的带宽来支持 数据快速传输,并且支持算力的横向扩展能力。 表2 千亿稠密模型GPT3千卡PTD训练通信量 注:PDT,P 指 Pipeline 并行,D 指 Date 数据并行,T 指 Tensor 并行 参数:模型 GPT3-175B,h=12288,S=2048,Ndecoder=96,B=1536,D=16,T=8,P=8 二是高可用互联挑战。由于AI并行训练通信具备不规整的特 征,即单流通信量大,ECMP选路不均衡,极易导致网络出现局部 堵点,从而导致训练效率下降。以GPT3-175B大模型千卡并行训 练为例,训练期间网络中同时存在的流数目千条以内,ECMP选路 方式下,高负载链路利用率:低负载链路利用率达7:1,即流量 无法有效hash,高负载链路堵点概率极大。因此对网络负载均衡 4 调优、无损传输等提出了更高要求。同时大模型的训练和推理也 对网络的可靠性提出了更高要求,任何网络中断都可能导致训练 失败或推理错误,降低集群算力的效率。 三是高可维网络挑战。大模型单次训练时间在数天-月级。 训练期间如果出现网络不稳定的问题,会影响整个训练任务的进 度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如 Meta OPT-175B训练,故障定位平均时长约11小时,复杂应用故 障定位长达80小时。因此需要一套具备精细化监控、端网一体化 的,且可一键故障定界、定位及自愈的技术手段,来提升智算网 络易用性。 四是高安全模型保障。在推理和训练的各个阶段,大模型都 可能成为网络攻击的对象,因此需要采取额外的安全措施来保护 模型不受侵害,保障数据的保密性和完整性,防止数据泄露和滥 用。此外,大模型基础设施在端到端供应链的安全性、稳定性和 坚韧性也存在巨大挑战,需加强AI大模型与自主可控芯片适配, 建设基于自主可控人工智能芯片、训练框架、交互网络的智算中 心。 (二)金融领域应用规划 2023年10月,中国人民银行等六部门联合印发《算力基础设 施高质量发展行动计划》,明确算力是集信息计算力、网络运载 力、数据存储力于一体的新型生产力。并提出“提升算力高效运 载能力”的重点任务,要求针对智能计算、超级计算和边缘计算 5 等场景,开展数据处理器(DPU)、无损网络等技术升级与试点 应用,实现算力中心网络高性能传输。并提出“算力+金融”赋 能金融行业应用的发展计划。 中央金融工作会议强调要“做好数字金融大文章”,金融业 要全面适应数字经济时代的经济社会发展变化,深化数字技术的 金融应用,以大模型为重要抓手推进产业创新和解锁新质生产力。 北京金融科技产业联盟依托人工智能专业委员会,加快金融业人 工智能的发展和落地。2022年10月,发布《人工智能金融应用发 展报告》,分析人工智能技术发展与金融创新应用情况,以加快 人工智能与金融应用深度融合。2023年8月,发布《金融数据中 心人工智能算力建设指引》,给出了算力与网络协同的指导意见。 二、智算网络方案综述 (一)智算网络技术需求 根据业界论文的推论,AI 大模型训练端到端理论时间计算 公式如下: X N P T t   _  8 E 其中 T 为训练数据的 token 数量,P 为模型参数量,N 为 AI 硬件卡数,X 为每块卡的有效算力,N×X 则为集群算力。 在 T 和 P 一定的情况下,提升 AI 集群算力 N×X 是降低整体 时间,节省训练成本的关键。而 AI 集群算力能力很大程度上依 赖于高性能和高可用的网络。在分布式计算环境中,多个计算节 点需要频繁地交换数据和模型参数,这一过程的流畅与否直接关 6 乎集群计算效率。高性能的网络能够确保数据快速传输,减少节 点间的等待时间,从而加速训练或推理过程;高可用的网络使得 AI 任务并行处理更加稳定高效,从而优化网络通信瓶颈。因此, 高性能、高可用,且具备高效运维的网络是 AI 大模型训练的重 要条件。 (二)业界智算网络方案 围绕着智算网络提升 AI 大模型训练效率,AI 芯片提供商、 互联网厂商、运营商网络团队及网络设备厂商,分别从不同角度 进行技术探索和实现。 一是以英伟达、华为为代表的AI芯片提供商通过网络和计算 联合调优,有效避免通信拥塞。英伟达在AI以太互联解决方案中, 通过Spectrum交换机和BlueField网卡的协同,完成逐包均衡以 缓解流量拥塞。华为提出网络级逐流负载均衡,通过网络控制器 的全局视角获取全网拓扑,与端侧配合获得计算任务信息,通过 对流量的主动干预、主动调度,从而达到近乎满吞吐的目标。此 外,英伟达在超节点组网中引入了超高速互联通信机制。以英伟 达为例,如图1所示,节点间在高速InfiniBand/RoCE连接基础上, 基于NVLink形成GPU ALL-to-ALL的超高速网络,并在NVLINK网络 中引入SHARP协议实现在网计算,将端侧(服务器)计算任务的 部分处理操作卸载到互联网络中,由分布式交换机协同端侧应用 完成集群的集合通信(Reduce、Multi-Cast等),降低网络流量 负载。 7 图1 英伟达NVLink超高速网络架构分析 1 二是以Google为代表的互联网厂商,主要通过端侧技术优化 来解决关键负载不均的问题,尽量减少对网络设备的能力依赖。 Google提出Timely/Swift,基于端侧精准测量RTT的拥塞控制机 制;Google/SRD/UEC通过逐报文对IPv6 Flowlabel/Entropy等字 段修改,结合现有网络设备已具备的ECMP技术,对大规模单流进 行逐报文的多路径喷洒,以提升网络流量负载。从近期发展看, 该技术路线也慢慢从端侧延展到网络侧,如Google提出的CSIG, 以及阿里巴巴提出的HPCC,均希望充分利用网络设备的实时测量 信息,为端侧调速、选路提供更优参考。 三是以博通、中国移动为代表的网络设备厂商或运营商,主 要通过推动网络侧进行方案优化。博通在DDC采用信元为粒度的 网络调度方案。与以太网逐流ECMP对比,信元交换网络的负载均 1 来源:参考 SHARP 论文:https://ieeexplore.ieee.org/abstract/document/7830486/ Graham, R. L., Bureddy, D., Lui, P., Rosenstock, H., Shainer, G., Bloch, G., ... & Zahavi, E. (2016, November). Scalable hierarchical aggregation protocol (SHArP): A hardware architecture for efficient data reduction. In 2016 First International Workshop on Communication Optimizations in HPC (COMHPC) (pp. 1-10). IEEE. 参考 GTC 2025 官方信息公开数据,NVL 的网络拓扑推测,NV576/NV288 的 4 个子框之间电缆连接,2 级 CLOS 架构,每个 NVLink switch 是 288L@448G 8 衡粒度更优,但DDC依赖大缓存交换设备以及严格可靠的VoQ调度 机制,给网络带来压力。中国移动提出全调度以太网,在网络中 通过虚拟的报文容器机制,将流量均衡打散并利用出口设备的重 排能力完成流量恢复。从近期发展看,该类技术路线有网络下延 至端侧趋势,如博通发展端侧EQDS拥塞控制能力,中国移动推出 端网协同负载均衡,即端和网联合参与全局流量调度。 四是以UEC、Google、AWS为代表的产业联盟及公有云厂商, 持续推动对端侧及传输层协议进行优化。超以太网联盟(UEC), 致力于开发物理层、链路层、传输层和软件层以太网技术以满足 规模化人工智能等高性能计算需求。2023年10月,谷歌宣布开放 其硬件传输协议Falcon,基于以太网基础实现高带宽、低延时、 大规模工作负载的性能和效率提升。AWS推出SRD数据报文协议, 即基于Nitro芯片,为实现高性能计算而开发的一种高性能、低 延时的网络传输协议,以解决AWS的云性能挑战。整体上各新型 网络协议总体思路类似,即在以太网完善的生态和兼容性基础上, 为应对大规模高性能、低延时的计算负载诉求,优化乃至重构传 输协议,例如多路径和报文散传、支持灵活传递顺序、端到端遥 测等。详细对比如表3所示: 表 3 业界主流传输协议对比 对比项 TCP RoCE Falcon UET SRD 主导方 IETF BTA 谷歌 UEC 联盟 AWS 负载 均衡 包级 √ √ √ 流级 √ √ 9 对比项 TCP RoCE Falcon UET SRD 拥塞 管理 链路层 反压 基于端口反压 PFC:基队列反压 CBFC,基于信用 调度 传输拥 塞控制 (检测 机制) 丢包 ECN RTT EQDS:端侧检测 SMarTTrack:EC N+RTT+BDP+丢 包 RTT 算法 TCP 基础 DCQCN、AI-ECN、 零队列拥塞管理 SWIFT EQDS、 SMarTTrack 类 BRR 算法 实现 端侧 端侧+网络侧 端侧 EQDS:端侧 SMarTTrack: 端侧+网络侧 端侧 五是以 OTT 厂商为代表打造可运维网络,减轻运维成本。OTT 厂商通过采用交换机双归方法来缓解光电端口闪断等常见故障 问题,探索光模块故障快速定位定界、快速自恢复等全新方法, 尝试建立有效的网络性能观测和风险预警机制。整体上,业界对 网络运维能力提升对保障算力运营效率的重要性已形成共识,但 目前仍然缺乏成熟有效的运维手段,常规的流量采集方案在智算 场景下效果不佳。 此外,业界还在尝试创新和研究在AI智算网络中部署CLOS 架构外的Dragonfly+、Torus等新型拓扑,以及多轨网络架构来 满足特定大模型应用,并逐渐衍生出混合拓扑架构。此类新型拓 扑易构造出非对称路径网络及拥塞,对流量均衡机制的优化要求 更高,因此仍需进一步研究和验证才能使方案成熟、得到推广。 10 综上,针对 AI 大模型智算网场景,产业各芯片厂商、互联 网公司及运营商和网络厂商,通过大带宽及网络架构优化构建高 性能,基于芯片及网络机制优化构建高可用,且探索构建适用于 智算场景的最优网络运维。高性能、高可用、高效运维同样也是 金融行业构建智算网所必需,同时兼顾金融行业业务连续性、数 据隐私保护等特征需求,AI 大模型智算网还需关注可靠性及安 全性方面的能力。 三、智算网络整体架构及关键技术 金融机构普遍采用多地多中心、多分支网络互联架构。在 AI 大模型训练初期,集群规模较小,单数据中心即可集中部署 训练资源池;后续随着算力规模增长,如万卡集群,可能会涉及 同城多数据中心甚至跨城市数据中心的 AI 集群融合承载。另外, 边缘数据中心可部署靠近用户的推理任务,以实现业务的快速决 策与处理能力,提升客户体验。 金融 AI 智算网络在基础设施之上,以网络运载力支撑 AI 算 力充分释放,不仅涉及数据中心网络,还涉及高吞吐的骨干网络 和敏捷低时延的分支网络,AI 算力网络如图 2 所示。都需要在 性能、可用性、可靠性和安全性多方面保障,以提升算力网络的 智能化水平和算力能效。 11 图 2 AI 智算网络
下载文档到本地,方便使用
共 33 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.