中国移动:云智算技术白皮书(2025)
716.31 KB
30 页
0 下载
30 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
云智算技术白皮书(2025) 2 前言 云计算经历了资源云化(2006 年)、云原生化(2013 年)、算 力泛在化(2020 年)等阶段,随着人工智能与算力网络深度融合, 已迈入智能化的新阶段,向全栈智能、开放融合的云智算升级。 中国移动通过打造云智算技术体系,升级 AI IaaS、AI PaaS、 MaaS、AI SaaS 四层架构,推动算网大脑向算网智脑跃迁,构建全链 路可控用智安全,筑牢“供给者、汇聚者、运营者”定位。作为“供 给者”,融合中国移动算力、数据、算法优势,提供全方位能力支持; 作为“汇聚者”,打造 AI 生态平台,广泛汇聚多类型模型、多领域 能力、多场景智能体;作为“运营者”,以算网大脑为核心提供高效 运营服务,深化 AI 赋能。在此基础上,全面激活智能算力与应用普 惠新势能。 本白皮书详细阐述了云智算的发展背景、内涵,深入介绍云智算 的关键技术方向,为云智算的发展奠定基础。 云智算的发展成熟需要产学研用各方凝心聚力,实现从基础设施 到运营服务的全面升级,中国移动希望同业界合作伙伴一道,共同推 动云智算技术、产业、应用和生态成熟,助力千行百业注智赋能。 3 目录 云智算技术白皮书 ............................................... 1 前言 ........................................................... 2 1.从云计算到云智算 ............................................. 6 1.1 云计算发展现状及面临挑战 ........................... 6 1.2 云智算的内涵 ....................................... 6 1.3 云智算体系架构 ..................................... 6 2.云智算关键技术方向 ........................................... 7 2.1 计算技术 ............................................7 2.1.1 算力芯片 ......................................7 2.1.2 智算超节点 ....................................7 2.1.3 算力原生 ......................................8 2.2 存储技术 ........................................... 8 2.2.1 智算文件存储 ..................................9 2.2.2 训推多级缓存 ..................................9 2.3 网络技术 .......................................... 10 2.3.1 卡间互联 .....................................10 2.3.2 机间互联 .....................................11 2.4 算网一体技术 ...................................... 12 2.4.1 算力路由 .................................... 12 2.4.2 在网计算 .................................... 12 2.5 AI 开发平台技术 ....................................13 2.5.1 数据处理 .....................................13 2.5.2 训练框架 .....................................14 2.5.2.1 训练并行优化 .......................... 14 2.5.2.2 低精度训练 ............................ 14 2.5.2.3 故障容错 .............................. 15 2.5.2.4 异构混训 .............................. 15 2.5.3 推理框架 .....................................16 2.5.3.1 推理并行效能优化 ...................... 16 4 2.5.3.2 推理网关优化 .......................... 16 2.5.3.3 融合算子监控 .......................... 17 2.5.4 智能体生成 .................................. 17 2.5.4.1 检索增强生成 .......................... 17 2.5.4.2 自主规划 .............................. 18 2.5.5 AI 开发工具 ..................................18 2.5.5.1 向量数据库 ............................ 18 2.5.5.2 多模数据库 ............................ 19 2.5.5.3 低代码模型开发 ........................ 19 2.6 模型服务 .......................................... 19 2.6.1 模型汇聚 .................................... 20 2.6.2 模型智能体融合 .............................. 20 2.7 算网大脑 .......................................... 20 2.7.1 资源编排调度 ................................ 20 2.7.2 任务式编排调度 .............................. 21 2.7.3 智能体编排调度 .............................. 22 2.8 安全可信 .......................................... 22 2.8.1 计算环境可信 ................................ 23 2.8.2 数据安全可用 ................................ 23 2.8.3 智算服务可靠 ................................ 24 2.9 绿色节能 .......................................... 24 2.9.1 能效管理和提升 ...............................24 2.9.2 数据中心热管理 ...............................25 2.9.3 算电协同和余热回收 ...........................25 2.10 未来技术展望 ..................................... 26 3.总结倡议 .................................................... 29 附录 .......................................................... 30 5 缩略语 缩略语 英文全称 中文解释 1 IaaS Infrastructure as a Service 基础设施即服务 2 PaaS Platform as a Service 平台即服务 3 MaaS Model as a Service 模型即服务 4 SaaS Software as a Service 软件即服务 5 AI Artificial Intelligence 人工智能 6 DPU Data Processing Unit 数据处理单元 7 COCA Compute On Chip Architecture 片上计算架构 8 OS Operation System 操作系统 9 RDMA Remote Direct Memory Access 远程直接内存访问 10 RoCE RDMA over Converged Ethernet 基于以太网的 RDMA 11 SIMT Single Instruction Multiple Threads 单指令多线程 12 RTT Round-Trip Time 往返时延 13 CXL Compute Express Link 高速串行协议 14 SDK Software Development Kit 软件开发工具包 15 OISA Omni-directional Intelligent Sensing Express Architecture 全向智感互联 16 GSE Global Scheduling Ethernet 全调度以太网 17 PKTC Packet Container 报文容器 18 DGSQ Dynamic Global Scheduling Queue 动态全局调度队列 19 OCS Optical Circuit Switch 光电交换机 20 AIGC Artificial Intelligence Generated Content 人工智能生成内容 21 MFU Model FLOPs Utilization 模型 FLOPs 利用率 22 RRF Reciprocal Rank Fusion 倒数排序融合 23 RAG Retrieval-Augmented Generation 检索增强生成 24 MCTS Monte Carlo Tree Search 蒙特卡洛树搜索 25 LLM Large Language Model 大语言模型 26 MCP Model Context Protocol 模型上下文协议 27 SLA Service Level Agreement 服务等级协议 28 ANP Agent Network Protocol 智能体互联协议 29 CVE Common Vulnerabilities & Exposures 公共漏洞披露 30 TPM Trusted Platform Module 可信平台模块 31 TCM Trusted Cryptography Module 可信密码模块 32 CDU Coolant Distribution Unit 冷却液分配单元 33 CFC Compatible Fluid Connector 可兼容流体互联装置 34 CATS Computing Aware Traffic Steering 算力路由 35 NACA Network-Assisted Computing Acceleration 在网计算 36 MDN Model Distribution Network 模型分发网络 6 1.从云计算到云智算 1.1 云计算发展现状及面临挑战 云计算经过二十年的发展已成为数字经济的主要服务形态,凭借虚拟化、云 原生等技术实现了资源池化和弹性扩展能力,有效支撑了各行各业数字化转型。 随着千亿参数大模型等 AI 技术的迅猛发展,传统云服务体系面临严峻挑战,云 计算进入深水区:在算力方面,十万卡级超大规模 GPU 集群的异构算力需求已远 超现有资源池化的调度能力;在网络层面,AI 训练中 TB 级参数同步对时延极为 敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一 的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链 路的需求,迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵 云智算是通过算网基础设施与人工智能核心技术深度融合,提供一体化算网 资源、全栈式开发环境、一站式模型服务、多样化场景应用的新型云服务模式。 云智算作为云计算的新升级,是以 AI 为核心驱动力的下一代云计算范式,是未 来算网智一体化算力网络的核心载体。 1.3 云智算体系架构 云计算向云和 AI 深度融合的云智算升级,体系架构从 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS,即算网一 体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练 推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵 活调度、即取即用。二是 AI PaaS,即面向各类 AI 开发者的工具平台服务,提 供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会 AI 创新效率。三是 MaaS,即加速 AI 一站式落地的模型服务,汇聚模型、能力、智 能体等资源,推动 AI 在各行业的普及渗透。四是 AI SaaS,即覆盖多样化场景 的 AI 应用服务,赋能生产方式、生活方式、社会治理方式的数智化转型,充分 释放 AI 价值潜能。为此,中国移动针对云智算体系架构形成了计算、存储、网 络、算网一体、AI 开发平台、模型服务、算网大脑等十大关键技术方向。 7 2.云智算关键技术方向 2.1 计算技术 随着模型参数量与复杂度指数级增长,当前智算集群在算力密度、通信效率、 能效比方面面临严峻挑战。中国移动充分发挥央企科技创新示范引领作用,聚焦 “卡脖子”方向,攻关国产高算力芯片、智算超节点、算力原生等关键技术,突 破万亿模型训练与推理性能瓶颈,打造低成本、高能效、自主可控的算力底座, 引领云智算基础设施从规模扩张走向效能跃升的新阶段。 2.1.1 算力芯片 大模型训练和推理对算力芯片提出了更高的要求,如超高带宽互联、极低时 延等。GPU 是智算核心,中国移动以测促研推动国产化 GPU 成熟,同时布局 DPU 芯片,提升智算网络性能、落地自主算法、融合 COCA DPU OS 实现智算互联效能 跃升。 中国移动推出大云磐石 DPU,以云智算场景需求为牵引,与国产芯片厂商深 度合作,提带宽、降延迟、优传输,构建端网协同的高性能互联方案。带宽方面, 研发智算 RDMA 技术,大幅提升网络带宽,满足训练场景大带宽要求;延迟方面, 搭载轻量化 RTT based 拥塞流控算法,有效降低网络时延,满足推理场景下低时 延要求;传输方面,通过端侧多路径、数据高速采集技术,优化 RDMA 传输机制, 从源头上解决多路径 hash 冲突问题,提升智算集群带宽利用率与可靠性。 面向近期,升级 DPU 芯片智算网络带宽,优化 RDMA 传输机制、搭载流控算 法,大幅降低尾时延。联合国产网侧厂商,形成端网协同的端到端解决方案,加 快集群训练收敛速度、降低推理场景响应时延。 面向中远期,持续优化 DPU 芯片智算网络核心能力,提升智算集群利用率。 联合国内芯片厂商,基于 SIMT 架构与 RISC-V 指令集,打造 AI 智算开放新生态。 2.1.2 智算超节点 2024 年英伟达发布的 NVL72 超节点支持单机内 72 个 GPU 高速互联,重构全 球智能算力竞争格局,进一步拉大中美算力技术代差。为此,中国移动基于原创 COCA 异构计算架构 [1][2],联合 GPU 芯片、交换芯片、服务器整机等国产全产业链 伙伴,打造开放式架构大云磐石超节点,为大模型训练和推理提供更高吞吐、更 8 低时延的海量数据处理能力,推动解决国产智算核心“卡脖子”问题。 中国移动以统一开放互联的自主协议为基础,构建 64 卡互联规模、800GB/s 点对点带宽、微秒级时延的大云磐石超节点。一是以开放式硬件架构为核心构建 跨 GPU 厂商互通兼容的技术体系,并积极推进相关行业标准落地,打破产业壁垒; 二是融合 COCA 智算软件栈实现算力应用一体加速,提升推理吞吐性能,依托大 云磐石 DPU [3][4][5]提升集群通信效率;三是设计 16/32/64 卡等多种产品规格实现 算力灵活配置,配备单机、标准机柜、高密机柜等多种部署方案,可同时满足大 规模并行训练、私有化训推一体等不同场景的算力规格灵活选择和交付需求。 面向近期,聚焦超节点生态构建和应用示范牵头打造,并推进行业形成跨 GPU 厂商兼容的互联标准,促进生态成熟。 面向中远期,以更高规模、更大带宽、更低时延的互联为构建目标,驱动国 产 GPU、交换芯片等核心器件的协同创新,加速产业体系升级。 2.1.3 算力原生 当前国内智算芯片生态碎片化,上层模型和应用向国产体系迁移难、意愿低, 不利于国产智算生态的良性发展。为此,中国移动携手产学研用合作伙伴,筑标 准、推应用、建生态,积极推动算力原生技术成熟。发布业内首部《面向智算的 算力原生白皮书》 [6],推动统一算力抽象、编程模型及虚拟指令集等系列标准 [7][8][9] 及开源工作组建设 [10],推出 COCA 算力原生平台,发布“芯合”计划 [11],已实现 7 家智算芯片的一体接入。重点攻关异构设备统一接入 API 和异构集合通信库等 关键模块,实现智算应用跨架构一次开发、跨芯一键部署、随需敏捷迁移,服务 “分钟级”上线。 面向近期,深化研究 AI 芯片统一算力抽象机制及转换方法,强健高性能全 栈异构通用基础软件系统能力,接入更多 AI 芯片,支撑更多编程语言范式,全 面融入高性能推理业务场景,支撑跨厂商低成本迁移、敏捷开发及高效部署。 面向中远期,以“异构 CPU+智算 AI 芯片”一体融通、支撑训推一体的泛 AI 业务为目标,探索虚拟指令集等深度算力抽象技术,形成即插即用的统一 XPU 算力底座与工具链,释放多样算力整体协同效能,推动智算应用生态繁荣发展。 2.2 存储技术 随着智算业务的爆发与模型参数量的增长,智算应用在训练、推理等阶段对 9 存储服务提出了更为严苛的需求,如何对海量复杂的数据进行存储、调度、高效 供给以提升算力利用率及模型训推效率成为传统存储系统面临的巨大挑战。中国 移动通过深度适配智算业务场景、融合高速发展的软硬件技术,为云智算构建高 效、智能、可靠的先进存力底座,进而提升智算应用全生命周期数据供给效率, 不断优化算力利用率、提升智算业务效能。 2.2.1 智算文件存储 基于通算理念构建的存储系统在长期演进中形成的标准化协议和产品形态 无法满足智算应用发展对数据访存性能、数据流转效率等新需求,已成为制约智 算产业发展的生产力瓶颈。同时,新型存储介质、高速网络硬件的快速发展也为
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
28 页请下载阅读 -
文档评分

