未来网络发展大会:2025分布式算力感知与调度技术白皮书
2.15 MB
73 页
0 下载
5 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
未来网络技术发展系列白皮书(2025) 分布式算力感知与调度技术 白皮书 第九届未来网络发展大会组委会 2025年8月 版权声明 本白皮书版权属于中国铁塔股份有限公司和江苏省未来网络创 新研究院所有并受法律保护,任何个人或是组织在转载、摘编或以其 他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来 源:中国铁塔股份有限公司、北京邮电大学和江苏省未来网络创新研 究院”。否则将违反中国有关知识产权的相关法律和法规,对此中国 铁塔股份有限公司、北京邮电大学和江苏省未来网络创新研究院有权 追究侵权者的相关法律责任。 编委会 专家指导组成员 刘韵洁 中国工程院院士、江苏省未来网络创新研究院荣誉院长、首席科学家 郭宇辉 中国铁塔通信技术研究院院长、中国通信企业协会低空经济专委会秘书长 黄 韬 北京邮电大学教授 麻文军 中国铁塔行业拓展部总经理、铁塔智联技术有限公司执行董事兼总经理 窦 笠 中国铁塔科技创新部总经理 吴晓梅 中国铁塔通信技术研究院副院长 何 杰 中国铁塔行业拓展部副总经理、铁塔智联技术有限公司副总经理 编制组成员 中国铁塔股份有限公司 闫亚旗、董玉池、潘三明、聂昌、贾平胜、徐佳祥、安颖、王东、汪涛 北京邮电大学 谢人超、唐琴琴、杨煜天、马霄鹏、汪硕 江苏省未来网络创新研究院 魏亮、方辉、孙玉刚、尹鹏、林枭、韩风、占昊天、王磊 I 前 言 随着算力网络的飞速发展,算力资源呈现出泛在化、异构化、分 布化的显著趋势。如何高效感知、协同调度这些广泛分布且动态变化 的算力资源,以支撑日益复杂的智能应用需求,已成为推动产业数字 化转型和智能化升级的关键挑战与核心技术方向。 本白皮书首先详细阐述了分布式算力感知与调度的背景、需求、 体系架构以及关键技术,同时介绍了该技术在远程医疗、智慧城市、 大模型分布式训推以及云游戏等领域的典型应用场景,并探讨了当前 技术落地、基础设施建设与改造以及标准化建设面临的挑战和发展建 议。 目前,工业界和学术界对分布式算力感知与调度技术的研究尚处 于起步阶段,并仍处于快速发展之中,新的架构、算法和应用模式不 断涌现,本白皮书作为阶段性研究成果,还存在需要不断完善的地方, 真诚地企盼读者批评指正。 II 目 录 前 言......................................................................................................I 目 录.................................................................................................... II 一、分布式算力感知与调度背景............................................................ 1 1.1 分布式算力感知与调度概念和特征........................................1 1.2 分布式算力感知与调度研究意义............................................5 1.3 需求分析.....................................................................................7 1.3.1 国家战略需求分析........................................................ 8 1.3.2 产业发展需求分析........................................................ 9 1.3.3 技术演进需求分析...................................................... 11 1.3.4 用户需求分析.............................................................. 14 1.3.5 功能需求分析.............................................................. 16 1.4 分布式算力感知与调度发展目标..........................................19 二、分布式算力感知与调度架构.......................................................... 23 三、分布式算力感知与调度关键技术.................................................. 27 3.1 分布式算力资源度量模型...................................................... 27 3.2 分级分域算力资源感知技术.................................................. 30 3.3 分级分域算力调度技术.......................................................... 31 3.4 分布式算力路由技术.............................................................. 34 3.5 分布式算力自智技术.............................................................. 37 3.6 分布式算力安全保障技术...................................................... 39 III 四、分布式算力感知与调度应用场景.................................................. 42 4.1 远程医疗...................................................................................43 4.2 智慧城市...................................................................................45 4.3 大模型分布式训推.................................................................. 47 4.4 云游戏.......................................................................................49 4.5 低空经济网络...........................................................................51 4.6 战术网络...................................................................................52 4.7 智能制造...................................................................................54 4.8 自动驾驶...................................................................................56 五、分布式算力感知与调度行业发展建议..........................................59 5.1 发展面临的挑战...................................................................... 59 5.2 发展阶段划分...........................................................................60 5.2.1 起步阶段....................................................................... 61 5.2.2 整合阶段....................................................................... 61 5.2.3 智能化阶段................................................................... 62 5.2.4 生态化阶段................................................................... 62 5.3 发展对策建议...........................................................................63 六、总结与展望.......................................................................................65 附录 A:术语与缩略语............................................................................66 参考文献...................................................................................................67 1 一、分布式算力感知与调度背景 本白皮书创新提出分布式算力感知与调度模型与架构。分布式算 力是一种新型的计算模式,在实时感知多类型、多数量计算设备资源 状况的基础上,借助统一的度量范式对资源量进行对比与评估,再结 合任务的计算强度、时延要求和数据依赖等特征,以及网络带宽和能 量预算等约束,运用自适应的智能调度算法将大规模的计算任务分散 到不同的计算节点上,从而实现高效的数据处理和分析。本白皮书阐 述了分布式算力感知与调度的背景、体系结构、关键技术、应用场景、 发展建议,旨在为有兴趣了解分布式算力感知与调度相关概念和技术 的研究人员提供介绍与指导。具体而言,本章从分布式算力感知与调 度概念和特征入手,进一步分析分布式算力感知与调度的研究意义和 各种需求,并提出分布式算力感知与调度的发展目标。 1.1 分布式算力感知与调度概念和特征 随着全球数字化浪潮的到来,5G、AI、大数据等新技术不断涌现, 算力已成为驱动社会进步的核心生产力。随着人工智能、物联网、元 宇宙等技术的爆炸式发展,传统的集中式算力计算模式面对如此庞大 且多样化需求,已经难以有效应对。分布式算力感知与调度技术应运 而生,成为应对海量、泛在、实时计算需求的关键基础设施。这一理 念旨在构建一个能够动态感知全网算力资源,并根据任务需求进行智 2 能化、自动化、最优化调度的新型信息基础设施,降低计算延迟与成 本,支撑新型智能化应用的落地。 分布式算力是相对于传统集中式算力(如单一超级数据中心)而 言的算力部署与利用模式,其核心是将一个大的计算任务分解成若干 个小任务,然后把这些小任务分配给地理、网络层级或逻辑上相互独 立的多个节点。这些计算节点可涵盖数据中心、边缘设备(如基站、 物联网网关)、终端设备甚至个人闲置设备等,通过网络连接形成协 同体系,实现算力资源的分布式协同与高效利用。分布式算力并非单 一形态,边缘算力是前者重要组成部分,是分布式思想的一种具体体 现。边缘算力强调“地理近端性”,即计算能力的部署靠近数据源, 以满足低延迟和高实时性的需求;而分布式算力更关注“全局最优性”, 侧重任务的分解与协同,以处理大规模和复杂的计算任务可能调度至 边缘、核心云或两者协同,例如“云-边-端”分层推理。 分布式算力感知与调度的核心在于“感知”与“调度”两个相互 依存、紧密结合的环节。“感知”是基础和前提,它指的是系统具备 全面、实时、精准地获取分布式网络中各个计算节点资源状态的能力。 具体而言,感知过程涵盖多维度:首先,系统需自动发现并注册新计 算节点,识别其 CPU、GPU、FPGA 等类型,以及内存、存储容量等基 础属性。其次,通过轻量探针或节点遥测数据,实时监控 CPU/GPU 利 用率、存储占用率、网络带宽与延迟、负载水平、功耗及环境温度等 核心指标。更关键的是,感知需深入能力评估,如量化计算单元的理 论峰值性能(如 FLOPS)及对特定负载的实际加速效能。网络感知需 3 精确测量任务提交点、计算节点间的拓扑关系、带宽、延迟、丢包率 及抖动,以保障低延迟应用。此外,还需感知资源使用的经济成本、 能源成本及数据主权、SLA 等策略性约束。这些信息经清洗、融合与 抽象后,将形成支撑智能决策的多维度量化算力资源模型。 “调度”则是基于“感知”结果所采取的行动,是整个系统的“大 脑”和中枢。它根据感知到的全网算力资源分布图景和实时状态,在 复杂约束条件下,通过智能高效的算法,将计算任务合理地分配到最 合适的节点上执行,从而实现全局最优的资源利用率、最低的运营成 本和最佳的用户体验。调度决策是一个高度复杂的优化问题,其目标 函数通常是多维度的,需要在性能目标、经济目标和系统目标之间寻 求最佳平衡点。分布式调度策略多种多样,从传统的基于静态规则的 调度,如轮询、随机分配等,到更为复杂的动态调度策略,如基于负 载均衡的调度、基于服务质量(QoS,Quality of Service)的调度、 基于经济效益的调度等。现代的算力调度系统越来越倾向于采用人工 智能和机器学习技术,通过对历史数据的学习和对未来负载的预测, 实现预测性、主动性的智能调度,甚至能够做到“算力路由”,即像 网络路由一样,为计算任务规划出一条从数据源到最优计算节点、再 到结果返回的最佳路径。 分布式算力感知与调度具有如下几个显著的特征: 异构性:算力节点的硬件类型、操作系统、网络协议存在显 著差异,系统必须能够充分识别并利用这种异构性,将不同 类型的计算任务精准匹配到最适合的硬件上执行,从而实现 4 整体计算效能的最大化。感知系统需通过统一的“算力单位” 实现异构资源的归一化描述;调度系统则需针对不同类型任 务设计适应性的分配策略。 动态性:分布式环境本质上充满不确定性。资源可能随时加 入、离开、发生故障或性能波动;网络状况瞬息万变;任务 需求和依赖关系也可能动态调整。因此,算力感知必须是实 时的,调度决策也必须是动态调整的。系统需要具备快速响 应变化的能力,在某个节点出现故障时,能够迅速将其上的 任务迁移至其他健康节点,保证业务的连续性;在检测到网 络拥塞时,能够智能地选择其他通信路径,避免性能瓶颈。 这种动态适应能力是保障系统稳定性和可靠性的关键。 跨域协同与互操作性:理想的分布式算力池往往跨越不同管 理域(多个公有云、私有云、边缘站点、终端设备)。实现 高效的感知与调度,必须解决跨域资源发现、认证授权、状 态信息交换、任务协同执行等挑战。这依赖于开放的 API 标 准、通用的资源描述语言、安全的跨域通信机制以及可能的 跨域调度协调器或联邦学习机制。 能耗与可持续性感知:随着“双碳”目标的推进,算力调度 的绿色属性愈发重要。感知需纳入能耗与碳足迹的实时监测; 调度决策则需将能耗和碳排放作为重要优化目标或约束条件, 例如优先将任务调度到使用可再生能源的数据中心或能效比 更高的节点,或利用电价谷值进行计算,实现“绿色调度”。 5 分布式算力感知与调度是现代计算范式的核心支柱。它通过构建 全域资源认知神经网和智能调度决策中枢,实现了对泛在、异构、动 态算力资源的有效整合与按需供给。其核心在于全局化资源视图、多 目标动态优化、高度环境适应、跨域无缝协同、智能学习进化以及对 可持续性的深度关切。随着算力网络(CPN,Computing Power Network) 概念的兴起和“东数西算”等国家级工程的推进,分布式算力感知与 调度技术将持续演进,其智能化、自动化、绿色化水平将不断提升, 为构建高效、敏捷、普惠、可持续的下一代数字基础设施提供核心动 能,赋能千行百业的数字化转型与智能化升级。 1.2 分布式算力感知与调度研究意义 在数字化浪潮席卷全球的今天,算力已不再是单纯的技术指标, 而是驱动社会经济形态深刻变革、与热力、电力并驾齐驱的关键生产 力,是支撑数字经济高质量发展的战略基石。中国信通院指出,随着 新一代通信规模建设和边缘计算应用的持续部署,越来越多的应用运 行和数据生产处理在边端侧开展,这对于传统算力基础设施的部署、 调度提出了新要求,分布式算力通过不同范围部署不同规模算力,为 政企数智化转型各场景随需获取算力提供新思路。在此背景下,分布 式算力感知与调度技术作为构建下一代算力基础设施的核心神经系 统,其研究意义已远超单纯的技术优化范畴,上升至关乎国家数字竞 争力、产业革命性变革以及社会可持续发展的战略高度。 开展分布式算力感知与调度的研究,是服务于国家发展战略、保 6 障数字主权的迫切需要。当前,算力已成为大国博弈的新焦点,构建 自主可控、高效协同的算力体系是提升国家核心竞争力的关键。国家 发改委等部门推动的“东数西算”工程,核心目标并非简单的“数据 西迁”,而是构建全国一体化的算力网络体系。推动该技术发展,能 将地理上广域分布、架构上高度异构、权责上分属多域的海量算力资 源,通过智能化感知与调度,整合成逻辑统一、弹性敏捷、安全可控 的国家级“算力资源池”。这不仅从根本上解决我国东西部算力供需 不平衡的结构性矛盾,更能通过统一调度形成规模效应,为国家重大 科研项目、经济社会发展提供澎湃且经济的算力支撑,从而在全球数 字竞争中掌握战略主动权。 同时,这也是激活数据要素价值、推动产业智能化转型、催生新 质生产力的核心技术引擎。算力作为数字经济的“发动机”,其渗透 力决定产业升级的深度和广度。在前沿科学探索领域,如基因测序、 新药研发、宇宙模拟等,分布式调度能汇聚全球顶级计算资源,为复 杂科学问题求解提供前所未有的算力规模与效率。对于人工智能产业, 尤其是大模型的训练与推理,异构算力调度可将计算任务精细化拆解, 精准匹配到最高效的处理单元,最大化计算效率,加速 AI 在各行业 的研发与应用。在工业互联网、智慧城市、自动驾驶等实体经济领域, 实时感知能力与低延迟调度决策是支撑高级应用落地的关键。而开放 共享的算力服务平台,能降低中小企业获取先进算力的门槛,激发全 社会创新活力,为新产业、新业态、新
| ||
下载文档到本地,方便使用
共 73 页, 还有
4 页可预览,
继续阅读
文档评分

