未来网络发展大会:2025东数西算算网协同调度业务场景白皮书
8.35 MB
118 页
0 下载
4 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
未来网络技术发展系列白皮书(2025) 东数西算算网协同调度 业务场景白皮书 第九届未来网络发展大会组委会 2025年8月 版权声明 ● 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保 护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的 文字、数据、图片或者观点时,应注明“来源:紫金山实验室等”。 否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实 验室有权追究侵权者的相关法律责任。 编写说明 I 主要编写单位: ● 紫金山实验室、江苏未来网络集团有限公司、江苏省未来网络创 新研究院 国家信息中心大数据发展部 参与编写单位(拼音序): 安徽提尔液冷科技有限公司、北京北方算力智联科技有限责任公司、 北京积算科技有限公司、北京趋动智能科技有限公司、成都交投信息 科技有限公司、赣州市数字产业集团有限公司、广东华韶数智科技有 限公司、贵州南智云谷数字产业发展有限公司、贵州省算力科技有限 责任公司、贵州师范大学(未来网络贵州省院士创新团队工作站)、 贵州算家计算服务有限公司、合肥城市云数据中心股份有限公司、湖 南城市云智数科技有限公司、昆仑芯(北京)科技有限公司、南京中 科逆熵科技有限公司、宁夏西云算力科技有限公司、宁夏中卫市新型 互联网交换中心有限责任公司、派欧云计算(上海)有限公司、庆阳 云创智慧大数据有限公司、四川省算云科技有限责任公司、苏州国科 综合数据中心有限公司、算力互联(北京)科技有限公司、曙光信息 产业股份有限公司、天津大学、武汉优普拉斯通信有限公司、西安特 发千喜网络信息产业发展有限公司、银川中创普惠互联网科技有限公 司、鹰硕(韶关)信息产业集团有限公司、宇耀未来(南京)科技有 限公司、中航信云数据有限公司 II 主要编写人员: 罗曙晖、张晨、孙婵娟、张玉军、潘凤薇、周俊、芮美芳、陆明明、 高新平、李屹、陈晓波、赵芷晴、梁木 III 前 言 2023 年底《关于深入实施“东数西算”工程加快构建全国一体 化算力网的实施意见》(简称意见)发布后,全国一体化算力网的建 设浩荡展开。《意见》中多次提及“算网协同”,明确指出“加快算网 协同编排调度技术部署应用”、“探索算网协同运营机制”。 实际上,自 2019 年业界相关研究起步,“算力网”、“算力网络”、 “算力互联网”等概念层出不穷,“算网协同”、“算网融合”、“算网 ●一体 ”等路线众说纷纭。为科学推进全国一体化算力网、有效实践算 网协同,务须明确“算力网”和“算网协同”的内涵。 2025 年 4 月,《全国一体化算力网监测调度平台建设指南》(简称 指南)正式公开征求意见,对算力网的内涵进行了阐述,从顶层设计 来看,算力网不是对于多方传统云计算平台进行简单的封装与转售: 使用方式,将从传统的“买算/租算”转为“用算”;渠道特征,将从 传统的“互联网自选下单订购”转为“算力网动态调度消纳”;网络 连接,可基于互联网或专用网络,专用网络相比于互联网可实现更好 的服务质量保障。可以看到,算力网是一种新型的服务模式,是一种 包含了网络、算力、平台的服务能力集合,而算力网络应属于算力网 中的一种专用网络,算力互联网应属于一种基于互联网的算力网形态。 《指南》中的这些顶层设计,在底层逻辑上牵引了“全国一体化 算力网”中“算网协同”的实践方向。当使用方式将从“买算/租算” 转为“用算”、渠道特征从“互联网自选下单订购”转为“算力网动 态调度消纳”,意味着算力资源将从传统的“虚拟机/裸金属”逐步转 IV 为“容器/作业”,并提供“最优匹配、按需启停、精准计量、效用付 费”的任务式计算服务。任务式计算服务的时间特征具有“临时性”、 空间特征具有“跳跃性”、流量特征具有“突变性”,即平时不用时任 务不存在只有用时才临时启动任务,本次启动在 A 地 X 供应方而下 次可能启动在 B 地 Y 供应方,平时不用时流量为 0 而用时流量会随 计算服务负载大幅波动。那么,传输服务如何能够满足并匹配任务式 计算服务的临时性、跳跃性、突变性?这必然要求网络资源的可调度。 ●在互联网不具备调度能力的情况下 ,如何通过专用网络更好地匹配任 务式计算服务的特征与需求?这就是算力网中算网协同的实践方向。 进一步地,如何将这种实践能够构建在跨东西部区域的广域网络之上, 就是面向东数西算的算网协同。 《东数西算算网协同调度-业务场景白皮书》(简称白皮书)的编 制,是基于国家东数西算“安全新总线”项目所开展的算网协同工程 实践。“安全新总线”通过 400Gbps 互联了国家八大枢纽节点、以及 多个国家超算中心,可根据任务时延、带宽需求提供广域确定性网络 传输质量,并通过网络操作系统开放网络资源的调度能力,算网协同 调度平台即原生构建其上。 白皮书以业务场景视角切入,对东数西算算网协同调度的调度架 构、应用场景、生态模式等进行了深入的分析论述。希望能够通过本 白皮书,为业界树立面向东数西算的算网协同调度范式,为国家东数 西算与全国一体化算力网的规模落地提供未来网络实践经验。 V 目 录 目 录....................................................................................................V 一、“东数西算”概述...............................................................................1 1.1 背景.................................................................................................. 1 1.2 目标及意义...................................................................................... 1 1.3 发展历程及现状..............................................................................2 ●1.4 本文内容结构.................................................................................. 2 二、整体架构.............................................................................................3 三、调度架构.............................................................................................4 3.1 总分调度架构.................................................................................. 5 3.2 分总调度架构.................................................................................. 8 3.3 混合调度架构................................................................................ 14 四、应用场景...........................................................................................19 4.1 东数西算场景................................................................................ 19 4.2 数据快递场景................................................................................ 29 4.3 东数西存场景................................................................................ 35 4.4 协同训练场景................................................................................ 44 4.5 协同推理场景................................................................................ 66 4.6 西训东推场景................................................................................ 79 五、生态模式.........................................................................................102 VI 5.1 边云一体模式..............................................................................102 5.2 云算分离模式..............................................................................104 5.3 边缘共享模式..............................................................................106 六、商业价值与前景展望.....................................................................108 1 一、“东数西算”概述 1.1 背景 随着数字经济的迅猛发展,数据量呈爆发式增长,对算力的需求 也日益迫切。然而,我国东部地区经济发达,数据需求旺盛,但面临 ●土地 、能源等资源紧张的问题,算力供给受限;而西部地区资源丰富, 具备发展数据中心的天然优势,但数据需求相对不足。在此背景下, 我国“东数西算”工程应运而生。“东数西算”就是将东部地区产生 的数据传输到西部地区进行计算和存储,促进东西部算力协同联动。 1.2 目标及意义 目标:通过“东数西算”工程,在全国范围内规划建设多个国 家级算力枢纽节点和大数据中心集群,形成布局合理、绿色集约的算 力基础设施体系。实现算力的规模化、集约化发展,提升算力使用效 率,降低算力使用成本,推动算力资源的高效配置。 意义:从经济角度看“东数西算”工程带动了数据中心建设、 网络通信、IT 设备制造、软件等相关产业的发展,促进了产业结构 优化升级,为经济增长注入新动力。在资源利用方面,充分发挥了西 部地区的能源优势,提高了能源利用效率,实现了东西部资源的优势 互补。同时,有助于缩小东西部数字经济发展差距,推动区域协调发 展,提升我国整体数字经济竞争力,为数字中国建设提供坚实支撑。 2 1.3 发展历程及现状 2021 年,国家发展改革委、中央网信办、工业和信息化部、国 家能源局联合印发《全国一体化大数据中心协同创新体系算力枢纽实 施方案》,为“东数西算”工程奠定了政策基础。 2022 年 2 月,国家正式全面启动“东数西算”工程,在京津冀、 ●长三角 、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 地启 动建设国家算力枢纽节点,并规划 10 个国家数据中心集群。截至目 前,各枢纽节点和数据中心集群建设稳步推进,算力规模不断扩大, 网络传输能力逐步提升,初步形成了全国一体化算力网的基本框架。 2023 年底,国家发改委、数据局、网信办、工信部等多部委联 合印发《关于深入实施“东数西算”工程加快构建全国一体化算力网 的实施意见》,明确了全国一体化算力网的指导思想、基本原则和建 设目标。《意见》多次提及“算网协同”,明确指出“加快算网协同编 排调度技术部署应用”、“探索算网协同运营机制”,为算网协同的发 展确立了基础。 1.4 本文内容结构 本文的编制,是基于国家东数西算“安全新总线”项目所开展的 算网协同工程实践。深入分析“东数西算” 工程中的总分调度、分 总调度、混合调度的总体调度架构,东数西算、数据快递、东数西存、 协同推理、协同训练和西训东推等核心应用场景,以及边云一体、云 3 算分离和边缘共享等新型生态模式。同时,通过对典型应用场景的详 细的业务流程分析,力求为产业参与者提供可操作、可复制的交付参 考与决策依据,加速“东数西算”从战略规划向工程落地的转化进程。 二、整体架构 ●系统整体架构 如图 2-1 所示:异地、异构、异属的各类算力资源 通过网关实现物理与逻辑层面的并网,构建起“全域可达、动态可控、 高效可用”的算力资源池,为算网协同调度平台提供标准化的资源服 务支撑。 图 2-1 整体架构图 算网协同调度平台包含两大用户入口及四个调度模块,功能如下: 资源需方入口:资源需求方可通过该入口发布涵盖算力、存 储、网络等多维度的应用需求。平台将基于全域算力资源池, 4 精准调度匹配需求的算力及网络资源,完成用户任务的部署 与执行。 资源供方入口:资源供应方可通过该入口向平台注册算力资 源,同时登记账户信息等相关内容,实现资源发布、调度、 使用、计量、计费及结算的全业务流程闭环。 协同调度模块:通过协同任务调度、流量调度与数据调度, 满足算力消费者对系统在算力、网络、存储等多维度的使用 ● 需求。 任务调度模块:接受协同调度的调控,聚焦算力维度需求, 调度相应算力资源以支撑用户任务的算力供给。 流量调度模块:接受协同调度的调控,聚焦网络维度需求, 调度相关资源以保障用户任务的网络支撑。 数据调度模块:接受协同调度的调控,聚焦存储维度需求, 调度对应资源以满足用户任务的存储需求。 三、调度架构 在东数西算场景中,算力资源的全域统筹与动态调配构成了新型 基础设施的核心能力。面对多样化的业务需求与复杂网络环境,单一 调度模式难以满足所有场景。为此,需进一步探索总分、分总、混合 三种典型调度架构,通过差异化的层级设计与控制策略,构建更加灵 活适配的算力网调度体系。 5 3.1 总分调度架构 全局调度为“总”,区域调度为“分”,总分调度架构指的是在全 局调度与区域调度构成的层级调度结构中,以全局调度为业务入口, 经由全局调度将业务需求拆分,下发到区域调度,再由区域调度完成 业务的部署与运行。 3 ● .1.1 背景描述 在算力资源全网分布的生态体系中,每一算网资源均可自主经营, 构建独立的运维、管理、结算系统。 3.1.2 目标效果 算力使用者在使用算网资源时,能够通过算网协同调度平台为统 一平台,实现对所有算网资源的无差别调度使用。这意味着,无论资 源的属性和管理方式如何,用户只需关注自身的业务需求,无需了解 资源的复杂细节,即可便捷、高效地获取所需算力、网络和存储资源, 享受一体化的优质服务体验。这种无差别调度模式极大地简化了资源 获取流程,提高了用户的使用便利性,降低了用户的使用门槛,有助 于吸引更多潜在用户进入算力市场。 3.1.3 业务流程 步骤一:资源注册登记与纳管 6 算力提供者积极响应市场需求,主动向算网协同调度平台进行资 源注册登记。这一过程如同企业在市场中进行合法合规的商业注册, 通过详细、准确地提交自身算网资源的各项参数和特性,如 CPU 核 心数量、内存容量、GPU 性能、存储类型及容量等关键信息,将自 身资源纳入算网协同调度平台的统一管理范畴。算网协同调度平台则 扮演着“市场监管者”和“资源整合者”的角色,运用多种的技术手 段和管理策略,对这些资源进行集中纳管,构建起一个庞大、有序的 算力资源库,为后续的高效调度奠定坚实基础。 ● 图 3-1 总分调度-资源注册登记与纳管 步骤二:资源状态上报 为了确保算网协同调度平台能够实时掌握资源的动态情况,实现 精准调度,算力提供者需要定期或实时向调度中心上报算网资源状态。 这些状态信息涵盖了资源的关键性能指标,如空闲可用的 CPU 核心 数量、内存数量、GPU 数量以及存储容量等。通过及时、准确的状 7 态上报,调度中心能够如同拥有了一双“透视眼”,清晰地了解资源 的实时情况,从而根据用户的需求进行科学合理的调度安排,避免资 源的闲置浪费或过度使用,提高资源的整体利用效率。 图 3-2 总分调度-资源状态上报 步骤三:算网调度操作与协同调度 当算力使用者产生业务需求时,他们只需通过算网协同调度平台 提供的便捷操作界面(如控制台等),发起算网调度请求。调度中心 在接收到请求后,迅速启动协同调度机制,如同一位经验丰富的指挥 家,协调各方资源,综合考虑用户的算力、网络和存储需求,以及当 前资源池中各类资源的实时状态,制定出最优的调度方案。通过准确 的任务分配、流量调度和数据传输安排,满足用户多样化的应用需求, 确保业务的高效运行。 8 图 3-3 总分调度-算网调度操作与协同调度 3.2 分总调度架构 3.2.1 背景描述 在算力资源池的生态中,具有自治能力的算网资源以其独立的运 维、管理、结算系统为依托,在接入整体算力资源池后,如同一个个 充满活力的“小生态”,在保持自身业务独立性和创新性的同时,积 极寻求与外部资源的协同合作。这些算网资源期望借助自身的业务入 口,突破地域和资源限制,调度使用全局算网资源,实现资源的优化 配置和业务的拓展升级。这种模式不仅丰富了算力市场的竞争格局, 还促进了资源的共享与流通,为整个产业的发展带来了新的机遇和活 力。 9 3.2.2 目标效果 一方面,算力使用者通过算网协同调度平台总入口,能够像在总 分调度场景中一样,实现对系统内所有算网资源的无差别调度使用, 享受统一、便捷的资源服务。另一方面,算力使用者还可以通过自治 系统业务入口,同样实现对其他系统内所有算网资源的无差别调度使 用。这一创新模式为用户提供了更多的选择和灵活性,满足了不同用 ●户在不同场景下的多样化需求 ,进一步提升了用户的使用体验和满意 度。 3.2.3 业务流程 步骤一:资源注册登记与纳管 同总分调度场景类似,算力提供者首先向算网协同调度平台进行 资源注册登记,将自身的算网资源信息全面、准确地提交给调度中心。 调度中心则运用专业的管理技术和高效的处理流程,对这些资源进行 集中纳管,构建起一个完整、有序的算力资源目录,为后续的调度工 作提供坚实的数据支持 10 图 3-4 分总调度-资源注册登记与纳管
| ||
下载文档到本地,方便使用
共 118 页, 还有
4 页可预览,
继续阅读
文档评分

