pdf文档 未来网络发展大会:算力城域网白皮书(2025版) VIP文档

7.16 MB 42 页 0 下载 8 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
未来网络技术发展系列白皮书(2025) 算力城域网白皮书 (2025版) 第九届未来网络发展大会组委会 2025年8月 版权声明 本白皮书版权属于中国电信股份有限公司研究院及其合作单位 所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引 用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国 电信股份有限公司研究院等”。否则将违反中国有关知识产权的相关 法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相 关法律责任。 编写说明 主要编写单位: 中国电信股份有限公司研究院 华为技术有限公司 全球固定网络创新联盟 中关村超互联新基建产业创新联盟 主要编写人员: 中国电信股份有限公司研究院:朱永庆、胡泽华、龚霞、袁世章、 阮科、陈迅、杨冰、赖道宁、胡家元、张帆、皮谭昕。 华为技术有限公司:任广涛、曾毅、李智、赵浩宾、陈卓、于凤 青、张潇潇。 中关村超互联新基建产业创新联盟:袁博。 算力城域网白皮书(2025 版) I 前 言 2025 年初 DeepSeek 的爆火掀起了生成式人工智能的浪潮,带动 大模型训练成本和推理成本的快速下降,驱动算力需求爆炸式增长。 城域网络作为用户与算力资源间的关键桥梁,各类新兴算力业务对城 域网的网络架构、网络能力及服务模式等方面提出了新的要求。中国 电信在 2024 年发布了《算力城域网白皮书》,首次提出算力城域网 概念,获得业界的广泛关注,引领了城域网络发展新方向。伴随着产 业生态与技术的发展,以及算力城域网研究与部署的深入,中国电信 推出《算力城域网白皮书(2025)》,进一步明确城域网络在面向算 力业务新场景、新需求下需具备的网络架构和关键技术能力。 本白皮书首先从算力产业发展、宏观政策以及服务模式等角度分 析了算力发展态势,引出了算力城域网的概念;然后,针对算力业务 需求展开分析,明确了算力城域网应具备的网络能力;其次,分析了 算力城域网设计目标,阐述了算力城域网的总体架构、关键技术和设 备能力;最后,给出了算力城域网面向具体业务场景的技术方案,以 及演进路径建议。 本白皮书旨在通过对算力城域网的网络架构、关键技术、应用场 景及发展策略的探讨,吸引更多行业内的专家和相关从业者共同参与 算力城域网的创新发展与产品实现,推动网络向更加高效、智能、灵 活、绿色、安全等方向演进。 算力城域网白皮书(2025 版) II 目 录 前 言......................................................................................................I 目 录.................................................................................................... II 一、引言.....................................................................................................1 二、算力发展态势.....................................................................................2 2.1 算力产业发展和政策趋势......................................................... 2 2.2 城市算力通过算力城域网就近服务本地用户.........................4 三、算力城域网需求.................................................................................6 3.1 需求总述......................................................................................6 3.2 网络能力需求..............................................................................7 四、算力城域网总体架构.......................................................................13 4.1 算力城域网架构设计目标....................................................... 13 4.2 算力城域网总体架构................................................................15 4.3 算力 POD...................................................................................16 4.4 云网 POP................................................................................... 16 4.5 出口功能区................................................................................17 五、算力城域网关键技术.......................................................................18 六、算力城域网设备能力要求.............................................................. 22 七、算力城域网典型应用.......................................................................26 7.1 海量数据高效入算场景........................................................... 26 7.2 存算分离拉远训练场景........................................................... 27 算力城域网白皮书(2025 版) III 7.3 跨集群协同训练场景................................................................29 7.4 云边协同训推场景....................................................................30 7.5 推理下发场景............................................................................31 八、总结与展望.......................................................................................33 附录 A:术语与缩略语...........................................................................34 参考文献...................................................................................................36 算力城域网白皮书(2025 版) 1 一、引言 数字经济已经成为全球经济发展的强大引擎,世界各国都在积极 推进数字化经济新质生产力的建设。算力作为数字经济时代的核心生 产力,正在加速数字经济和实体经济的深度融合。以 AIGC 为代表的 人工智能大模型快速崛起,推动了算力需求的快速增长。 AI/HPC 等高阶算力对于提升国家、区域经济核心竞争力的重要 作用已经成为业界共识。2025 年 3 月,《政府工作报告》提出将持 续推进“人工智能+”行动,打造具有国际竞争力的数字产业集群。 这意味国家将加强顶层设计,加快形成以人工智能为引擎的新质生产 力。随着这一行动的深入推进,人工智能将在推动产业升级、促进新 质生产力快速发展等方面发挥重要作用。 随着人工智能技术的快速发展,大模型训练对算力的需求呈指数 级增长,促进了运营商、政府、行业和企业进行算力中心的建设。各 类算力资源如何实现高效整合,服务于千行百业,进而实现算力的商 业闭环是业界普遍关心的话题。本白皮书针对算力发展新态势和算力 业务新需求,在 2024 年《算力城域网白皮书》基础上,对算力城域 网的网络需求、网络架构、应用场景和关键技术等方面进行了更新和 完善,旨在应对算力快速发展带来的各种挑战,实现城域范围内异构 算力的资源整合和高效供给。 算力城域网白皮书(2025 版) 2 二、算力发展态势 2.1 算力产业发展和政策趋势 随着通算、智算、超算技术的快速发展和广泛应用,算力需求呈 现爆炸式增长。2025 年以来,以大语言模型 DeepSeek 系列为代表的 人工智能,通过算法创新与工程优化解锁了更高的算力利用率,实现 训练成本与推理成本的显著降低,加速人工智能的落地部署与普惠化 发展,进一步催生了大量算力需求。根据《IDC 中国加速计算服务器 半年度市场跟踪报告》分析,2025 年中国智能算力规模将达到 1037EFLOPS,预计到 2028 年将达到 2782EFLOPS,五年年复合增长 率达到 46.2%。依托超大规模市场优势,我国算力水平和供给能力大 幅提升,形成了体系完整、规模庞大的产业体系。 我国高度重视算力产业与技术的发展,中央及各级地方政府出台 了一系列政策文件以引导其健康发展。例如,《数字中国建设整体布 局规划》指出要系统优化算力基础设施布局,促进东西部算力高效互 补和协同联动,并通过推动建设普惠算力、推动算力一体化服务等方 式,降低中小企业用算成本。《数字中国建设 2025 年行动方案》提 出开展“人工智能+”行动,深度挖掘应用场景,建设高质量数据集, 目标到 2025 年数字经济核心产业增加值占 GDP 比重超 10%。《算力 互联互通行动计划》指出集中力量开展高性能传输协议等网络传输技 算力城域网白皮书(2025 版) 3 术研究,推动数据通信产业高质量发展,加快高性能路由器、高速无 损网络技术研究,支撑数据高效入算、算力无损互联。攻克算力标识 关键技术,研制新型算力标识网关,提高多样化算力感知能力。 大模型是指具备大规模参数和复杂计算结构的机器学习模型,能 够处理海量数据、完成各种复杂的任务,包含语言大模型、视觉大模 型等多种类型。大模型的快速迭代极大地增加了智算算力需求。根据 应用领域的不同,可分为通用大模型、行业大模型和垂直大模型等。 通用大模型不受特定领域的限制,具备跨领域的泛化能力,需要更大 的数据量和计算资源,训练成本普遍较高。行业大模型和垂直大模型 专注于特定行业或应用场景,表现出更高的专业精度和深度,算力要 求和训练成本也相对较低。大模型部署可分为训练和推理两种场景: 训练场景是指使用大规模数据集对庞大、复杂的大模型参数进行训练 的过程;推理场景是指在特定条件,利用大模型进行逻辑推理、知识 推断提供高效准确结论的过程。 对于大部分企业和研究机构来说,自行购买和维护高性能计算设 备训练大模型需要投入大量的人力和物力。在这个背景下,算力租赁 服务应运而生。算力租赁通过即插即用的弹性解决方案,降低了算力 获取难度和使用成本。企业的信息化和智能化转型可以通过算力租赁 更快捷地获取所需的算力资源,从而加速技术研发和创新。当前,算 力租赁服务已成为主流解决方案,不仅降低了算力使用的门槛,推动 了算力技术的普惠化发展,更改变了算力资源的配置方式,为算力服 务的广泛应用和持续创新提供了强有力的基础设施支撑。 算力城域网白皮书(2025 版) 4 2.2 城市算力通过算力城域网就近服务本地用户 面对算力产业快速发展趋势,中国电信推出了面向智算的新一代 数据中心(AIDC,Artificial Intelligence Data Center)基础设施技术方 案,在高算力规模、高功率密度、高弹性需求背景下,同时兼容通算、 超算、智算,甚至未来的量子算力。在 AIDC 基础上,中国电信积极 布局算力基础设施建设,面向政府、企业、科研机构等提供就近的高 效算力服务。除了围绕热点区域建设“2+3+7”1的公共智算云池,还 重点在各省打造(N 个)城市智算基础设施服务当地用户,满足数字 政务、城市大脑等城市数字化转型场景;通过(M 个)行业智算集群 服务教育、电力、金融、互联网等重点行业;并基于地市边缘节点(X) 按需将推理算力向边缘覆盖。 中国电信云化 IP 城域网(简称为新型城域网)具备原生算力业务 高效承载的能力,基于云网 POP 灵活架构以及城域 Spine-Leaf 的 Full-Mesh 组网优势,实现了云边/边边高效协同和算网快速对接。面 向算力业务的长期演进,中国电信通过引入算力灵活调度、算力无损 传输、精准流级调度、网络智能运维等能力,打造以算力为中心、算 网一体的城域网新业态——算力城域网2。当前,中国电信在上海、 浙江、广东等地围绕海量数据弹性高效入算、存算分离百公里拉远训 练、百公里分布式推理等新型智算业务开展算力城域网现网验证,实 1 “2”是指中国电信在内蒙古、贵州设置的两大公共训练智算中心;“3”是指中国电信在北京、上海、 广州设置的三大热点区域智算中心;“7 是”指中国电信在安徽、宁夏、湖北、江苏、辽宁、重庆、浙江 设置的七大区域训练智算中心。 2 算力城域网:Computing service Oriented Metropolitan Area Network(COMAN)。 算力城域网白皮书(2025 版) 5 验结果表明算效、TTFT、TPOT 等指标劣化小于 3%,充分证明算力 城域网方案的技术可行性。 算力城域网具备算力高效整合、算力无损输送、算力服务即取即 用等关键能力,通过构建 AIDC 与用户之间的安全高速通道,支撑城 市算力和行业算力就近服务本地算力用户。算力城域网通过高弹性、 高吞吐、高可靠的一跳入多算等网络新型服务能力,为政府、企业、 科研机构各类客户提供高效便捷的算力服务,加速数字化转型进程, 支撑数字经济的高速发展。 算力城域网白皮书(2025 版) 6 三、算力城域网需求 3.1 需求总述 典型算力业务流程包含数据入算、模型训练、模型推理几个关键 阶段。数据入算阶段要求网络能够满足 TB/PB 级海量数据的高效传 送。考虑到数据敏感用户的数据“不落盘”要求,还需要网络具备高 稳定和数据无损传输能力,实现用户私域存储与 AIDC 之间的高效拉 远训练。模型训练阶段当前面临单 AIDC 算力资源受限、零散算力资 源未利用等问题,亟需通过分布式协同训练实现算力资源高效整合, 要求网络提供无损、高吞吐的高性能算间互联。模型推理阶段包含推 理结果生成和推理结果下发两个关键步骤:推理结果生成需要大量算 力资源以保证海量用户并发推理体验,网络需具备无损传输、高可靠 能力,满足分布式推理需求;推理结果下发需要保障用户的泛在接入 与实时交互,要求网络具备广覆盖及确定性服务能力。 算力城域网作为连接用户与算力资源的关键桥梁,为算力租赁服 务提供了关键的网络支撑,确保租用算力资源的企业可以获得接近本 地部署的算力使用体验,需要高效满足海量数据入算、存算分离拉远 训练、跨集群协同训练、云边协同训推、推理下发等算力业务需求。 算力城域网白皮书(2025 版) 7 图 3-1 算力城域网业务需求总览 3.2 网络能力需求 3.2.1.海量数据高效入算需求 随着 AI/HPC 的迅猛发展,数据规模正在以前所未有的速度增长, 企业单次向算力中心传送的数据集可达到数百 TB 的量级。根据 IDC 发布的《Worldwide IDC Global DataSphere Forecast Update,2025– 2029:Regional Analysis》报告,IDC 预计,2025 年全球将产生 213.56ZB 数据,到 2029 年将增长一倍以上达到 527.47ZB;其中,中国市场 2025 年将产生 51.78ZB 数据,到 2029 年增长至 136.12ZB,CAGR 达到 26.9%。众多企业当前仍依靠邮寄硬盘的方式进行大规模数据的搬运, 诸如科研、交通、影视、医疗等领域,每年都有 PB 级数据通过硬盘 算力城域网白皮书(2025 版) 8 搬运/邮寄方式传送到算力中心进行模型训练。这种“人工拷贝+硬盘 快递”的模式不仅效率低,还面临着硬盘损坏与数据丢失的风险。当 前基于网络传送的方案仍存在不足,百兆专线耗时长,而万兆专线 /OTN 专线成本高,亟需对网络进行升级,提供更为高效且具性价比 的数据入算服务。 为了实现海量数据的高效流转,网络需要具备网络级负载均衡能 力,全面提升整网的有效吞吐量,打造高运力网络,为数据高效传送 提供坚实基础。同时,网络需要具备高度的弹性与敏捷性,基于任务 式服务为企业按需提供弹性带宽,满足短时间内大批量数据传输的需 求。 总之,海量样本的快速入算服务对算力城域网的需求是:实现 TB/PB 级数据的弹性带宽服务,时间可承诺(分钟达、小时达、天级 达);业务分钟级开通,任务式服务。 3.2.2.存算分离拉远训练需求 数据安全要求广泛存在于多个领域的智算场景中。如汽车制造业 涉及的碰撞实验和事故数据,政务领域涉及的官方文件、公民身份信 息及法人资料,医疗领域涉及的电子病历、流行病监测数据以及基因 序列分析等敏感信息,这些数据均具有较高的安全标准。在算力租赁 场景中,这些企事业单位对样本数据有严格的安全标准,明确要求核 心数据存储在其所在园区或单位内。这些企事业单位在坚持数据本地 化存储原则的同时,还需要确保数据在模型训练过程中不被泄露。因 算力城域网白皮书(2025 版) 9 此,算力资源节点与样本数据存储节点需要跨广域部署,并且在模型 训练时需要保持频繁的实时交互,以分批拉取所需的样本数据。 在此场景下,由于样本数据传输采用对时延、丢包高度敏感的 RDMA 协议,网络除了要具备高弹性、高吞吐能力外,还需要具备 RDMA 无损传输能力,以确保模型训练的高效性和稳定性。此外, 网络还需要部署强健的数据加密机制,保障样本数据传输的安全性。 综上,存算分离拉远训练服务对算力城域网的需求是:实现用户 私域存储到 AIDC 之间 100km-500km 的高效拉远训练,
下载文档到本地,方便使用
共 42 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.