pdf文档 2025年智算服务案例集-全球计算联盟 VIP文档

2.59 MB 28 页 29 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
智算服务案例集 全球计算联盟 智能计算产业发展委员会 1 编写单位(排名不分先后) 中讯邮电咨询设计院有限公司、华为技术有限公司、科大讯飞股份有限公司、 中国信息通信研究院、中国电信集团有限公司、中国移动通信集团广东有限公司、 上海天数智芯半导体股份有限公司、河南昆仑技术有限公司、四川华鲲振宇智能 科技有限责任公司、中国质量认证中心有限公司 编写组成员(排名不分先后) 马季春 王曼 施晶峰 王月 张建峥 赵以爽 杨军刚 杨伊鸣 郭光鑫 吴茜 梁宇 栋 马凤鸣 党朝志 赵金辉 陈常水 颜万瑞 吴涛 顾剑波 谈儒猛 夏冬 胡铭珊 孙东旺、熊家振、许轶 版权声明 本研究报告版权属于全球计算联盟。 使用说明:未经全球计算联盟事先的书面授权,不得以任何方式复制、抄袭、影 印、翻译本文档的任何部分。凡转载或引用本文的观点、数据,请注明“来源: 全球计算联盟”。 1 序 智算服务推动智算产业纵深发展 数据爆发式增长、算力不断跃迁、AI 算法和大模型持续演进带领我们进 入一个万物重构和万物智联的新时代。算力和 AI 是引领这一时代发展的最核心 的双引擎,是支撑数字建设和数字经济运行的关键要素。 智算建设如火如荼,但唯有建好、管好、用好算力,提供极致的智算服 务,构建稳健高效的算力平台,才能将算力转化为驱动创新的价值源泉,持续 释放算力价值。 智算服务是发挥极致集群算力的关键要素,释放算力新质生产力,服务 不可或缺。智算集群是一个复杂工程系统,非简单的软硬件的堆砌,它要求 算、存、网、服务的高效协同。智算服务包含智算集成、运维、计算使能和优 化、辅助运营等方面。发挥极致集群算力,需要构建智算服务产业共识,持续 推进智算服务产业升维。 我们期望通过本案例集的发布,能够进一步促进行业内各方的深度交流 与协同创新,共同推动智算服务发展与应用推广,为构建高效、绿色、智能的 未来计算环境贡献智慧和力量。 全球计算联盟 智能产业发展委员会 2025 年 11 月 2 目 录 智算服务案例集 .............................................................................................................................. 1 序 ...................................................................................................................................................... 1 图目录 .............................................................................................................................................. 3 第一章 产业背景与挑战 ................................................................................................................. 4 1.1 智算产业背景 ................................................................................................................... 4 1.2 智算中心高效应用面临挑战 ........................................................................................... 4 第二章 智算服务架构 ..................................................................................................................... 6 第三章 智算服务案例 ..................................................................................................................... 7 3.1 基础设施类服务 ............................................................................................................... 7 3.1.1 中讯院全流程支撑广东联通深圳智算中心高效交付 ............................................... 7 3.1.2 联通河北政务云智算中心利用数字化平台实现智能建造技术实践 ....................... 8 3.1.3 L1&L2 联动节能在广东移动深圳宝观液冷数据中心的创新实践 .......................... 9 3.1.4 广东电信韶关数据中心间接蒸发冷却技术应用 ..................................................... 11 3.1.5 联合开发智算运维调度系统保证集群训练长稳高效 ............................................. 13 3.2 模型支持和行业应用类服务 ......................................................................................... 15 3.2.1 政府和公共事业 ......................................................................................................... 15 3.2.1.1 面向“一网协同”和“一网通办”场景的大模型应用 ..................................... 15 3.2.1.2 华为 ModelMate RAG+Agent 助力海关共启智能政务新篇章 ............................. 16 3.2.1.3 面向智慧文旅场景的大模型应用-讯飞文旅大模型 ........................................... 17 3.2.2 教育行业 ..................................................................................................................... 19 3.2.2.1 AI 计算使能服务支撑基于昇腾算力的科研创新应用 ...................................... 19 3.2.2.2 大模型全面助力科学教育 ................................................................................... 20 3.2.3 医疗行业 ................................................................................................................... 22 3.2.3.1 AI 赋能全流程患者管理的医疗大模型应用 ........................................................ 22 3.2.4 金融行业 ................................................................................................................... 23 3.2.4.1 证券信创项目 AI 计算使能优化服务实践 ........................................................... 23 3 图目录 图 1 智算中心服务架构图 ..................................................................................................... 6 图 2 智算项目集成交付流程图 ............................................................................................. 8 图 3 智能建造数字化平台 ..................................................................................................... 9 图 4 老旧机楼智算改造和节能焕新 ................................................................................... 10 图 5 干模式运行示意图 ....................................................................................................... 12 图 6 湿模式运行示意图 ....................................................................................................... 12 图 7 混合模式运行示意图 ................................................................................................... 13 图 8 RAG+Agent 工具链及 AI 计算使能方案和价值 ........................................................ 16 图 9 利川模式-文旅城市智慧转型标杆 .............................................................................. 18 图 10 DCS+ModelMate+运营平台解决方案 ..................................................................... 20 图 11 AI 教育课堂评价系统 .............................................................................................. 21 图 12 智医随行大模型 ....................................................................................................... 23 第一章 产业背景与挑战 1.1 智算产业背景 智能计算(简称智算)产业是以 AI、大数据、云计算和高性能计算为核心的新一代信 息技术产业,旨在为各行各业提供高效、智能的数据处理与决策支持能力。随着全球数字 化转型加速,智算产业已成为推动经济增长、科技创新的关键基石。 政策与市场方面,中国“东数西算”工程、美国“人工智能行动计划 2”等政策加速 推进了智算基础设施布局;金融、医疗、制造等行业利用 AI 优化流程,提高生产力和效 率,使得智算服务市场年增速超 30%。 技术驱动方面,深度学习、大模型的兴起,催生了对智能算力的巨大需求;AI 训练和 推理依赖高性能计算专用芯片,提高了对于算力和能耗的需求,推动了智算中心建设。 产业和生态方面,在硬件层面,国际市场生态发展进入高强度竞争和高难度协同状 态,国产算力加速替代;软件层面,PyTorch、TensorFlow 等框架降低 AI 开发门槛,模型 即服务成为新趋势;应用层面,AI 渗透至智能驾驶、智慧城市、生物医药等领域,推动智 算产业化落地。 未来趋势方面,绿色化,智能化和算网融合是算力未来发展趋势。降低 PUE,采用液 冷、可再生能源技术是绿色低碳发展主要的方向;算力调度与网络协同极大提升资源利用 率;大模型持续进化,推动智算向更高阶发展。 智算产业正重塑全球科技竞争格局,成为数字经济时代的核心基础设施,未来将深度 赋能千行百业,引领新一轮产业革命。 1.2 智算中心高效应用面临挑战 当前智算中心的建设如火如荼。但很多智算中心陷入“重建设、轻服务”、“有算力、 无运营”的困境,导致资源利用率低下,投资回报率不达预期。具体有如下几方面的挑 战: 在规划与建设阶段,由于 AI 技术栈复杂,芯片迭代快,技术选择困难,存在目标模 糊,供需错配的问题;许多智算中心在规划时未与产业实际需求紧密结合,建设目标宏大 但空洞,导致算力与本地产业的智能化需求不匹配;智算中心是“能耗巨兽”,在规划阶段 若未充分考虑绿色节能技术和集约化设计,将导致后期运维成本极高,难以持续。缺乏前 瞻性的规划设计易导致智算中心建成即落后。 在运维阶段,如何将不同架构、不同厂商的算力资源高效池化、统一调度和管理,是 一个巨大的技术挑战。智算集群对稳定性与可靠性要求极高,AI 训练任务通常需要连续运 行数天甚至数周,任何硬件故障或网络波动都可能导致任务失败,造成巨大经济损失和时 间成本;智算集群的软硬件耦合深,故障定界困难。从芯片、服务器到集群网络、调度系 统、AI 框架,任何一个环节出问题都可能导致服务不可用,因此对运维团队的技术深度和 广度要求极高。 在运营与优化阶段,仅仅提供裸算力是远远不够的。用户需要的是开箱即用的模型服 务、数据服务、开发平台和工具链;同时需要探索成熟的运营模式和市场推广能力,对算 力、模型、数据进行定价和计费,提供按需付费、订阅制等灵活商业模式;另外,需要吸 引足够多的开发者和 AI 企业在其算力平台上进行应用开发和模型训练,形成繁荣的应用生 态,通过上层应用放大智算中心的价值。 智算中心的挑战,本质上是从“基础设施的建设者”向“算力服务与产业创新的运营 者”角色的转变。不仅要建好算力,还要管好、用好、维好算力。通过智算服务发挥极致 集群算力,齐聚行业力量构建稳健高效的算力平台,持续释放算力价值。 第二章 智算服务架构 智算服务架构总体分为三类:基础设施类服务,模型支持类服务和行业应用类服务。 如下图 1 所示。 图 1 智算中心服务架构图 基础设施类服务包含业务咨询,规划设计,实施建设,运维服务以及运营优化等; 模型支持类服务包含模型选择,数据治理,模型迁移,模型调优以及模型运营等; 行业应用类服务包含通信、互联网、政府和公共事业,金融,教育、医疗等行业的智算 应用。 第三章 智算服务案例 3.1 基础设施类服务 3.1.1 中讯院全流程支撑广东联通深圳智算中心高效交付 深圳智算中心是广东联通首个大规模智算中心,是广东联通在粤港澳大湾区算力基础设 施的重要布局节点。该智算中心的集成交付面临规模巨大、系统复杂,软硬件耦合度高,交 付流程繁多等挑战。中讯邮电咨询设计院承担该智算中心的设计和集成交付工作,全流程支 撑集成交付各个环节,保障项目落地。 深圳智算中心建设规模包括 230 台 GPU 服务器及 36 套磁盘阵列,提供 691Pflops 智能 算力。网络结构复杂,外部连接 CUII、169 等,内部细分为管理、业务、参数面及样本面等 网络,其中参数面和样本面采用 RoCE 无损网络技术。计算资源选用国产 AI 服务器,采用风 冷方案。存储系统使用华为 OceanDisk,分为热存储和温冷存储。云平台采用联通云湾区版, 提供算力适配/调度能力,优化算力利用率。 与传统通算点对点线性交付不同,智算项目交付呈多维度、长周期、多层级等特征,需 一站式统筹 AIDC、网络、能源等规划与预留;平台与网络配置需按大模型训练与推理需求 动态调整,集成昇腾软硬件,适配联通云、星罗平台并实现多系统对接;网络规模大,存储 需求因多模态模型激增;智算集群涉及多层级及大量联调,分布式并行训练对多机多卡同步 要求高,单点故障可能影响整体效率,因此对系统性能、稳定性及跨域协同要求更高,需保 障硬件高耦合下的系统质量与可靠运行。 为保障深圳智算项目高效推进,项目组组建集成交付联合作战室。中讯院智算交付团队 深度参与,与广东联通算网基地紧密联动,同时有效协同监理、集成商、设备及平台厂商开 展联合办公,凭借专业实力有效支撑了集成交付全流程工作。项目交付流程分为四个关键环 节:一是需求确认,由联通明确建设内容与目标;二是方案编制,设计院完成整体建设方案 后,集成商据此制定集成实施方案,平台厂商同步提供技术支撑方案;三是集成实施,集成 商牵头组织设备上架、布线及系统部署,开展集群联调,确保各系统协同运行;四是交付验 收,组织全面联调测试,整理交付文档,推动项目验收并顺利移交运维,保障项目高质量落 地。 图 2 智算项目集成交付流程图 项目实施中,中讯院从多维度强化支撑保障:在智算 LLD 规划与评审支撑方面,深度参 与整体规划,输出涵盖计算、网络、存储等在内的全套技术方案,经过多轮评审与修订,持 续优化网络架构,有效提升系统性能与资源利用率;在线缆采购与布线施工支撑方面,牵头 开展 MPO 线缆采购分析,依据四大原则优选供应商,并制定统一的布线标准,规范线缆布放、 标签标识等关键环节,切实保障交付质量;在 AI 智算集成实施培训方面,编制系统化培训 计划,开设多门课程,面向交付团队开展技术赋能,提升整体实施能力;在测试方面,支撑 覆盖
下载文档到本地,方便使用
共 28 页, 还有 6 页可预览, 继续阅读
文档评分
请文明评论,理性发言.