pdf文档 数据观:2024年全国一体化算力网应用优秀案例集 VIP文档

3.94 MB 57 页 0 下载 32 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
1 全国一体化算力网 应用优秀案例集 (25 个) 国家数据局发布 数据观整理 2024 年 9 月 2 前 言 8 月 28 日,国家数据局在 2024 中国国际大数据产业博 览会“数算一体,驱动未来”交流活动上发布《全国一体化 算力网应用优秀案例集》。 为充分展示全国一体化算力网建设领域取得的应用成 效,国家数据局前期组织开展了“全国一体化算力网应用优 秀案例”征集遴选工作。各地方积极响应、踊跃参加,共推 荐报送案例 221 个,涵盖多元算力一体化布局、东中西部算 力的一体化协同、算力与数据算法一体化应用、算力与绿色 电力一体化融合、算力发展与安全保障一体化推进等五个方 向。 首批遴选出 25 个优秀案例,旨在展现这一领域的探索 成果和创新突破,加快推动全国一体化算力网建设,赋能经 济社会发展。 3 目 录 一、多元算力一体化布局.......................................................................................................................1 案例 1.构建算力基础设施 铸就多元算力一体化布局................................................................1 案例 2.异构融合、应用引领、促进数据互联互通的超算互联平台..........................................2 案例 3.临港算力创新实践 提升枢纽节点集约化成效................................................................4 案例 4.打造智算算力网 AI 开发平台 助力人工智能基础设施发展..........................................6 案例 5.构建算网融合平台 赋能行业场景应用............................................................................8 案例 6.以算力赋能人工智能产业发展 打造东数西算成渝枢纽新引擎..................................10 案例 7.贵州枢纽节点算力调度平台实践 融入全国一体化算力网规划..................................12 案例 8.绿色智能算力“铁三角”赋能千行万业........................................................................14 案例 9.构建算力调度服务体系 提升算力资源服务效能..........................................................16 案例 10.算力跨域试验场 开源互联新生态................................................................................18 二、东中西部算力的一体化协同.........................................................................................................20 案例 11.“三重网络三重算”构建园区新质生产力..................................................................20 案例 12.打造国家枢纽节点公共传输通道服务能力 有效提升“东数西算”网络传输效能 ................22 案例 13.长三角枢纽芜湖集群算力公共服务平台 提供一站式算力服务................................25 案例 14.东西联动、融合创新 助力东西部数字经济融合发展................................................27 案例 15.打造算力网实验场 加速融入全国一体化算力网........................................................29 案例 16.国产 V2V 自主可控协议体系 支撑东西部算力一体化协同........................................31 三、算力与数据算法一体化应用.........................................................................................................33 案例 17.“东数西算”实现“算力数据算法”融合 构建智驾行业数字化竞争力................33 案例 18.基于算力、数据与算法一体的跨主体数据多方安全计算实践..................................36 案例 19.构建基于“东数西渲”的渲染云基础设施底座..........................................................38 四、算力与绿色电力一体化融合.........................................................................................................40 案例 20.探索“绿电聚合供应”模式 实现京津冀枢纽张家口集群算电高效协同................40 案例 21.内蒙古枢纽打造绿色可溯源和林格尔集群 推进算电协同发展................................42 案例 22.甘肃枢纽庆阳集群源网荷储一体化建设 推进算电协同深度融合............................45 案例 23.建设“零碳数据中心”助力算力与绿色电力一体化融合..........................................48 五、算力发展与安全保障一体化推进.................................................................................................50 案例 24.粤港澳枢纽韶关集群打造一体化安全体系,保障数据中心集群可控...................... 50 案例 25.打造宁夏枢纽节点云安全运营管理平台,有效保障网络与数据安全...................... 51 1 一、多元算力一体化布局 案例 1.构建算力基础设施 铸就多元算力一体化布局 推荐单位:北京市政务服务和数据管理局、北京市通信 管理局 申报单位:中国电信股份有限公司北京分公司、天翼云 科技有限公司 随着人工智能大模型应用蓬勃发展,大模型训练存在的 计算显存限制、风冷算力密度较低、智算资源利用率较低等 问题日益突出。中国电信不断优化算力设施建设布局,加快 研发落地息壤算力调度平台,显著提升算力协同调度能力, 实现多元算力一体化布局。 一是建设超大规模高性能智算中心,赋能行业数字化转 型。建设业内领先的液冷高性能公共智算中心,提供 4000PFlops 总算力供给,可满足万亿参数模型训练。采用基 于全栈 AI 软硬件平台方案,实现算、存、网、电、冷一体 化设计,实现电能利用上的增效,依托超大规模智算集群强 大计算能力,赋能千行百业数字化、智能化转型。 2 图 1 “超大规模液冷智算集群”平面部署图 二是打造智算服务平台,满足多场景需求。依托天翼云 自主研发的“慧聚”“云骁”“息壤”三大平台,提供高算 力、高吞吐、高兼容性训练能力,支持第三方算力以算力插 件模式实现标准化接入,支持主流框架及芯片,有效满足大 规模、高性能、多样化异构算力跨区域调度需求。 图 2 智算调度平台架构图三是发布互联互通验证平台,提升算力协同效率。 三大平台实现通算、超算、智算的统一资源注册接入, 3 算网一体化调度,算力交易等核心功能,通过“算力调度服 务”相关认证,不仅可以促进跨主体、跨地区、跨架构的算 力互联互通,而且能够优化算力资源配置效率、增强多场景 适应能力。目前,息壤已接入智算算力 22EFlops,纳管适配 多种智算芯片,支撑北京区域近 200 家企事业单位数字化、 智能化转型升级,产生了良好的经济社会效益。 案例 2.异构融合、应用引领、促进数据互联互通的超算互联平台 推荐单位:天津市数据局 申报单位:国家高性能计算机工程技术研究中心 国家高性能计算机工程技术研究中心以应用引领、实现 算力高效利用为目标,构建了国产软硬件协同、跨区域算力 调度的超算互联平台。平台以互联网模式运营算力设施,实 现了对分布式算力资源的统筹调度,形成了互利共惠的算力 生态圈,促进了我国算力资源的高效利用。超算互联平台实 现了三方面的技术和模式突破: 一是构建了多元异构算力资源池。通过应用封装、算力 标准化等方式,连接“东数西算”工程西部(重庆)科学城 先进数据中心等多种形态的算力资源,实现了全国 14 省 20 余城市 100 余家算力联合体成员的全面入网,统筹异构算力, 完成多元算力高效组网。 二是打造了支撑算力互联服务的软件生态。通过建立共 4 性工具库、数据集、应用软件库等,实现了连接上游 270 余 家各类应用服务商、下游 100 余个行业的软件生态构建,支 撑了 1000 余个应用场景的算力需求,促进算力供需方的高 效对接,推动算力广泛应用。 三是支撑了算力应用领域的标准化体系建设。规范算力 的接入、调度、服务和运营等,发布《超算互联网白皮书》, 完成多项国家标准、团体标准的立项和研制,积极推动我国 算力服务标准化发展。 截至目前,超算互联平台发布算力商品 6000 余款,服 务用户超 10 万个,形成算力多元、领域全面、高效运行的 服务平台,促进我国算力资源的网络化、普惠化、标准化发 展,支撑构建全国一体化算力网建设。 图 1 超算互联平台整体架构 案例 3.临港算力创新实践 提升枢纽节点集约化成效 推荐单位:上海市数据局 5 申报单位:临港算力(上海)科技有限公司 针对当前国内算力供给存在多元组合算力交付周期长、 算力资源分散难以被集中调用等问题,临港算力(上海)科 技有限公司与长三角国家枢纽节点上海青浦集群加强业务 协同,通过一系列工程和技术创新实践,提升枢纽节点集约 化成效。 一是建设创新型的“两弹一优”基础设施。临港算力网 通过弹性供电、弹性供冷、机房气流组织优化的“两弹一优”, 实现多元算力组合快速交付。弹性供电方面,通过机柜设备 的“小母线+弹性方舱”配电系统,一舱解决不同客户集群 部署模式带来的机柜功率变化需求。弹性供冷方面,采用冷 冻水系统、热管多联系统、液冷系统等多种数据中心冷却手 段,统筹预留基础设施管井及接口,实现制冷技术弹性应用。 机房气流组织优化方面,通过流体动力学模拟计算机架和机 房的气流组织,精细化设计冷热通道,开展建设性设计和周 期性优化,综合提升供冷效率。 6 图 1 弹性制冷循环系统与能效分布图 二是通过创新性研究解决行业难点问题。通过使用中距 离跨区 RDMA(远程直接内存访问)进行市内算力组网,解决 算力资源分散无法被集中调用的问题。通过使用跨区 RDMA 协议和广域拓扑感知并行策略,对跨数据中心大模型训练提 出针对性模型训练策略建议,为客户提供合适的解决方案, 提升训练效率。联合国内算力上下游生态合作伙伴为客户提 供适配测试服务。 自 2023 年 9 月投入运营以来,建设大规模商用液冷资 源池,通过“两弹一优”实践创新解决机柜功率的变化需求, 支持单列机柜功率密度从 8kW 到 48kW 之间灵活适配。目前, 跨区 RDMA 组网已完成 128、512 卡 30KM 对比验证,训练效 率可达单集群的 95%以上,完成 5 家大模型训练性能测试, 支撑星辰 115B 等基础大模型平稳训练,集群可用率达到 90% 以上。 案例 4.打造智算算力网 AI 开发平台 助力人工智能基础设施发展 推荐单位:江苏省数据局 申报单位:中科南京信息高铁研究院 当前,人工智能基础设施存在技术标准不统一、算力使 用门槛高等问题。中科南京信息高铁研究院研发智算算力网 AI 开发平台,统筹纳管异构异属异域的智算资源,实现全局 能用、好用。 7 一是汇聚三异智算算力资源,实现多元算力协同。智算 算力网 AI 开发平台汇聚异构异属异域的三异智算算力资源, 通过代理与适配两种并网模式构建一个全局可用的智算算 力资源域,基于协同调度服务,实现智算算力资源的全局共 享,构建了南京、昆山与郑州三地的智算算力网。 图 1 智算中心集群图 二是构建全流程 AI 能力体系,降低智算算力使用门槛。 构建覆盖 AI 算法开发全生命周期的 AI 能力,提供 6 种 AI 开发框架、3 种分布式训练加速框架、4 种分布式并行训练 策略以及弹性高性能推理等能力,提高大模型开发效率,适 配 4 种底层智算异构资源,提供统一的智算算力网页。 三是创新平台运营模式,减少用户算力使用成本。通过 构建融合运营模式整合多方运营平台,实现智算资源池统一 运营,将账单管理、资源规格管理等业务模块进行统一管理。 平台上线后,用户算力月度成本从 10021.26 元/P 降至 6062.79 元/P,降幅达 39.5%,与同类平台用户月度平均费 8 用相比成本降低 50.96%。 图 2 大模型应用案例示图 目前,智算算力网 AI 开发平台累计落地 7 个领域的 50 多个科研行业大模型,如翻译大模型“百聆”,抗体结构预 测大模型,医疗大语言模型等,以“三异四入”模式,实现 3 个算力中心的“三异”算力并网,提供覆盖 5 个园区、15 家重点企业、3 所高校及 200 户家庭算力终端的“四入”服 务。 案例 5.构建算网融合平台 赋能行业场景应用 推荐单位:山东省大数据局 申报单位:山东省计算中心(国家超级计算济南中心)、 济南超算产业发展有限公司 当前,我国算力资源面临跨域调度难、国产算力生态欠 佳等挑战。山东省计算中心(国家超级计算济南中心)贯彻 落实构建全国一体化算力网的决策部署,统筹跨域多元算力 9 融合一体化发展,打造了覆盖全省的一体化算力网工程,实 现了多元算力的高效汇聚、纳管和服务。 一是突破算网融合技术壁垒,打造高性能算网平台。山 东省计算中心加快推进长距无损网络通信、跨域算网资源全 局调度等关键技术研发应用,成功推动“山东算网”平台上 线,实现 5 种算力架构、3 类 12 种算力集群、5 类存储系统 的接入和感知,支持大数据、人工智能、高性能计算等融合 计算场景。 二是构建区域一体化算网体系,积极融入国家算力枢纽。 建成以济南—青岛超算为两大核心节点、连接山东 16 市骨 干节点和 100 余个边缘节点的省域算力网络,接入天津超算、 鹏城云脑等国家级算力平台,融入京津冀、粤港澳大湾区、 甘肃、宁夏、内蒙古等算力枢纽节点建设,实现与枢纽节点 的算力共享。 三是融合跨域异构算力资源,推动算网赋能千行百业。 汇聚融合全省 16 地市及周边省份算力资源,提供多元化算 力服务,入网算力中心资源利用率平均提升 40%,赋能海洋、 空天、环保、教育、数字政府、人工智能等领域 1000 多个 应用场景,打造算力产业链多元协同运营管理模式,构筑算 网服务生态。 山东省计算中心“山东算网”平台汇聚了全省高性能算 力、智能算力,提供行业数据集 9PB、模型算法 90 种、计算 10 软件 1500 余款等全要素算网服务,累计服务各类行业用户 3000 余家,直接经济效益 10 亿元,为用户节省算力与运维 投入 5 亿元。 图 1 算网服务支撑平台 案例 6.以算力赋能人工智能产业发展 打造东数西算成渝枢纽新引擎 推荐单位:四川省发展和改革委员会(四川省数据局) 申报单位:智算云腾(成都)科技有限公司 为全面落实国家“东数西算”工程战略部署,作为成渝 国家枢纽节点天府数据中心集群首批智算中心,成都智算中 心以人工智能应用需求为牵引,持续提升高质量智能算力供 给能力,强化高性能算力互联互通,不断提升算力资源利用 率和软硬件适配水平,孵化算力调度与模型赋能相结合的创 新成果,积极推动全国一体化算力网建设。 一是需求牵引,持续提升区域人工智能产业供给能级。 11 在天府数据中心建设 FP16、FP32 等多精度、多样化智能算 力,并通过多样化算力扩容建设强化高质量算力供给能力。 累计服务本地用户 200 余家,平均降低算力成本约 2/3,在 智慧城市、医疗、交通等成都市优势领域孵化 280 余项人工 智能解决方案,完成主流 NLP 大模型本地环境适配,实现区 域化人工智能生态聚集。 二是跨域联动,重点推进西部高性能算力互联互通。立 足成渝国家枢纽节点布局,筹划建设四川算力调度服务平台, 探索共建川渝协同一体化算力调度体系,可调度算力超过 200PFlops,覆盖成渝双城经济圈企业 150 家以上,实现西 部地区高性能算力的高效互联与利用。建设鹏城实验室全国 开源平台分中心和 C2NET 算力网西部运营中心,每年接入算 力约 11 万卡时。 三是东西协同,积极开展人工智能大模型孵化研究。牵 引东部算力需求,联合研究孵化了跨模态遥感数据生成式预 训练大模型“空天·灵眸”、金融领域千亿级参数大模型“玉 兰”、新一代短临气象预报基础模型“蓉城·夔牛”等多个 人工智能大模型并成功落地应用,实现了东西部数据高质量 传输和按需配置,算力资源使用效率持续保持 95%以上。 12 图 1 面向跨模态遥感数据的生成式预训练大模型“空天·灵眸” 案例7.贵州枢纽节点算力调度平台实践 融入全国一体化算力网规划 推荐单位:贵州省大数据发展管理局 申报单位:贵州省算力科技有限责任公司 根据《深入实施“东数西算”工程 加快构建全国一体 化算力网的实施意见》等文件有关打造全国一体化的算力监 测调度平台体系,促进算力资源跨地区高效协同的要求,贵 州算力公司从贵州实际出发,着力打造全国一体化算力网络 国家(贵州)枢纽节点调度平台(以下简称“调度平台”), 汇聚全省算力资源,重点解决算力资源供需匹配不足、资源 分散建设等问题,实现算力接入更可信、交易更便捷、调度 更高效、服务更普惠,全面助力全国一体化算力网建设。 一是建设“大衍”算力调度平台,实现多元算力汇聚调 度。调度平台突破算力度量、算力感知、算网融合多项技术, 全面支持通算、智算、超算多种异构算力的统一接入、统一 13 封装、统一调度;灵活根据算效、碳效、时延、安全等策略, 实现算力有效调度,服务“东数
下载文档到本地,方便使用
共 57 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.