ppt文档 智算中心暨电力大模型创新平台解决方案(51页PPT) VIP文档

4.74 MB 51 页 0 下载 8 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
智算中心暨电力大模型 创新平台解决方案 智算 超算 • 1 行业发展分 析 4 主流智算平台介 绍 2 方案架构设 计 3 典型案例 CONTENTS 加入星球获取更多更全的数智化解决方案 智算中心是以 GPU 、 AI 加速卡 [1] 等智能算力为核心、 集约化建设的新型算力基础设施,提供软硬件全栈环境, 主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级 具有较强的普适性,可服务于 toB/toC 适合有智能化转型需求行业,如自动驾 驶、智慧城市, toB 为主 专用性强,主要面向地球物理、分子力 学等基础学科以及军工研究 注 [1] :行业中 GPU 是一个较为泛化的概念,从功能角度划分, GPU 特指具备图形渲染能力的硬件, AI 加速卡特指用于 AI 推理或训练的硬件。本材料主要针对 AI 加速卡进 行分析 TaaS 是指 TensorFlow asa Service ,深度学习平台及行业大数据解决方案 智算中心定义 建设目的 应用领域 主要特征 • 专用 ASIC 芯片为主 • 为大规模科学计算任务提供支撑服 务 带动政府治理及各行各业数智化转型升 级,促进产业 AI 化、 AI 产业化 促进信息服务业云化转型,通过资源共 享及弹性发放,供用户按需使用资源 • CPU 通用算力为主 • 提供 IaaS 、 PaaS 、 SaaS 级 服务 3. 算力、数据、算法的融合平台 4. 以产业创新升级为目标 • GPU 智能算力为主 • 提供 TaaS 任务式服 务 1. 算力公共基础设施 2. 计算架构技术领先 算力的几种形态 超算中心 智算中心 云计算中心 提升国家及地方科研创新能力 第 3 页 美国:以保持国家竞争力为目的,最先发展智能超算中心, 具备单体算力大、科研实验室居多 国内:近两年已有 30+ 城市建成或在建设智算中心,总体 投资规模超千亿,旨在带动当地产业智能化升级 参 AI 领域的竞争是未来世界领导权的竞争 NSF 基础科研 520 亿美元 创新与技术局 290 亿美元 关键技术研发 169 亿美元 应对 AI 的机遇和挑战,争取主动权 数字领域 人工智能领域 计算基础设施 1500 亿欧元 200 亿欧元 96 亿欧元 推动智能计算中心有序发展,打造 智能算力、 通用算法和开发平台一体化的新型 智能基础设施 国家新一代人工智能 创新发展试验区 建设试验区 国家人工智能 创新应用先导区 夯实技术 人工智能基础 设施示范工程 投资补贴 全球:数据的高速增长带来 AI 算力需求激增, 到 2030 年, AI 算力需求增长约 390 倍 来源:罗兰贝格 国内:我国智算增长迅速,智算占比从 2021 年的 51% 跃升为 2023 年的 70% 来源:中国信通院《中国算力发展指数白皮书( 2022 )》 政策加持国内外提前布局,智能算力需求激增 各国政府布局 AI 领域全栈能力,并出资引导智能算力基础设施建设, AI 智能算力增速远超摩尔定律 智算中心主要由国家政府总体牵头建设,同时基础设施提供商积极参与 l 2022 年 11 月 30 日, OpenAI 的对话式 AI 大模型 ChatGPT 横空出世,月活破亿仅用时两月,成为史上增长最快的消费类应用 ,展现出解放人类生产力的惊人潜 质 l 微软作为 OpenAI 第一批投资者,通过优先使用该技术赢得先机,并将 ChagGPT 与旗下所有产品( Bing 、 Office 、 Azure )进行整合 ,加速了 ChatGPT 商业 智算增长趋势 智算中心布局 政策驱动 行业发展情况 第 4 页 结合行业发展报告 , 12 个重点场景有较大 AI 算力需求及发展空间, 工业仿真 AR/VR 高清视频 / 影视渲染 数智人形象渲染 市场成熟度 ★★★★ 整体空间 ★★★★ 根技术:渲染 数字孪生 3D 交互 / 自然交互 3D 立体视频 数字虚拟人 物理世界三维建模 图像渲染 市场成熟度 ★ 整体空间 ★★★★★ 根技术: CV+NLP+ 语音 + 多模态 + 渲染 ... 智能语音问答 智能网联汽车 视觉感知 决策分析 车路协同 L4-L5 级自动驾驶 预测预警 市场成熟度 ★ ★ 整体空间 ★★ ★★ ★ 根技术: CV+NLP+ 语音 + 决策 智慧制造 智慧安防 智慧交通 智慧农林 智慧物流 智慧政务 自 然灾害应急管理 资源环境治理 市 场 成 熟 度 ★ ★ ★ ★ ★ 整 体 空 间 ★ ★ ★ ★ ★ 根技术: CV+NLP+ 语音 + 决策 药物研发 气候预测 石油勘探 市场成熟度 整体空间 分子动力学 天气预报 材料科学 ★ ★ ★ ★ ★ ★ 根技术: HPC+AI 跨模态大模型 药物模型 自动驾驶大模型 金融模型 网络智能化模型 市场成熟度 整体空间 ★ ★ ★ ★ ★★★★★ 根技术: CV+NLP+ 语音 + 多模态 ... CT/MRI 影像分析 疾病辅助诊断与早期筛查 蛋白质结构预测 新药研发 市场成熟度 ★★ 整体空间 ★ ★★ ★ 根技术: CV+NLP 网络故障诊断及预测 智能决策 智慧业务办理 市场成熟度 ★★★★ 整体空间 ★★★ ★ 根技术: NLP+ 语音 + 决策 智算中心典型需求场景 智慧电网 智慧油田 遥感测绘 新闻、视频、购物 App 内容推荐 金融、通信、物流 客服 风险分析 精准营销 AI 主要应用场 景 多媒体渲染 模型训练 智慧医疗 自动驾驶 智慧运营 科研应用 AI+ 视频 元宇宙 智能客服 推荐 智慧金融 智慧能源 第 5 页 l 场景: 利用无人机搭载高清摄像 头采集输电线路影像, 通过视觉 大模型识别线路缺陷。 l 应用价值: 实现缺陷自动识别 , 准确率≥ 99% ,减少人工巡检工作 量, 提升巡检效率和安全性 。 国 产 化 适 配 : 采 用 昇 腾 GPU+MindSpore 视觉框架 , 适 配国产硬件和深度学习平台。 l 场景: 基于历史负荷数据 、气象 数据和电网拓扑结构 ,预测未来 短期和中长期电力负荷。 l 应用价值: 短期负荷预测误差 < 3% , 中长期< 5% , 助力电网调 度优化, 降低运营成本 。 国产 化 适配: 使用华为云盘古电力 预训 练模型 ,基于 MindSpore 框架开 发 ,适配国产云服务。 l 场景:通过自然语言处理技术理解 用户咨询和报修工单 ,实现自动回 复和工单分类。 l 应用价值: 自然语言理解工单, 响 应效率提升 50% ,改善用户体验 , 提高客服工作效率。 国产化适配: 采用寒武纪 NPU 推理 + 中文预训 练 模型 ,适配国产推理芯片和语 言模 型。 主流场景及需求 智能客服与工单处理 电力负荷预测 输电线路智能巡检 电力行业核心场景与价值 第 6 页 数据孤岛问题 模型泛化差问题 新能源并网优化 • 问题描述:电网 PMS 、 GIS 、 SCADA 等系统数 据 分散 ,难以整合利用。 • 解决方案:大模型整合多 源数据 ,打破数据孤岛, 实现数据共享和协同分析。 • 国产化适配:使用国产数 据接口和数据治理平台 , 如南瑞继保 IEC 61850 协 议适配器。 • 问题描述:光伏、风电出 力预测不准确,导致弃电 率高,影响新能源消纳。 • 解决方案:科学计算大模 型联合仿真,光伏 / 风电 出 力预测精度提升,弃电 率 降低 8% 。 • 国产化适配:采用国产 CAE 软件与大模型联合仿 真,适配新能源并网优化 需求。 • 问题描述:通用大模型在电 力 领域适配性差 ,难以满足 特定 场景需求。 • 解决方案:电力领域预训练 模 型(如华能“ 电盘古 ”)提 升 场景适配性 ,优化模型性 能。 • 国产化适配:基于国产深度 学 习框架和预训练模型 ,适 配电 力行业应用场景。 电力行业核心场景与价值 第 7 页 超算中心融合管理子系统 (包含统一门户) 高速网络交换子系统 通用 CPU 算力子系统 GPU 智算子系统 HPC 超算子系统 全闪存存储子系统 高性能文件存储子系统 超算智算中心系统组成 第 8 页 典型超算智算中心核心系统单元包含通用计算子系统、智能计算( AI ) 子系统和高性能计算( HPC ) 子系统。 l 超算计算节点和智能计算节点分别通过 IB/RoCE 网络等高速网络交换子系统进行高速互连; l 集成多层次、 多协议、 多种数据保护模式的全闪存存储系统和高性能并行文件存储系统 , 以及配套的信 息安全子系统和超算中心融合管理子系统。 典型超算数据中心架构 信息安全子系统 1. 对外连接网络(网络出口层)分为 CMNeT 、 云 专网、 IP 专网 1.CMNeT :用于公众用户访问智算中心 2. 云专网:用于智算中心间互联、训推互联 3. IP 专网:用于远程管理 2. 内部互联网络分为业务 / 存储网络、管理网络、 参数面网络、 数据面网络 1. 业务 / 存储网络:业务网络用于互联网用户访问智算 / 通 算 等资源, 存储网络用于调用共享存储资源 2. 管理网络:主要包括业务管理( K8S 平台、安全管理系 统 等)和 IPMI 3. 参数面网络:采用 RoCE/IB 实现集群内所有 AI 加速卡的 高 速互联 4. 数据面网络:采用 RoCE 实现智算集群与高性能文件存 储 的高速 互联 智算中心组网分业务 / 存储、管理、参数面、数据面四个网络平面,与通算相比,智算组网新增参数面网络及数据面网络,采用 RoCE 全 连接无损组网,充分发挥智算并行计算优势,同时组网整体无容灾设计,对运维工作带来新的挑战。 智算中心架构与通算有较大区别 l 第 9 页 2 方案架构设计 3 典型案例 4 主流智算平台介绍 5 项目优势 1 行业发展分 析 CONTENTS 强电系统 弱电系统 不间断电源系统 制冷系统 监控系统 消防系统 机房工程 管理节点 AI 计算集群 HPC 计算集群 通用云计算集群 高速存储集群 (并行文件存储) 高速 RDMA 网络 统一运营管理平台 服务目录 项目管理 用户管理 配额管理 计费管理 总览视图 权限管理 规格定价 操作日 志 总体方案架构 l 人工智能平台 数据处理 模型开发 模型训练 自动建模 模型部署 模型推理 模型管理 模型监控 主要包括 AI 智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等。 平 台 安 全 运 维 监 控 平 台 云主机 裸金属 镜像服务 对象存储 硬件基 础设施 基建基 础设施 应用中心 自动化部署 预置算法框架: PyTorch 、 Tensorflow 、 PaddlePaddle.. . 集成开发环境: Jupyter Lab 、 VSCode 作业管理 编译器 调度策略 数据管理 资源监控 并行环境 软件 基础 设施 云硬盘 VPC 高性能计算平台 方案架构 通用算力平台 第 11 页 云技术底座 基础模型: 华为云盘古电力大模型 (行业定制版) , 基于 MindSpore 框架开发。 模 型 类 型 : 时 序 Transformer+ 图 神经网络( GNN ) 融合架构 ,适配 电网拓扑结构。 国产化适配:支持昇腾 910B 算子优 化 , 提升模型在国产硬件上的运行 效率。 参数量: 130 亿参数(含电力领域 知识注入) ,通过昇腾 CANN 工具 压缩至 80 亿参数(压缩率 38% ) 。 优化策略:采用量化技术 ( FP32→ INT8 ) 结合知识蒸馏 ,推 理延迟降低 50% ,精度损失< 2% 。 国产化适配:使用昇腾 CANN 工具 进行模型压缩 ,适配 国产硬件和开 发平台。 输入特征:历史负荷数据( 1440 维 时序) + 气象数据(温度 / 湿度等 20 维) + 电网拓扑特征(邻接矩 阵) 。 输出结果:未来 15 分钟 - 7 天负荷 预测值 ,分时段精度要求: 短期 < 3% , 中期< 5% 。 国产化适配:数据预处理组件采用 飞桨 PaddlePaddle ,适配国产数 据处理框架。 数据清洗与增强 清洗规则:剔除异常值( 3σ 原则) 、填补 缺失值(线性插值) 、 归一化( Min- Max 缩放至 [- 1,1] ) 。 增强策略:时序数据采用时间窗口滑动 (窗口大小 24*60 分钟) ;影像数据采用 旋转 / 翻转 / 噪声注入。 工具 / 平台:昇腾 AI 开发平台 ( ModelArts ) 数据增强模块 ,提升数据质 量。 数据采集与接口 数据采集:从 SCADA 系统抽取分钟级负荷 数据 ,分辨率 1 分钟;无人机影像分辨率 ≥ 4K 。 技术细节:采用国产化数据接口(南瑞继 保 IEC 61850 协议适配器) ,确保数据采 集 的稳定性和兼容性。 工具 / 平台:使用华为云 DataArts 数据治 理 平台 ,进行数据的清洗和预处理。 基础模型与架构 参数量与优化 输入输出设计 模型架构参数 数据集划分 划分比例:训练集 : 验证集 : 测试集 =7:2:1 , 按时间顺序划分 ,避免未来信息泄露。 技术细节:自主研发电力数据划分工具 ( Python 实现) ,确保数据划分的合理 性 和科学性。 工具 / 平台:使用 Python 编程语言实现数 据集划分 ,适配电力行业数据特点。 数据预处理参数 基座模型选型及预训练参数 l 第 12 页 1. 数据预处理 • 数据清洗、标准化及特征工程 2. 模型训练 • 输入:标准化后的数据集 • 昇腾集群分布式计算: • 多节点并行计算梯度 • 参数服务器架构更新模型参数 • 节点间同步最新参数 • 验证评估: • 定期计算预测误差 • 反馈调优信号指导模型优化 3. 模型压缩 • 将 FP32 转换为 INT8 量化推理模型 • 优化模型体积和计算效率 4. 边缘部署 • 推送 INT8 模型至变电站 NPU 节点 • 完成边缘侧模型部署 学习率策略:初始学习率 1e- 4 ,余弦退火衰减(周期 200epoch ), 动态调整学习率。 训练时长:单卡训练约 120 小时,集群训练约 15 小时,线性加速比 8.5 倍,显著提升训练效率。 技术细节:采用梯度累积(累积 4 批次更新一次参数) ,优化训练 过程。 硬件配置:昇腾 910B ×8/ 节点, RoCE v2 网络(带宽 200Gbps ), 构建高效分布式训练环境。 框架优化:自动并行策略(数据并行 + 模型并行混合), 提升分布 式训练性能。 优化器选择:分布式优化器( Horovod+ 昇腾通信库), 优化梯度 同步和参数更新。 硬件配置:昇腾 910B × 1 ( 640TOPS , 32GB HBM ), 适配单 机训 练需求。 框架选择: MindSpore 2.2 (静态图模式), 优化训练效率。 批次大小:时序数据 2048 样本 / 批, 影像数据 32 样本 / 批,适配 不同 数据类型。 技术细节: NPU (寒武纪 MLU370 )专用于电力行业 AI 推理,如设备缺陷识别、实时告警。 架构描述: 构建异构计算架构,涵盖国产 CPU 、 GPU 、 NPU 及国际 GPU ,满足不同计算需求。 国
下载文档到本地,方便使用
共 51 页, 还有 2 页可预览, 继续阅读
文档评分
请文明评论,理性发言.