ppt文档 某高校智算中心解决方案(41页 PPT)

9.91 MB 41 页 1 下载 34 浏览 0 评论 0 收藏
上传 格式 评分
itfangan
.pptx
3
概览
署名 高校智算服务平台 应用解决方案 1 业务背景 2 解决方案 3 业务应用 4 案例介绍 1 智慧校园行业发展趋势 建设 成果 支撑 技术 政策 驱动 力 特征 萌芽期 发展初期 2016 年 迭代升级期 基础设施发展阶段 智慧应用试点示范  师生信息化素养亟待提升  局域线下教育亟线上转型  教育管理亟待信息化升级 应用常态化和融合创新 全面规模化  “ 三通两平台”建设大力推进  启动“互联网 +” 行动计划  数字技术与教学场景亟待融合  教育资源数字化升级,在线课程开发设计  教育信息化建设向技术产品、平台、应用转移  全时域、全空域、全受众的智能学习要求  智能学习体系亟待建设,多种技术融合赋能  全面建设社会主义现代化国家,教育模 式变革,教育现代化  形成全社会共同参与的教育治理新格局  前沿技术融合发展  《教育信息化十年发展规划 (2011-2020) 》  教育信息化“十三五”规划  《教育信息化 2.0 行动计划》  《中国教育现代化 2035 》  《加快推进教育现代化实施方案》  《教育信息化中长期发展规划 (2021-2035 年 ) 》  《教育信息化“十四五”规划》  宽带、 3/4G 、 WiFi4/5 云计 算 ...  大数据、语音识别、图像识别 NB-IoT 、 光纤、云计算、移动互联网 ..  人工智能、 5G 、 WiFi6 、 AR/VR/ MR 、区块链、物联网 ...  人工智能、 6G 、边缘计算、 AR/ VR/MR ...  信息化基础设施建设进展迅速 : 教 育网、校园网、多媒体教室、教 育管理软件等不断普及  2016 年底,我国中小学 ( 含教学 点 ) 互联网接入率 79.37%  AR/VR 、全息试点 ( 单校 ) 区域试点,智慧 教育示范区  2020 年底,我国中小学 ( 含教学点 ) 互联 网接入率 100% , 98.35% 中小学拥有多媒 体教室  数字化校园平台级应用系统、国家精品课程、 移动学习、教育资源云、翻转课堂、慕课  新一代智慧校园 /OMO 模式关注度显著 提升  智能教室、实验室等智能学习空间  智能教学助手、教育机器人、智能学伴等 产品  教育管理和治理大脑  总体实现教育现代化  建成服务全民终身学习的现代教 育体系  实现优质均衡的义务教育  职业教育服务能力显著提升  高等教育竞争力明显提升 快速发展期 2020 年 2025 年 2035 年 智算服务  中央及地方政府相继发布政策推动 AI + 算力的新质生产力的规划 ,国务院、发改委、科技部等已出台十余项国家级政策文件推动人工智能应用的落 地与深入发展 l 北京、广东、 山东、四川、等大量省市出台 人工智能产业生态发展路径 l 各地财务补贴百万 - 亿元 l 国务院、发改委、科技部、中央网 信办相继出台人工智能基础设施及 相关产业规划 产业化 智能化 平台化 发展规划 地方扶持 技术驱动 l A I 技术从感知判别 向生成创造发展 贵州算力券 8000 万、算力资源汇聚、运营调度补助 10%-100 万 政策扶持 市场需求 3 政策技术双驱动 ,整体智算发展加速  在“双一流”建设战略的大背景下 ,国家对于拔尖创新人才的培养、科学研究水平的提升、优秀文化的传承创新以及科研成果的转化推进提出了更 高要求 ,而借助智算来开展科学研究已经成为学科创新的新范式。  高校及科研院所依托人才与创新优势 ,积极投身建设校级高性能计算公共服务平台 ,既能面向全校相关学科科研教学以及业务流程赋能提供算力 支 撑 ,又能依托平台进行产学研合作 ,以加速智算相关成果转化。 流体力学 燃烧模拟 湍流两相反应 空气质量预报 多尺度空气质量模式 大气排放源清单处理模型 地震数据处理 地震资料解释 油藏数值模拟 引力波 脉冲星研究 天体研究 量子化学 分子动力学 混合精度计算 基于深度学习的分子模拟方法 深度势能 核聚变研究 凝聚态物理 等离子体计算 数值大气预报模式 大气环流模式 气候模式 类脑计算 序列比对 序列拼接 电镜三维重构 清华大学”地球模拟器” 首次突破 100T 持续升级 南京大学 AI 超 算 高校首套智算平台 计算能力 3.4P 中南大学 计算性能突破 4.7P 全国高校 NO.1 新能源材料 厦门大学嘉庚实验 室智算平台 AIHPC 融 合 油气勘探 气象气候 计算化 学 环境保 护 计算物 理 计算生 物 天文 CAE 4 高校掀起智算平台建设热潮 ,科研成果转化加速 统一运营 对外运营 拓展外部市场 ,提升智算服务的价值与社 会影响力 ,为高校创造更多的经济与社 会 效益。  需要一套集统一管理、运维、服务功能于一体 ,对内面向全校师生高效运营支撑教学科研、人才培养 ,对外运营支撑高性能计算领域学术交流、 科 研合作和创新的全面智算服务体系。 统一 运维 集成统一的运维管理体系 ,实现对硬 件资源、 计算平台、 软件应用及 AI 大 模型服务的高效监控、 自动化运 维 统一 服务 建立人工智能训练等科研及教学专用 平台 , 为科研人员及学生、 教师提 供 高效、 便捷的科研工具和环境 智算基础设施(计算、 网络、存储、配套) 优化校内资源配置 ,提升智算服务的内 部 效率与满意度 ,促进教学科研活动的顺 利 进行。 统一管 理 实现全校范围内智算资源的集 中管理 ,包括计算资源、 存储 资源、 网络资源等 ,确保资 源 的高效分配与利用。 高校智算建设需求分析 对内运营 5 高校智算建设需求分析 1 业务背景 2 解决方案 3 业务应用 4 案例介绍 目录 1 智算中心: 功能架构 应 算力服务中心基于”开放标准、 集约高效、 自主可控”的原则 , 围绕着硬件、 平台、 能力、 应用进行分层设计 ,建成开放、 智能 的 A I 超算平台 ,提供算力和工具支撑 , 为相关应用提供智能服务 开放的生态体系 基于“开放标准、集约高效、 自主可控”的设计 原则 ,对硬件、平台、应用多厂商兼容适配 ,支 持国产化 多场景适配 训练 - 部署 - 推理一站式服务 ,可用于监视、侦察、 威胁评估、网络安全、情报分析、教育和训练等 场景 高效可靠的 AI 算力 资源按需分配 ,提升资源利用效率 推理服务可下沉边端 ,适应军事场景需求 教务、 教 学 、 教 研 、 教 管 、 教服、 校 园 、 宿 舍 、 食 堂 异构算力适配 模型管理 模型训练 模型开发 算法引擎 服务管理 服务发布 预置能力 固件管理 智能 开放 OP YTr orch 便捷 公共 算力 架构分层解耦 ,硬件、平台、应用多品牌兼容扩 展 细粒度管理 算力调度 算力池化 先进 IP 试 验网 络 视 频 推 理 共享 敏捷 安全 加速 兼容 生态 数据管理 数据标注 数据加工 运营管理 安全管理 资源管理 能力门户 算力云平台 平 台 算力管理 数据平台 人工智能平台 试验 算力 件 应 用 硬 件 智算中心: 算力管理(资源动态分配 , 算力利用率提升) 模 型训练 通过分布式、 虚拟化等技术 ,构建 AI 开发应用所需的算力池 , 并且实现全方位的相关资源管理 ,加速模型开发迭代 ,使 AI 在更 广泛的延伸到相关应用场景中。 Kubernetes + Docker OS ( centos/redhat/ubuntu ) 资源 管理 层 资源 引擎 系统层 物理 资源 计算资源 CPU 服务器 GPU 服务 器 集群弹性伸缩 GPU 资源管 理 模 型推理 资源调度管理 分组管理 容器管理 存储资源管理 集群管理 网络资源管理 网络资源 万兆网 更多 主机管理 镜像管理 存储资源 共享式 自动驾驶 互联网 IB 网 络 分布式 云存储 智算中心: 算力管理(便捷、 灵活、 高效的算力管理体系) 解决 “资源使用紧张、 资源利用低效”等问题 ,将 IT 基础设施(如: 服务器、 存储) 进行统一管控和算力资源细粒度划分、 形 成资源池 , 并提供高效的算力资源分配和任务调度策略。 资源绑定:用户组绑定资源组;用 户 或用户组配额资源 分配灵活:按需动态分配 ,即用即 有、 用完即收 user4 user3 弹性共享:按复用数量进行资 源共 享分配 迁移便捷:用户应用“ 0” 侵入, 代码迁移便捷 资源调度:设备、 网络、 GPU 负 载调度等 策略灵活:用户优先、任务优 先、 均衡使用等 资源 关键: 高效的调度策 略 0 1 2 3 4 5 6 time (H) 基础: 算力资源细粒度切 分 32 GPU 显存 16 8 4 支撑: 资源池化管理和分 配 基于任务、 用户和资源状 况进行任务执行排序 GPU 异构 user2 user1 user1 视觉场景 文本场景 …… 训练 推理 任务 用户 智算中心: 数据中心(面向人工智能 ,数据一站式管理) 实时同步 Greenplum 增量同步 Hadoop 批量同步 …… MySQL 数 据 加 工 One-hot ,特征转换等 2 、数据预处理 数据开发任务的编排调度 预置常用数据加工分析算子 数据治理 数据存储 数据接入 共享:一个门户多种模式的共享体系 以数据共享服务的形式进行数据封装, 提供统一的数据开放共享 ,提供数据 API 、数据应用等多种共享模式 敏捷:新技术赋能数据开发与标注 依托 DataOPS 进行数据应用的快速 开发 ,通过自动化标准能力 ,提升数 据标注效率 安全:多角度的数据安全保障 基于数据集访问权限 ,数据安全沙 箱 ,防下载等实现数据的安全保障 IoT 物联网 Streaming Data 流数据 SQL 结构化 Web 互联网 Logs 日志 Files 文件 用户文件 共享数据 训练数据集 基于 “共享、 敏捷、 安全”的理念 ,提供数据集成、 存储与计算、 加工、 服务等能力 , 以满足人工智能训练过程中敏捷的数 据 开发、 推理过程中稳定的数据供给和数据能力的输出。 F link 数据安全 数据资产 数据模型 数据字典 任务管理 质量分析 自动标注 人工标注 质量管理 权限管理 数据质量、 数据描述等 缺失填补 归一化等 3 、特征工 程 1 、探索分 析 数据标注 第三方接入 数 据 源 训练中心 推理中心 智算中心: 数据中心(端到端数据治理服务) 面向 AI 训练与 AI 应用 ,提供数据接入、 开发、 资产、 标注、 开放的端到端数据治理能力 ,做好数据准备的同时 , 面向人工 智能方 向提升数据质量、 沉淀数据资产、 加速数据共享。 接口 离线采集接口、实时采集接口、爬取接口 标注文件 图片文件、 xml 文件、音频文件 任务 采集任务、数据汇总任务、数据挖掘任务 服务 数据 API 服务、数据交换服务、数据报告服 务、数据应用服务 指标 PI 、 KPI 、 KQI 、 QoE … 以数据共享服务的形式封装数据 ,提供统 一的数据开放共享,提供数据 API 、数据集、 数据应用等多种共享方式 对接口、任务、服务、指标、标注文件 进行数据资产沉淀 ,通过数据地图 ,实 数据资产的全景可视、探索发现 遵循问题发现、分析、解决、评估的闭环 管理模式 ,对数据的运行环境、采集、标 注、消费进行全程的监控评估 提升数据质量 沉淀数据资产 加速数据共享 针 等 现 、 实现校园各类物联网基础设施的统一接入、统一标识、统一管理、统一标准、统一指令集、统一消息分 发,构建行业物联感知体系,助力新型智慧校园、智慧教育等领域建设 建筑配套感知数据 公共交通感知数据 管道设施感知数据 消防设施感知数据 传输网络感知数据 …… 数据处理 帮助业主在海量感知数据中筛选、 分析并应用有价值的数据 数据共享 通过 API ,消息推送等方式,将数据处理 结果进行共享开放 数据接入 支持包括 API 、数据库、中间件等多 种方式实现数据汇聚 数据接入 数据清洗 数据处理 数据开放 数据统计 数据资产 智算中心: 数据中心(各种物联数据接入) 智算中心: A I 人工智能平台 面向深度学习开发场景 ,整合计算资源、 数据资源以及 AI 开发环境 ,实现计算资源统一分配调度、 训练数据集中管理并加速、 模型 流程化开发训练 ,为 AI 研发构建敏捷高效的一体化平台 运营监控 训练监控 进度监控 状态监控 效果评估 应用监控 调用监控 状态监控 效果评估 资源监控 负载监控 硬件指标监控 分配监控 模型训练 数据中心 日志管理 系统设置 环境设置 UI 设置 门户设置 计算 引擎 镜像管理 版本管理 用户组管理 用户管理 功能管理 角色管理 权限管理 A I 能 力 平 台 层 数据标注 数据管理 特征选择 特征提取 特征处理 特征转换 特征工程 数据探索 数据预处理 基础设施资源池 ,提供 AI 运行资源管理、分配、可视化部署监 控 审计日志 系统日志 用户日志 视频推理 视频 分析 视频解析 视频接入 模型优化 指标评估 交叉验证 优化策略 在线反馈 算法自动选择 自动化特征工程 自动化机器学习 自动化调参 推理中心 服务发布 A I 应用层 资源 管理层 资源调度引擎 任务执行引擎 深度学习引擎 机器学习引擎 流程编排引擎 图谱计算引擎 协作 AI 编程平台 可视化建模平台 教研 教学 教务 教管 校园 …… PaddlePaddle TensorFlow OneFlow 预置镜像 一键发布 第三方导入 灰度发布 能力分类 权限管理 版本管理 能力调用 负载均衡 自动化机器学习 智能排序 关联规则 协同过滤 分类预测 离群分析 文本挖掘 回归预测 时序分析 相似度计算 关系挖掘 聚类分析 主成分分析 数据安全 数据标准 数据共享 数据集成 质量管理 协同标注 数据分配 数据采样 自动标注 任务管理 数据生成 特征探索 质量探索 合并排序 探索图表 内容探索 用户权限 训练中心 系统管理 计算框架 智算中心: 训练中心(面向不同角色 , 全过程训练赋能) 模型管理 模型仓库 滚动训练 模型版本 模型发布 … … 模 型 训 练 入建 接搭 据型 数模 资源申请 任务监控 任务管理 训练速度 模型效果 模型优化 训练执行 模型评估 智能:智能化训练工具打造 通过 AutoML 、拖拽式建模实现智能化的 模 型开发 ,训练过程。通过过程监控 ,智 能评 估手段进行模型智能优化 开放:开放的架构体系 支持丰富的 AI 训练框架及算法 ,提供三方 算 子的集成能力 ,可快速适配不同的算力、 框 架、数据 便捷:便捷的模型开发和发布 提供一键环境配置、一键训练提交、一键模 型发布等功能 ,帮助用户快速、便捷的完 成 模型训练与模型发布 算法引擎 深度学习 基础环境 主流计算框架支持 异构算力适配 基于“智能、 开放、 便捷”的理念 , 面向模型架构设计、 代码调试、 模型训练、 参数调整 ,模型评估、 模型管理的所有环节 , 针 对不同角色用户 ,提供对应开发工具 , 以适应不同难度的模型训练需求 拖拽式 交互式编程 AutoML Lasso SVM 随机森林 RNN 网络 逻辑回归 聚类算法 CNN 网络 …… …… 模型开发 开发工具 机器学习 智算中心: 推理中心(推理能力服务化部署) 服务发布 灰色发布 服务发布 服务分析 …… 语音技术 预置能力 AR 技术 镜像管理 加速:实现高效的推理 通过模型压缩、蒸馏等技术 ,面向 不同算力资源 ,进行算力加速适配 兼容:算力、框架、数据类型兼容 面向异构算力、计算框架 ,针对多 模 态数据类型 ,平台具备强大的兼 容能 力 生态合作计划 面向算力、计算框架、预训练模型、 A I 服务等合作伙伴 ,打造生态合作 计 划 ,完成端到端 AI 合作生态 基于“加速、 兼容、 生态”的理念 ,结合大模型、 服务编排等技术 ,实现推理能力的快速调用与跨场景复用 ,通过多种推理能力 的调用模式 ,满足不同模态数据、 不同业务场景的 AI 能力需求。 异构资源适配 ,模型加速优化 , 弹性扩缩容 ,容器化部署 视频推理 能力调用 任务编排 视频抽帧 视频解码 视频接入 语音处理 智能小巴 智能机器人 视频 安 防 API 调 用 固件包部署 人体 & 人 脸 边缘部署 第三方导入 多框架适配 多版本管理 OCR 技 术 服务管理 启停管理 权限管理 权限管理 文本处理 服务监控 知识图谱 一键发布 服务管理
下载文档到本地,方便使用
共 41 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.